久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔
站長(zhǎng)百科 | 數(shù)字化技能提升教程 數(shù)字化時(shí)代生存寶典
首頁(yè)
數(shù)字化百科
電子書
建站程序
開(kāi)發(fā)
服務(wù)器
辦公軟件
開(kāi)發(fā)教程
服務(wù)器教程
軟件使用教程
運(yùn)營(yíng)教程
熱門電子書
WordPress教程
寶塔面板教程
CSS教程
Shopify教程
導(dǎo)航
程序頻道
推廣頻道
網(wǎng)賺頻道
人物頻道
網(wǎng)站程序
網(wǎng)頁(yè)制作
云計(jì)算
服務(wù)器
CMS
論壇
網(wǎng)店
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航
WIKI使用導(dǎo)航
WIKI首頁(yè)
最新資訊
網(wǎng)站程序
站長(zhǎng)人物
頁(yè)面分類
使用幫助
編輯測(cè)試
創(chuàng)建條目
網(wǎng)站地圖
站長(zhǎng)百科導(dǎo)航
站長(zhǎng)百科
主機(jī)偵探
IDCtalk云說(shuō)
跨境電商導(dǎo)航
WordPress啦
站長(zhǎng)專題
網(wǎng)站推廣
網(wǎng)站程序
網(wǎng)站賺錢
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航專題
云計(jì)算
微博營(yíng)銷
虛擬主機(jī)管理系統(tǒng)
開(kāi)放平臺(tái)
WIKI程序與應(yīng)用
美國(guó)十大主機(jī)
編輯“
了解搜索引擎
”(章節(jié))
人物百科
|
營(yíng)銷百科
|
網(wǎng)賺百科
|
站長(zhǎng)工具
|
網(wǎng)站程序
|
域名主機(jī)
|
互聯(lián)網(wǎng)公司
|
分類索引
跳轉(zhuǎn)至:
導(dǎo)航
、?
搜索
警告:
您沒(méi)有登錄。如果您做出任意編輯,您的IP地址將會(huì)公開(kāi)可見(jiàn)。如果您
登錄
或
創(chuàng)建
一個(gè)賬戶,您的編輯將歸屬于您的用戶名,且將享受其他好處。
反垃圾檢查。
不要
加入這個(gè)!
==搜索引擎面對(duì)的挑戰(zhàn)== 搜索引擎系統(tǒng)是最復(fù)雜的計(jì)算系統(tǒng)之一,當(dāng)今主流搜索引擎服務(wù)商都是有財(cái)力和人力的大公司。即使有技術(shù)、人力、財(cái)力的保證,搜索引擎還是面臨很多技術(shù)挑戰(zhàn)。 ===頁(yè)面抓取需要快而全=== [[互聯(lián)網(wǎng)]]是個(gè)動(dòng)態(tài)的內(nèi)容網(wǎng)絡(luò),每天有無(wú)數(shù)頁(yè)面被更新、被創(chuàng)建,無(wú)數(shù)用戶在網(wǎng)站上發(fā)布內(nèi)容、溝通聯(lián)系。要返回最有用的內(nèi)容,搜索引擎就要抓取最新的頁(yè)面。但是由于頁(yè)面數(shù)量巨大,搜索引擎蜘蛛更新一次數(shù)據(jù)庫(kù)中的頁(yè)面要花很長(zhǎng)時(shí)間。搜索引擎剛誕生時(shí),這個(gè)抓取周期往往以幾個(gè)月計(jì)算。這也就是為什么[[Google]]在2003年以前每個(gè)月有一次大更新。 現(xiàn)在主流搜索引擎都已經(jīng)能在幾天之內(nèi)更新重要頁(yè)面,權(quán)重高的網(wǎng)站上的新文件幾小時(shí)甚至幾分鐘之內(nèi)就會(huì)被收錄。不過(guò),這種快速收錄和更新也只能局限于高權(quán)重網(wǎng)站。很多頁(yè)面幾個(gè)月不能被重新抓取和更新,也是非常常見(jiàn)的。 要返回最好的結(jié)果,搜索引擎也必須抓取盡量全面的頁(yè)面,這就需要解決很多技術(shù)問(wèn)題。一些網(wǎng)站并不利于搜索引擎蜘蛛爬行和抓取,諸如網(wǎng)站鏈接結(jié)構(gòu)的缺陷,大量使用[[Flash]],[[JavaScript]]腳本,或把內(nèi)容放在用戶必須登錄以后才能訪問(wèn)的部分,這都提高了搜索引擎抓取內(nèi)容的難度 ===海量數(shù)據(jù)存儲(chǔ)=== 一些大型網(wǎng)站一個(gè)網(wǎng)站就有百萬(wàn)千萬(wàn)頁(yè)面,可以想象網(wǎng)上所有網(wǎng)站的頁(yè)面加起來(lái)是一個(gè)什么數(shù)據(jù)量。搜索引擎蜘蛛抓取頁(yè)面后,還必須有效存儲(chǔ)這些數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)必須合理,具備極高的擴(kuò)展性,寫入及訪問(wèn)速度要求也很高。 除了頁(yè)面數(shù)據(jù),搜索引擎還需要存儲(chǔ)頁(yè)面之間的鏈接關(guān)系以及大量歷史數(shù)據(jù),這樣的數(shù)據(jù)量是我們用戶無(wú)法想象的。據(jù)說(shuō)Google有幾十個(gè)數(shù)據(jù)中心,上百萬(wàn)臺(tái)[[服務(wù)器]]。這樣大規(guī)模的數(shù)據(jù)存儲(chǔ)和訪問(wèn)必然存在很多技術(shù)挑戰(zhàn)。 我們經(jīng)常在搜索結(jié)果中看到,排名會(huì)沒(méi)有明顯原因地上下波動(dòng),甚至可能刷新一下頁(yè)面,就看到不同的排名,有的時(shí)候網(wǎng)站數(shù)據(jù)也可能丟失。這些都可能與大規(guī)模數(shù)據(jù)存儲(chǔ)的技術(shù)難題有關(guān)。 ===索引處理快速有效,具可擴(kuò)展性=== 搜索引擎將頁(yè)面數(shù)據(jù)抓取和存儲(chǔ)后,還要進(jìn)行索引處理,包括鏈接關(guān)系的計(jì)算、正向索引、倒排索引等。由于數(shù)據(jù)庫(kù)中頁(yè)面數(shù)量大,進(jìn)行[[PR]]之類的迭代計(jì)算也是耗時(shí)費(fèi)力。要想及時(shí)提供相關(guān)又及時(shí)的搜索結(jié)果,僅僅抓取也沒(méi)有用,還必須進(jìn)行大量索引計(jì)算。由于隨時(shí)都有新數(shù)據(jù)新頁(yè)面加入,索引處理也要具備很好的擴(kuò)展性。 ===查詢處理快速準(zhǔn)確=== 查詢是普通用戶唯一能看到的搜索引擎工作步驟。用戶在搜索框輸入關(guān)鍵詞,點(diǎn)擊搜索按鈕后,就會(huì)看到搜索結(jié)果。表面最簡(jiǎn)單的過(guò)程,實(shí)際上牽扯了非常復(fù)雜的后臺(tái)處理。在最后的查詢階段,最重要的難題是怎樣在不到一秒鐘的時(shí)間內(nèi),快速?gòu)膸资f(wàn)幾百萬(wàn),甚至幾千萬(wàn)包含搜索詞的頁(yè)面中,找到最合理、最相關(guān)的一千個(gè)頁(yè)面,并且按照相關(guān)性、權(quán)威性排列。 ===判斷用戶意圖以及人工智能=== 應(yīng)該說(shuō)前四個(gè)挑戰(zhàn)現(xiàn)在的搜索引擎都已經(jīng)能夠比較好地解決,但判斷用戶意圖還處在初級(jí)階段。不同用戶搜索相同的關(guān)鍵詞,很可能是在尋找不同的東西。沒(méi)有上下文,沒(méi)有對(duì)用戶個(gè)人搜索習(xí)慣的了解,就完全無(wú)從判斷。 搜索引擎目前正在致力于基于用戶搜索習(xí)慣及歷史數(shù)據(jù)的了解上,判斷搜索意圖,返回更相關(guān)的結(jié)果。今后搜索引擎是否能達(dá)到人工智能水平,真正了解用戶搜索詞的意義和目的,讓我們拭目以待。
摘要:
請(qǐng)注意,您對(duì)站長(zhǎng)百科的所有貢獻(xiàn)都可能被其他貢獻(xiàn)者編輯,修改或刪除。如果您不希望您的文字被任意修改和再散布,請(qǐng)不要提交。
您同時(shí)也要向我們保證您所提交的內(nèi)容是您自己所作,或得自一個(gè)不受版權(quán)保護(hù)或相似自由的來(lái)源(參閱
Wordpress-mediawiki:版權(quán)
的細(xì)節(jié))。
未經(jīng)許可,請(qǐng)勿提交受版權(quán)保護(hù)的作品!
取消
編輯幫助
(在新窗口中打開(kāi))
取自“
http://www.kktzf.com.cn/wiki/了解搜索引擎
”