搜索引擎工作原理

探尋蜘蛛和機(jī)器人[ ]

搜索引擎要知道網(wǎng)上的新生事物，就得派人出去收集，每天都有新的網(wǎng)站產(chǎn)生，每天都有網(wǎng)站內(nèi)容的更新，而且這些產(chǎn)生的網(wǎng)站數(shù)量、更新的網(wǎng)站內(nèi)容是爆炸式的，靠人工是不可能完成這個(gè)任務(wù)的，所以搜索引擎的發(fā)明者就設(shè)計(jì)了計(jì)算機(jī)程序，派它們來(lái)執(zhí)行這個(gè)任務(wù)。

探測(cè)器有很多叫法，也叫Crawler(爬行器)、spider(蜘蛛)、robot（機(jī)器人）。這些形象的叫法是描繪搜索引擎派出的蜘蛛機(jī)器人爬行在互聯(lián)網(wǎng)上探測(cè)新的信息，Google把它的探測(cè)器叫做Googlebot，百度就叫Baiduspider,Yahoo稱為Slurp，無(wú)論它們叫什么，它們都是人們編制的計(jì)算機(jī)程序，由它們不分晝夜的訪問(wèn)各個(gè)網(wǎng)站，取回網(wǎng)站的內(nèi)容、標(biāo)簽、圖片等，然后依照搜索引擎的算法給它們定制索引。

網(wǎng)絡(luò)蜘蛛通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站某一個(gè)頁(yè)面（通常是首頁(yè)）開始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址，然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，這樣一直循環(huán)下去，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站，那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。

當(dāng)抓取到這些網(wǎng)頁(yè)后，由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息（包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)后，當(dāng)用戶輸入關(guān)鍵詞搜索，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。

最后，由檢索器將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)，返回給用戶。

如何辨別搜索引擎機(jī)器人身份[ ]

搜索引擎派出他們的搜索機(jī)器人去訪問(wèn)、索引網(wǎng)站內(nèi)容，網(wǎng)站管理員也默認(rèn)、歡迎它們來(lái)訪。但是由于搜索引擎派機(jī)器人來(lái)訪會(huì)在一定程度上影響網(wǎng)站性能，因此并非所有的機(jī)器人都是無(wú)害的，有一些非法機(jī)器人偽裝成主流搜索引擎漫游器對(duì)網(wǎng)站大量遍歷，并且不遵循robots.txt規(guī)范，會(huì)嚴(yán)重拖垮網(wǎng)站性能而又無(wú)其它益處。因此，網(wǎng)站管理員需要驗(yàn)證每個(gè)機(jī)器人身份是否合法。

在你的服務(wù)器日志文件中，可見(jiàn)每次訪問(wèn)的路徑和相應(yīng)的IP地址，如果是機(jī)器人來(lái)訪，則user-agent會(huì)顯示Googlebot或MSNBot等搜索引擎漫游器名稱，每個(gè)搜索引擎都有自己的user-agent，但僅有這個(gè)還不足以證明這個(gè)機(jī)器人的合法性，因?yàn)楹芏嗬圃煺呖赡軐⑺麄兊臋C(jī)器人也命名為Googlebot，以偽裝蒙混進(jìn)入網(wǎng)站，大肆采掘內(nèi)容。

目前，主流搜索引擎都建議網(wǎng)站管理員通過(guò)這種方式來(lái)辨別真實(shí)的機(jī)器人身份：通過(guò)DNS反向查詢找出搜索引擎[機(jī)器人]IP地址對(duì)應(yīng)的主機(jī)名稱；用主機(jī)名查找IP地址以確認(rèn)該主機(jī)名與IP地址匹配。

首先，使用DNS反向查詢（Reverse DNS Lookup），找出機(jī)器人IP地址對(duì)應(yīng)的主機(jī)名稱。主流搜索引擎的主機(jī)名稱通常情況下應(yīng)是這樣的：

Google：主機(jī)名稱應(yīng)包含于googlebot.com域名中，如：crawl-66-249-66-1.googlebot.com；
MSN：主機(jī)名稱應(yīng)包含于search.live.com域名中，如：livebot-207-46-98-149.search.live.com；
Yahoo：主機(jī)名稱應(yīng)包含于inktomisearch.com域名中，如：ab1164.inktomisearch.com。

最后，做一次DNS查詢，用主機(jī)名查找IP地址（Forward DNS Lookup），以確認(rèn)該主機(jī)名與IP地址匹配。由此證明該機(jī)器人是合法的。
現(xiàn)在，如果發(fā)現(xiàn)一個(gè)機(jī)器人將自己偽裝成合法搜索引擎漫游器，你就可以通過(guò)服務(wù)器上的設(shè)置來(lái)阻止這個(gè)非法機(jī)器人。

如何吸引蜘蛛[ ]

分析一下，要想蜘蛛經(jīng)常光顧自己的站，首先要先把蜘蛛引過(guò)來(lái)。怎么引?最簡(jiǎn)單的辦法是你自己創(chuàng)造個(gè)關(guān)鍵字，注意要保證關(guān)鍵字的唯一性，百度搜索到的結(jié)果相關(guān)性要低。那關(guān)鍵字要在你首頁(yè)出現(xiàn)，而且有相關(guān)解釋，目的是圍繞關(guān)鍵字做相關(guān)內(nèi)容。

然后去搜索引擎更新快的地方，發(fā)布相關(guān)信息。你發(fā)表的文章要圍繞你創(chuàng)造的關(guān)鍵字寫，關(guān)鍵字可以使用一兩次加粗，色彩，或者下劃線等，關(guān)鍵字連接到你首頁(yè)地址，內(nèi)容里再加一兩次你首頁(yè)地址(傳說(shuō)中的軟文)。

最關(guān)鍵字加好了，信息也發(fā)布了，最關(guān)鍵的就是要觸發(fā)搜索引擎檢測(cè)數(shù)據(jù)庫(kù)，使蜘蛛會(huì)順著那些新內(nèi)容找到你首頁(yè)!怎么觸發(fā)?還用問(wèn)嗎?剛做的關(guān)鍵字，具有唯一性，而且相關(guān)性低。如果有人搜索那關(guān)鍵字，蜘蛛檢索時(shí)候會(huì)優(yōu)先考慮最合適的頁(yè)面，也許搜索引擎暫時(shí)沒(méi)顯示收錄你的站，但是蜘蛛肯定已經(jīng)聞風(fēng)而動(dòng)了。

原理已經(jīng)介紹了，吸引蜘蛛還有許多方法，簡(jiǎn)單的總結(jié)一下：

　　一、增加原創(chuàng)的文字，適當(dāng)圍繞關(guān)鍵字優(yōu)化，強(qiáng)烈建議在title里也加一下。這里的原創(chuàng)不是說(shuō)純自己寫的就完事了，你還要搜索一下別人是不是寫過(guò)類似的，如果有勸你還是另?yè)Q話題吧。二、在百度權(quán)重高，更新快的地方發(fā)布圍繞關(guān)鍵字相關(guān)內(nèi)容的信息和你站點(diǎn)連接，讓百度蜘蛛能夠從多個(gè)地方轉(zhuǎn)到你的站上去。我常用的有百度知道、貼吧以及各大網(wǎng)摘。

　　三、圍繞這個(gè)關(guān)鍵字進(jìn)行推廣，發(fā)布大量外鏈，讓檢索結(jié)果定位到你的站。

久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

WIKI使用導(dǎo)航

站長(zhǎng)百科導(dǎo)航

站長(zhǎng)專題

搜索引擎工作原理

目錄

探尋蜘蛛和機(jī)器人[ ]

如何辨別搜索引擎機(jī)器人身份[ ]

如何吸引蜘蛛[ ]

相關(guān)條目[ ]