搜索引擎工作原理

探尋蜘蛛和機器人[ ]

搜索引擎要知道網(wǎng)上的新生事物，就得派人出去收集，每天都有新的網(wǎng)站產(chǎn)生，每天都有網(wǎng)站內(nèi)容的更新，而且這些產(chǎn)生的網(wǎng)站數(shù)量、更新的網(wǎng)站內(nèi)容是爆炸式的，靠人工是不可能完成這個任務的，所以搜索引擎的發(fā)明者就設計了計算機程序，派它們來執(zhí)行這個任務。

探測器有很多叫法，也叫Crawler(爬行器)、spider(蜘蛛)、robot（機器人）。這些形象的叫法是描繪搜索引擎派出的蜘蛛機器人爬行在互聯(lián)網(wǎng)上探測新的信息，Google把它的探測器叫做Googlebot，百度就叫Baiduspider,Yahoo稱為Slurp，無論它們叫什么，它們都是人們編制的計算機程序，由它們不分晝夜的訪問各個網(wǎng)站，取回網(wǎng)站的內(nèi)容、標簽、圖片等，然后依照搜索引擎的算法給它們定制索引。

網(wǎng)絡蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁，從網(wǎng)站某一個頁面（通常是首頁）開始，讀取網(wǎng)頁的內(nèi)容，找到在網(wǎng)頁中的其它鏈接地址，然后通過這些鏈接地址尋找下一個網(wǎng)頁，這樣一直循環(huán)下去，直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站，那么網(wǎng)絡蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

當抓取到這些網(wǎng)頁后，由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析，提取相關網(wǎng)頁信息（包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關系等），根據(jù)一定的相關度算法進行大量復雜計算，得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關鍵詞的相關度（或重要性），然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。

建立網(wǎng)頁索引數(shù)據(jù)庫后，當用戶輸入關鍵詞搜索，由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁。因為所有相關網(wǎng)頁針對該關鍵詞的相關度早已算好，所以只需按照現(xiàn)成的相關度數(shù)值排序，相關度越高，排名越靠前。

最后，由檢索器將搜索結果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來，返回給用戶。

如何辨別搜索引擎機器人身份[ ]

搜索引擎派出他們的搜索機器人去訪問、索引網(wǎng)站內(nèi)容，網(wǎng)站管理員也默認、歡迎它們來訪。但是由于搜索引擎派機器人來訪會在一定程度上影響網(wǎng)站性能，因此并非所有的機器人都是無害的，有一些非法機器人偽裝成主流搜索引擎漫游器對網(wǎng)站大量遍歷，并且不遵循robots.txt規(guī)范，會嚴重拖垮網(wǎng)站性能而又無其它益處。因此，網(wǎng)站管理員需要驗證每個機器人身份是否合法。

在你的服務器日志文件中，可見每次訪問的路徑和相應的IP地址，如果是機器人來訪，則user-agent會顯示Googlebot或MSNBot等搜索引擎漫游器名稱，每個搜索引擎都有自己的user-agent，但僅有這個還不足以證明這個機器人的合法性，因為很多垃圾制造者可能將他們的機器人也命名為Googlebot，以偽裝蒙混進入網(wǎng)站，大肆采掘內(nèi)容。

目前，主流搜索引擎都建議網(wǎng)站管理員通過這種方式來辨別真實的機器人身份：通過DNS反向查詢找出搜索引擎[機器人]IP地址對應的主機名稱；用主機名查找IP地址以確認該主機名與IP地址匹配。

首先，使用DNS反向查詢（Reverse DNS Lookup），找出機器人IP地址對應的主機名稱。主流搜索引擎的主機名稱通常情況下應是這樣的：

Google：主機名稱應包含于googlebot.com域名中，如：crawl-66-249-66-1.googlebot.com；
MSN：主機名稱應包含于search.live.com域名中，如：livebot-207-46-98-149.search.live.com；
Yahoo：主機名稱應包含于inktomisearch.com域名中，如：ab1164.inktomisearch.com。

最后，做一次DNS查詢，用主機名查找IP地址（Forward DNS Lookup），以確認該主機名與IP地址匹配。由此證明該機器人是合法的。
現(xiàn)在，如果發(fā)現(xiàn)一個機器人將自己偽裝成合法搜索引擎漫游器，你就可以通過服務器上的設置來阻止這個非法機器人。

如何吸引蜘蛛[ ]

分析一下，要想蜘蛛經(jīng)常光顧自己的站，首先要先把蜘蛛引過來。怎么引?最簡單的辦法是你自己創(chuàng)造個關鍵字，注意要保證關鍵字的唯一性，百度搜索到的結果相關性要低。那關鍵字要在你首頁出現(xiàn)，而且有相關解釋，目的是圍繞關鍵字做相關內(nèi)容。

然后去搜索引擎更新快的地方，發(fā)布相關信息。你發(fā)表的文章要圍繞你創(chuàng)造的關鍵字寫，關鍵字可以使用一兩次加粗，色彩，或者下劃線等，關鍵字連接到你首頁地址，內(nèi)容里再加一兩次你首頁地址(傳說中的軟文)。

最關鍵字加好了，信息也發(fā)布了，最關鍵的就是要觸發(fā)搜索引擎檢測數(shù)據(jù)庫，使蜘蛛會順著那些新內(nèi)容找到你首頁!怎么觸發(fā)?還用問嗎?剛做的關鍵字，具有唯一性，而且相關性低。如果有人搜索那關鍵字，蜘蛛檢索時候會優(yōu)先考慮最合適的頁面，也許搜索引擎暫時沒顯示收錄你的站，但是蜘蛛肯定已經(jīng)聞風而動了。

原理已經(jīng)介紹了，吸引蜘蛛還有許多方法，簡單的總結一下：

　　一、增加原創(chuàng)的文字，適當圍繞關鍵字優(yōu)化，強烈建議在title里也加一下。這里的原創(chuàng)不是說純自己寫的就完事了，你還要搜索一下別人是不是寫過類似的，如果有勸你還是另換話題吧。二、在百度權重高，更新快的地方發(fā)布圍繞關鍵字相關內(nèi)容的信息和你站點連接，讓百度蜘蛛能夠從多個地方轉(zhuǎn)到你的站上去。我常用的有百度知道、貼吧以及各大網(wǎng)摘。

　　三、圍繞這個關鍵字進行推廣，發(fā)布大量外鏈，讓檢索結果定位到你的站。

久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

WIKI使用導航

站長百科導航

站長專題

搜索引擎工作原理

目錄

探尋蜘蛛和機器人[ ]

如何辨別搜索引擎機器人身份[ ]

如何吸引蜘蛛[ ]

相關條目[ ]