久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

搜索引擎工作原理

來自站長百科
跳轉(zhuǎn)至: 導航、? 搜索

探尋蜘蛛和機器人[ ]

搜索引擎要知道網(wǎng)上的新生事物,就得派人出去收集,每天都有新的網(wǎng)站產(chǎn)生,每天都有網(wǎng)站內(nèi)容的更新,而且這些產(chǎn)生的網(wǎng)站數(shù)量、更新的網(wǎng)站內(nèi)容是爆炸式的,靠人工是不可能完成這個任務的,所以搜索引擎的發(fā)明者就設計了計算機程序,派它們來執(zhí)行這個任務。

探測器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(機器人)。這些形象的叫法是描繪搜索引擎派出的蜘蛛機器人爬行在互聯(lián)網(wǎng)上探測新的信息,Google把它的探測器叫做Googlebot,百度就叫Baiduspider,Yahoo稱為Slurp,無論它們叫什么,它們都是人們編制的計算機程序,由它們不分晝夜的訪問各個網(wǎng)站,取回網(wǎng)站的內(nèi)容、標簽、圖片等,然后依照搜索引擎的算法給它們定制索引。

網(wǎng)絡蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。

當抓取到這些網(wǎng)頁后,由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。

建立網(wǎng)頁索引數(shù)據(jù)庫后,當用戶輸入關鍵詞搜索,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁。因為所有相關網(wǎng)頁針對該關鍵詞的相關度早已算好,所以只需按照現(xiàn)成的相關度數(shù)值排序,相關度越高,排名越靠前。

最后,由檢索器將搜索結果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來,返回給用戶。

如何辨別搜索引擎機器人身份[ ]

搜索引擎派出他們的搜索機器人去訪問、索引網(wǎng)站內(nèi)容,網(wǎng)站管理員也默認、歡迎它們來訪。但是由于搜索引擎派機器人來訪會在一定程度上影響網(wǎng)站性能,因此并非所有的機器人都是無害的,有一些非法機器人偽裝成主流搜索引擎漫游器對網(wǎng)站大量遍歷,并且不遵循robots.txt規(guī)范,會嚴重拖垮網(wǎng)站性能而又無其它益處。因此,網(wǎng)站管理員需要驗證每個機器人身份是否合法。

在你的服務器日志文件中,可見每次訪問的路徑和相應的IP地址,如果是機器人來訪,則user-agent會顯示Googlebot或MSNBot等搜索引擎漫游器名稱,每個搜索引擎都有自己的user-agent,但僅有這個還不足以證明這個機器人的合法性,因為很多垃圾制造者可能將他們的機器人也命名為Googlebot,以偽裝蒙混進入網(wǎng)站,大肆采掘內(nèi)容。

目前,主流搜索引擎都建議網(wǎng)站管理員通過這種方式來辨別真實的機器人身份:通過DNS反向查詢找出搜索引擎[機器人]IP地址對應的主機名稱;用主機名查找IP地址以確認該主機名與IP地址匹配。

首先,使用DNS反向查詢(Reverse DNS Lookup),找出機器人IP地址對應的主機名稱。主流搜索引擎的主機名稱通常情況下應是這樣的:

  • Google:主機名稱應包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;
  • MSN:主機名稱應包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com;
  • Yahoo:主機名稱應包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查詢,用主機名查找IP地址(Forward DNS Lookup),以確認該主機名與IP地址匹配。由此證明該機器人是合法的。
現(xiàn)在,如果發(fā)現(xiàn)一個機器人將自己偽裝成合法搜索引擎漫游器,你就可以通過服務器上的設置來阻止這個非法機器人。

如何吸引蜘蛛[ ]

分析一下,要想蜘蛛經(jīng)常光顧自己的站,首先要先把蜘蛛引過來。怎么引?最簡單的辦法是你自己創(chuàng)造個關鍵字,注意要保證關鍵字的唯一性,百度搜索到的結果相關性要低。那關鍵字要在你首頁出現(xiàn),而且有相關解釋,目的是圍繞關鍵字做相關內(nèi)容。

然后去搜索引擎更新快的地方,發(fā)布相關信息。你發(fā)表的文章要圍繞你創(chuàng)造的關鍵字寫,關鍵字可以使用一兩次加粗,色彩,或者下劃線等,關鍵字連接到你首頁地址,內(nèi)容里再加一兩次你首頁地址(傳說中的軟文)。

最關鍵字加好了,信息也發(fā)布了,最關鍵的就是要觸發(fā)搜索引擎檢測數(shù)據(jù)庫,使蜘蛛會順著那些新內(nèi)容找到你首頁!怎么觸發(fā)?還用問嗎?剛做的關鍵字,具有唯一性,而且相關性低。如果有人搜索那關鍵字,蜘蛛檢索時候會優(yōu)先考慮最合適的頁面,也許搜索引擎暫時沒顯示收錄你的站,但是蜘蛛肯定已經(jīng)聞風而動了。

原理已經(jīng)介紹了,吸引蜘蛛還有許多方法,簡單的總結一下:

  一、增加原創(chuàng)的文字,適當圍繞關鍵字優(yōu)化,強烈建議在title里也加一下。這里的原創(chuàng)不是說純自己寫的就完事了,你還要搜索一下別人是不是寫過類似的,如果有勸你還是另換話題吧。二、在百度權重高,更新快的地方發(fā)布圍繞關鍵字相關內(nèi)容的信息和你站點連接,讓百度蜘蛛能夠從多個地方轉(zhuǎn)到你的站上去。我常用的有百度知道、貼吧以及各大網(wǎng)摘。

  三、圍繞這個關鍵字進行推廣,發(fā)布大量外鏈,讓檢索結果定位到你的站。

相關條目[ ]