久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

搜索引擎工作原理

來(lái)自站長(zhǎng)百科
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

探尋蜘蛛和機(jī)器人[ ]

搜索引擎要知道網(wǎng)上的新生事物,就得派人出去收集,每天都有新的網(wǎng)站產(chǎn)生,每天都有網(wǎng)站內(nèi)容的更新,而且這些產(chǎn)生的網(wǎng)站數(shù)量、更新的網(wǎng)站內(nèi)容是爆炸式的,靠人工是不可能完成這個(gè)任務(wù)的,所以搜索引擎的發(fā)明者就設(shè)計(jì)了計(jì)算機(jī)程序,派它們來(lái)執(zhí)行這個(gè)任務(wù)。

探測(cè)器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(機(jī)器人)。這些形象的叫法是描繪搜索引擎派出的蜘蛛機(jī)器人爬行在互聯(lián)網(wǎng)上探測(cè)新的信息,Google把它的探測(cè)器叫做Googlebot,百度就叫Baiduspider,Yahoo稱為Slurp,無(wú)論它們叫什么,它們都是人們編制的計(jì)算機(jī)程序,由它們不分晝夜的訪問(wèn)各個(gè)網(wǎng)站,取回網(wǎng)站的內(nèi)容、標(biāo)簽、圖片等,然后依照搜索引擎的算法給它們定制索引。

網(wǎng)絡(luò)蜘蛛通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。

當(dāng)抓取到這些網(wǎng)頁(yè)后,由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)后,當(dāng)用戶輸入關(guān)鍵詞搜索,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由檢索器將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái),返回給用戶。

如何辨別搜索引擎機(jī)器人身份[ ]

搜索引擎派出他們的搜索機(jī)器人去訪問(wèn)、索引網(wǎng)站內(nèi)容,網(wǎng)站管理員也默認(rèn)、歡迎它們來(lái)訪。但是由于搜索引擎派機(jī)器人來(lái)訪會(huì)在一定程度上影響網(wǎng)站性能,因此并非所有的機(jī)器人都是無(wú)害的,有一些非法機(jī)器人偽裝成主流搜索引擎漫游器對(duì)網(wǎng)站大量遍歷,并且不遵循robots.txt規(guī)范,會(huì)嚴(yán)重拖垮網(wǎng)站性能而又無(wú)其它益處。因此,網(wǎng)站管理員需要驗(yàn)證每個(gè)機(jī)器人身份是否合法。

在你的服務(wù)器日志文件中,可見(jiàn)每次訪問(wèn)的路徑和相應(yīng)的IP地址,如果是機(jī)器人來(lái)訪,則user-agent會(huì)顯示Googlebot或MSNBot等搜索引擎漫游器名稱,每個(gè)搜索引擎都有自己的user-agent,但僅有這個(gè)還不足以證明這個(gè)機(jī)器人的合法性,因?yàn)楹芏嗬圃煺呖赡軐⑺麄兊臋C(jī)器人也命名為Googlebot,以偽裝蒙混進(jìn)入網(wǎng)站,大肆采掘內(nèi)容。

目前,主流搜索引擎都建議網(wǎng)站管理員通過(guò)這種方式來(lái)辨別真實(shí)的機(jī)器人身份:通過(guò)DNS反向查詢找出搜索引擎[機(jī)器人]IP地址對(duì)應(yīng)的主機(jī)名稱;用主機(jī)名查找IP地址以確認(rèn)該主機(jī)名與IP地址匹配。

首先,使用DNS反向查詢(Reverse DNS Lookup),找出機(jī)器人IP地址對(duì)應(yīng)的主機(jī)名稱。主流搜索引擎的主機(jī)名稱通常情況下應(yīng)是這樣的:

  • Google:主機(jī)名稱應(yīng)包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;
  • MSN:主機(jī)名稱應(yīng)包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com;
  • Yahoo:主機(jī)名稱應(yīng)包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查詢,用主機(jī)名查找IP地址(Forward DNS Lookup),以確認(rèn)該主機(jī)名與IP地址匹配。由此證明該機(jī)器人是合法的。
現(xiàn)在,如果發(fā)現(xiàn)一個(gè)機(jī)器人將自己偽裝成合法搜索引擎漫游器,你就可以通過(guò)服務(wù)器上的設(shè)置來(lái)阻止這個(gè)非法機(jī)器人。

如何吸引蜘蛛[ ]

分析一下,要想蜘蛛經(jīng)常光顧自己的站,首先要先把蜘蛛引過(guò)來(lái)。怎么引?最簡(jiǎn)單的辦法是你自己創(chuàng)造個(gè)關(guān)鍵字,注意要保證關(guān)鍵字的唯一性,百度搜索到的結(jié)果相關(guān)性要低。那關(guān)鍵字要在你首頁(yè)出現(xiàn),而且有相關(guān)解釋,目的是圍繞關(guān)鍵字做相關(guān)內(nèi)容。

然后去搜索引擎更新快的地方,發(fā)布相關(guān)信息。你發(fā)表的文章要圍繞你創(chuàng)造的關(guān)鍵字寫,關(guān)鍵字可以使用一兩次加粗,色彩,或者下劃線等,關(guān)鍵字連接到你首頁(yè)地址,內(nèi)容里再加一兩次你首頁(yè)地址(傳說(shuō)中的軟文)。

最關(guān)鍵字加好了,信息也發(fā)布了,最關(guān)鍵的就是要觸發(fā)搜索引擎檢測(cè)數(shù)據(jù)庫(kù),使蜘蛛會(huì)順著那些新內(nèi)容找到你首頁(yè)!怎么觸發(fā)?還用問(wèn)嗎?剛做的關(guān)鍵字,具有唯一性,而且相關(guān)性低。如果有人搜索那關(guān)鍵字,蜘蛛檢索時(shí)候會(huì)優(yōu)先考慮最合適的頁(yè)面,也許搜索引擎暫時(shí)沒(méi)顯示收錄你的站,但是蜘蛛肯定已經(jīng)聞風(fēng)而動(dòng)了。

原理已經(jīng)介紹了,吸引蜘蛛還有許多方法,簡(jiǎn)單的總結(jié)一下:

  一、增加原創(chuàng)的文字,適當(dāng)圍繞關(guān)鍵字優(yōu)化,強(qiáng)烈建議在title里也加一下。這里的原創(chuàng)不是說(shuō)純自己寫的就完事了,你還要搜索一下別人是不是寫過(guò)類似的,如果有勸你還是另?yè)Q話題吧。二、在百度權(quán)重高,更新快的地方發(fā)布圍繞關(guān)鍵字相關(guān)內(nèi)容的信息和你站點(diǎn)連接,讓百度蜘蛛能夠從多個(gè)地方轉(zhuǎn)到你的站上去。我常用的有百度知道、貼吧以及各大網(wǎng)摘。

  三、圍繞這個(gè)關(guān)鍵字進(jìn)行推廣,發(fā)布大量外鏈,讓檢索結(jié)果定位到你的站。

相關(guān)條目[ ]