SEO日常工作內(nèi)容中,很多都是圍繞吸引搜索引擎蜘蛛抓取,從而提升網(wǎng)站收錄,進(jìn)而提升網(wǎng)站整體排名獲得流量。但對(duì)百度搜索引擎蜘蛛是如何工作的,卻很少有人知道,對(duì)于從事網(wǎng)站優(yōu)化的SEOer來說,了解搜索引擎蜘蛛的工作原理還是很有必要的。
一般來說,搜索引擎主要有4個(gè)工作流程:抓取建庫、檢索排序、外部投票加分、排名結(jié)果展現(xiàn)。其中抓取建庫與我們常說的百度蜘蛛有直接的關(guān)系,本文重點(diǎn)聊一下什么是搜索引擎蜘蛛,工作原理是什么?
百度搜索引擎蜘蛛是什么?
互聯(lián)網(wǎng)可以理解成一張巨大的“蜘蛛網(wǎng)”,搜索引擎蜘蛛是類似實(shí)質(zhì)的“機(jī)器人”。蜘蛛的主要任務(wù)就是在巨大的蜘蛛網(wǎng)(互聯(lián)網(wǎng))中瀏覽信息,然后把這些信息都抓取到搜索引擎的服務(wù)器上,然后建立索引庫。就好比機(jī)器人瀏覽我們的網(wǎng)站,然后把內(nèi)容保存到自己的電腦上。根據(jù)種子樣本獲取方式可分為:
1、預(yù)先給定的初始抓取種子樣本;
2、預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對(duì)應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;
3、通過用戶行為確定的抓取目標(biāo)樣例,分為:
①用戶瀏覽過程中顯示標(biāo)注的抓取樣本;
②通過用戶日志挖掘得到訪問模式及相關(guān)樣本。
其中,網(wǎng)頁特征可以是網(wǎng)頁的內(nèi)容特征,也可以是網(wǎng)頁的鏈接結(jié)構(gòu)特征等等。
搜索引擎蜘蛛抓取原理
一、抓取網(wǎng)頁
每家獨(dú)立的搜索引擎都會(huì)有自己的網(wǎng)頁抓取程序爬蟲。爬蟲蜘蛛順著網(wǎng)頁中的超鏈接分析連續(xù)訪問抓去更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。毋庸置疑,搜索引擎蜘蛛抓取網(wǎng)頁是有一定規(guī)律的。如下:
1、權(quán)重優(yōu)先:先參照鏈接的權(quán)重,再綜合深度優(yōu)先和寬度優(yōu)先策略抓取。打個(gè)比方,如果這條鏈接的權(quán)重還不錯(cuò),就采用深度優(yōu)先;如果權(quán)重很低,則采用寬度優(yōu)先。
2、重訪抓取:這個(gè)就可以直接字面上理解。因?yàn)樗阉饕媸褂脝蝹€(gè)重訪與全部重訪結(jié)合的居多。所以我們做網(wǎng)站內(nèi)容要記得定期維護(hù)日常更新,讓蜘蛛多來訪多抓取才能收錄快。
二、處理網(wǎng)頁
搜索引擎抓取到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、超鏈接分析、計(jì)算網(wǎng)頁的重要度/豐富度等。
處理網(wǎng)頁分為以下幾個(gè)部分:
1、網(wǎng)頁結(jié)構(gòu)化:HTML代碼全部刪除掉,提取出內(nèi)容。
2、消噪:留下網(wǎng)頁的主題內(nèi)容。
3、查重:查找刪除重復(fù)的網(wǎng)頁與內(nèi)容。
4、分詞:提取出正文的內(nèi)容后,分成若干個(gè)詞語,然后排列存入索引庫。同時(shí)計(jì)算這個(gè)詞在這個(gè)頁面出現(xiàn)了多少次。有必要指出,關(guān)鍵詞堆砌就是借用這個(gè)原理對(duì)網(wǎng)站進(jìn)行優(yōu)化。這種做法屬于作弊。
5、鏈接分析:搜索引擎會(huì)查詢分析這個(gè)頁面的反向鏈接有多少,導(dǎo)出鏈接有多少內(nèi)鏈,然后判定這個(gè)頁面多少權(quán)重。
三、提供檢索服務(wù)
用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引庫中找到匹配該關(guān)鍵詞的網(wǎng)頁。為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。
所以想做好搜索引擎讓蜘蛛抓取你的網(wǎng)站,成都SEO小編根據(jù)搜索引擎的特點(diǎn),做出如下總結(jié):
1、網(wǎng)站發(fā)布信息后多做分享或者多發(fā)外鏈??梢詭湍愕木W(wǎng)站盡可能快的帶來搜索引擎蜘蛛的訪問。也可以通過內(nèi)鏈的方式,增加百度搜索引擎蜘蛛在網(wǎng)站停留的時(shí)間,以獲取更好的排名。
2、定期最好是每天發(fā)布新的信息或者更新網(wǎng)站內(nèi)容,這樣百度蜘蛛才能多訪問你的信息進(jìn)行抓取。
3、發(fā)布優(yōu)質(zhì)的信息,讓用戶體驗(yàn)時(shí)間停留長,這樣有利于搜索引擎蜘蛛判斷你的網(wǎng)站價(jià)值高。
4、不要想著走捷徑,一定要堅(jiān)持遵循搜索引擎法則,做好內(nèi)容,做好用戶體驗(yàn)才能做好網(wǎng)站。
百度爬蟲的一些常見問題
1、如何提高百度抓取頻率,抓取頻率暴漲是什么原因
早期由于收錄相對(duì)困難,大家非常重視百度抓取頻率,但隨著百度戰(zhàn)略方向的調(diào)整,從目前來看,我們并不需要刻意追求抓取頻率的提升,當(dāng)然影響抓取頻次的因素主要包括:網(wǎng)站速度、安全性、內(nèi)容質(zhì)量、社會(huì)影響力等內(nèi)容。
如果你發(fā)現(xiàn)站點(diǎn)抓取頻率突然暴漲,可能是因?yàn)椋捍嬖阪溄酉葳?,蜘蛛不能很好抓取頁面,或者?nèi)容質(zhì)量過低,需要從新抓取,也可能是網(wǎng)站不穩(wěn)定,遭遇負(fù)面SEO攻擊。
2、如何判斷,百度蜘蛛是否正常抓取
很多站長新站上線,總是百度不收錄內(nèi)容頁面,于是擔(dān)心百度爬蟲是否可以正常抓取,這里官方提供兩個(gè)簡(jiǎn)單的工具:
百度抓取診斷:https://ziyuan.baidu.com/crawltools/index
百度Robots.txt檢測(cè):https://ziyuan.baidu.com/robots/index
你可以根據(jù)這兩個(gè)頁面,檢測(cè)網(wǎng)頁的連通性,以及是否屏蔽了百度蜘蛛抓取。
3、百度爬蟲持續(xù)抓取,為什么快照不更新
快照長時(shí)間不更新并沒有代表任何問題,你只需要關(guān)注是否網(wǎng)站流量突然下降,如果各方面指標(biāo)都正常,蜘蛛頻繁來訪,只能代表你的頁面質(zhì)量較高,外部鏈接非常理想。
4、網(wǎng)站防止侵權(quán),禁止右鍵,百度蜘蛛是否可以識(shí)別內(nèi)容
如果你在查看網(wǎng)頁源代碼的時(shí)候,可以很好的看到頁面內(nèi)容,理論上百度蜘蛛就是可以正常抓取頁面的,這個(gè)你可以利用百度站長工具中的抓取診斷去解析一下看看。
5、百度蜘蛛,真的有降權(quán)蜘蛛嗎?
早期,很多SEO人員喜歡分析百度蜘蛛IP段,實(shí)際上官方已經(jīng)明確表示,并沒有說明哪些蜘蛛的爬行代表降權(quán),所以這個(gè)問題不攻自破。
搜索引擎蜘蛛工作過程是一個(gè)非常復(fù)雜的系統(tǒng),以上只是關(guān)于百度搜索引擎蜘蛛工作原理的簡(jiǎn)單講解,希望可以讓大家對(duì)搜索引擎蜘蛛有個(gè)清晰的概念,更好的做好網(wǎng)站排名優(yōu)化工作。