很多做SEO的朋友應(yīng)該都聽說過TF-IDF算法,網(wǎng)上大部分的介紹都是圍繞算法的公式和介紹,他們文章雖然很專業(yè),但對(duì)于SEO優(yōu)化人員來說,要如何運(yùn)用于SEO工作當(dāng)中卻不太理解。本文用簡單的實(shí)例進(jìn)行說明,談?wù)勅绾螌F-IDF算法運(yùn)用于網(wǎng)站SEO優(yōu)化當(dāng)中。
TF詞頻的概念與SEO建議
TF是指詞頻,查詢的關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)統(tǒng)計(jì)。相關(guān)文檔是這樣介紹的,假設(shè)查詢關(guān)鍵詞在同一個(gè)文檔中出現(xiàn)的次數(shù)越多,代表這個(gè)關(guān)鍵詞越重要,越能代表文檔的主題意思,文章主題與關(guān)鍵詞意思越接近,那么做SEO如何運(yùn)用這個(gè)知識(shí)點(diǎn)呢?
假設(shè)有一篇文章的標(biāo)題是:“SEO培訓(xùn)教程”,從字面上理解,文章主要是以SEO培訓(xùn)為核心,“外包”為拓展詞。假設(shè)文章內(nèi)容里SEO培訓(xùn)出現(xiàn)20次,培訓(xùn)出現(xiàn)25次,教程出現(xiàn)10次,按照TF詞頻的規(guī)則,那么SEO培訓(xùn)是文章主題,這個(gè)很好理解。
實(shí)際上有些時(shí)候?qū)懳恼聲r(shí),在意思很明確的情況下,會(huì)省略主詞。比如網(wǎng)站建設(shè)外包價(jià)格、網(wǎng)站建設(shè)外包流程、網(wǎng)站建設(shè)外包公司介紹,會(huì)縮寫成:外包價(jià)格、外包流程、外包公司介紹。這樣會(huì)導(dǎo)致外包出現(xiàn)的次數(shù)大于網(wǎng)站建設(shè),TF詞頻則會(huì)認(rèn)為外包是主題,出現(xiàn)錯(cuò)誤的判斷。
由上可知,在做SEO關(guān)鍵詞布局的時(shí)候,提升需要優(yōu)化的主關(guān)鍵詞出現(xiàn)頻率。當(dāng)然搜索引擎判斷網(wǎng)頁主題有很多維度,這里只是單從TF詞頻的角度考慮,個(gè)人認(rèn)為這樣做會(huì)縮短搜索引擎判斷網(wǎng)頁主題的時(shí)間,對(duì)SEO來說是有利的。
快速理解“IDF逆文檔頻率”
這個(gè)概念如果看文檔的話有點(diǎn)難理解,當(dāng)初筆者看百度百科好幾次才明白。涉及到復(fù)雜的公式在這里就不講,結(jié)合TF一起來理解,TF-IDF的意思是,一篇文章中某關(guān)鍵詞出現(xiàn)的次數(shù)越多,且在搜索引擎的資料庫中包含該關(guān)鍵詞文檔數(shù)越少,則說明這個(gè)關(guān)鍵詞越能代表此網(wǎng)頁的主題。
舉個(gè)例子來說明,假設(shè)有一篇文章,有兩個(gè)關(guān)鍵詞:“SEO優(yōu)化”和“SEO培訓(xùn)”,在文章中,這兩個(gè)關(guān)鍵詞出現(xiàn)的資料都是20次,但是在百度的資料庫中,包含SEO優(yōu)化的文檔總共有一千萬個(gè),包含SEO培訓(xùn)的文檔有五百萬個(gè),那么則說明,SEO培訓(xùn)越能代表這文章的意思。或者搜索引擎資料庫中包含關(guān)鍵詞的文檔數(shù)量一樣,文章中出現(xiàn)次數(shù)越多的關(guān)鍵詞越能代表網(wǎng)頁主題。
從SEO的層面講,IDF這個(gè)值是客觀存在的,不必去深究,只要明白不同關(guān)鍵詞之間的文檔數(shù)多少就行,以百度為例,搜索任何一個(gè)關(guān)鍵詞,在搜索框下面會(huì)有一個(gè):“百度為您找到相關(guān)結(jié)果約XXX個(gè)”的這樣句子,里面的數(shù)值可以作為文檔數(shù)參考。每個(gè)搜索引擎的包含關(guān)鍵詞的文檔數(shù)可能不一樣,但是整體的相對(duì)比例值應(yīng)該是差不多的。而且隨著時(shí)間的推移,文檔數(shù)也會(huì)不斷發(fā)生改變。
總結(jié):TF-IDF加權(quán)算法實(shí)際上是無論我們的網(wǎng)站是首頁、欄目頁還是內(nèi)容頁,我們想要優(yōu)化的關(guān)鍵詞,或者通過分詞合成的關(guān)鍵詞都必須出現(xiàn)最多的次數(shù),這樣我們想要優(yōu)化的關(guān)鍵詞排名自然會(huì)上升,但不能故意堆積。