詞頻位置加權(quán)排序算法:是一種通過關(guān)鍵詞出現(xiàn)的位置和頻率進(jìn)行排序的方法,它是搜索引擎最基礎(chǔ)的排序算法之一。當(dāng)用戶通過關(guān)鍵詞進(jìn)行搜索時(shí),當(dāng)某一個(gè)網(wǎng)頁中該關(guān)鍵詞出現(xiàn)的次數(shù)越多,位置越重要,則認(rèn)為該網(wǎng)頁更加符合用戶的需求。早期大量的搜索引擎(如:Infoseek,Nutch,Excite,Lycos等)都基于該算法進(jìn)行網(wǎng)頁檢索排序,當(dāng)然在不同的搜索引擎中具體的排序方法有所不同。
詞頻位置排序原理
該算法以一個(gè)搜索詞與網(wǎng)頁的相關(guān)度大小當(dāng)作排序標(biāo)準(zhǔn),而搜索詞在網(wǎng)頁中的相關(guān)度則由它在網(wǎng)頁中出現(xiàn)的次數(shù)和位置兩方面加權(quán)計(jì)算得到。在這種算法當(dāng)中,詞對(duì)網(wǎng)頁的關(guān)聯(lián)性與詞在該網(wǎng)頁中的權(quán)值成正比。
通過詞頻和位置加權(quán),可以得出關(guān)鍵詞對(duì)網(wǎng)頁的權(quán)值。當(dāng)用戶搜索該關(guān)鍵詞,搜索引擎按照檢索詞在不同網(wǎng)頁的相關(guān)度排序,這就是詞頻位置加權(quán)排序算法。
詞頻加權(quán)的方法
詞頻加權(quán)的方法有絕對(duì)詞頻加權(quán)、相對(duì)詞頻加權(quán)、反詞頻加權(quán)、基于詞分辨值加權(quán)等等。
對(duì)于單一詞搜索引擎、簡(jiǎn)單檢索需求,只用單純地計(jì)算一個(gè)詞在網(wǎng)頁中的出現(xiàn)頻率就可給定權(quán)值;而對(duì)于具有進(jìn)行多重邏輯功能的搜索引擎,則必須綜合其它的加權(quán)排序方法。因?yàn)橛枚嘀剡壿嫏z索式檢索時(shí),檢索結(jié)果跟檢索式中的每個(gè)搜索詞相關(guān),而每個(gè)搜索詞在所有的網(wǎng)頁中出現(xiàn)的總頻率是不一樣的,如果按照總的權(quán)值來排序,就會(huì)導(dǎo)致結(jié)果的不相關(guān)。這時(shí)候就可以利用相對(duì)詞頻加權(quán)原理來解決:通過對(duì)大量網(wǎng)頁的統(tǒng)計(jì),把越是在所有網(wǎng)頁中出現(xiàn)頻率高的詞給予一個(gè)較低的初始值;相對(duì)地,在所有網(wǎng)頁中出現(xiàn)頻率低的詞,給一個(gè)較高的權(quán)值。
位置加權(quán)方法
位置加權(quán)主要是通過對(duì)詞在網(wǎng)頁中不同位置和版式,給予不同的權(quán)值,從而根據(jù)權(quán)值來確定所搜索的結(jié)果和搜索詞的相關(guān)程度。
詞的位置包括:網(wǎng)頁標(biāo)題、網(wǎng)頁描述,關(guān)鍵字、正文標(biāo)題、正文內(nèi)容、文本鏈接、alt標(biāo)識(shí)等。
版式包括:字體、字號(hào)、有無加粗強(qiáng)調(diào)等。和傳統(tǒng)文獻(xiàn)一樣,一般在較重要的位置如標(biāo)題、正文的結(jié)尾句等出現(xiàn)的詞給較大的權(quán)值。在理想狀態(tài)下,這些不同的標(biāo)簽對(duì)應(yīng)的內(nèi)容在表達(dá)網(wǎng)頁主題的能力上有所差異。通常字符較大、加粗強(qiáng)調(diào)的地方,一般也會(huì)給予更大的權(quán)值。
實(shí)現(xiàn)步驟
該排序算法的實(shí)現(xiàn)基本步驟是:采集網(wǎng)頁,解析網(wǎng)頁,過濾停用詞,獲取關(guān)鍵詞(中文自動(dòng)切詞),根據(jù)關(guān)鍵詞的位置和頻次加權(quán)得出詞對(duì)網(wǎng)頁的相關(guān)度,用戶檢索時(shí)按照關(guān)鍵詞在網(wǎng)頁中的權(quán)值大小對(duì)該網(wǎng)頁進(jìn)行排序。
詞頻位置算法評(píng)價(jià)
優(yōu)點(diǎn)
利用詞頻和位置加權(quán)算法是在傳統(tǒng)的文檔檢索理論和技術(shù)基礎(chǔ)上發(fā)展而來的,具有簡(jiǎn)單、易實(shí)現(xiàn)的優(yōu)點(diǎn),是搜索引擎早期排序的主要思想,技術(shù)發(fā)展最成熟。
缺點(diǎn)
詞頻統(tǒng)計(jì)比較適用于結(jié)構(gòu)化文檔數(shù)據(jù),然而網(wǎng)絡(luò)時(shí)代的主要文獻(xiàn)是以網(wǎng)頁的形式存在的。算法僅僅根據(jù)詞頻和位置信息排序,根本沒有利用網(wǎng)絡(luò)中超文本的新特性,可以說是前網(wǎng)絡(luò)時(shí)代的技術(shù)。
現(xiàn)在幾乎每個(gè)人都可以隨心所欲地在網(wǎng)上發(fā)表各種內(nèi)容,詞頻相同的兩個(gè)網(wǎng)頁,質(zhì)量相差可以很遠(yuǎn),很難保證文檔的結(jié)構(gòu)和文檔的質(zhì)量。
許多SEO網(wǎng)頁內(nèi)容的制作者絞盡腦汁,在其頁面上堆砌關(guān)鍵詞,特別是在重要的位置(特別是<meta>)中放置主題無關(guān)的關(guān)鍵字。當(dāng)用戶在瀏覽網(wǎng)頁時(shí)完全看不到,而在搜索引擎抓取時(shí),卻能發(fā)現(xiàn)。對(duì)此搜索引擎也研究出各種方法來,發(fā)現(xiàn)和懲罰(黑帽SEO)這種作弊行為。
總結(jié):現(xiàn)在的搜索引擎開發(fā)了更加合理的鏈接分析算法,但是如果單純依靠鏈接分析,可能會(huì)發(fā)生主題漂移的問題。導(dǎo)致即使網(wǎng)頁的質(zhì)量再高,再權(quán)威,如果搜索詞和網(wǎng)頁的相關(guān)度不高,對(duì)于用戶來說也是沒有用的。所以需要將鏈接分析與詞頻信息相結(jié)合,進(jìn)行綜合的分析獲得更好地排序效果。目前詞頻位置加權(quán)排序算法仍是許多搜索引擎的核心排序技術(shù)。