當前位置:首頁 ? 新手建站 ? 正文

6.6
6.6

seo優化技術:搜引擎算索法分析原理與應用

2024 人參與  2019年02月12日 22:31  分類 : 新手建站  點這評論

關于搜索引擎優化,初學者可以對鏈接分析、站內權重分析等多維度的方向進行深度學習。但是搜索引擎優化好比修煉,前者都是術,而術基本上都可以通用,而本節課程開始我們將用道(算法/思維)來捕捉搜索引擎的規律。很多人都說SEO算法改變了,其實算法從未改變,而是你對SEO的把控改變了。對于道而言,永遠是悟性(思維)大于常規。SEO結果永遠是萬變不離其宗,如果我們掌控了搜索引擎的算法本質,那么對于任何站點的SEO優化就將變得越來越透徹,把控排名也將越來越輕松!

中文分詞技術原理與實戰應用

思考:什么是中文分詞,為什么需要中文分詞?

答案:我們都知道對于用戶本身而言,是具備意識來進行判斷一個網頁內容的可讀性、通順度等行為。但是對于搜索引擎本身來說它是不能像用戶大腦一樣去思考問題。而中文分詞可以利用語義分析系統(類似人的大腦)來進行詞匯分割,從組,定性等多維度拆解,從而讓網頁文檔通過分詞技術進行詞匯歸類,得到的最后網頁多組詞的頻次,在利用倒排索引與TF-IDF算法與之計算,最終確定網頁的核心主題(關鍵詞)。

舉例:在我們常見的語義模型中,大致分為三種類型的詞,符號、中文、英文單詞。由于國內搜索引擎多數情況下使用的是中文詞匯,但是不少網頁也存在大量的英文詞匯,所以在考量分詞結構的時候不僅僅是用來測試中文含義。而中文分詞里面的詞性有分為名詞、形容詞、動詞、副詞等詞性,盡管我們作為用戶可以一眼看出標題、描述、頁面內容的含義,但是對于搜索引擎本身來講是不具備這類“意識”,而語義分析是最好的一種模擬用戶行為的方式。比如“漂亮_漂亮的含義_漂亮的意思”這個標題對于用戶而言都知道是闡述漂亮,但是對于搜索引擎來說并不知道,而中文分詞可以將頁面的詞隔離開來進行判斷。這里的下劃線可以作為分詞符號,分詞符號的最大作用是用于將一個詞組合并成一個詞,比如用戶查詢漂亮的含義,而標題中漂亮的含義通過分詞符號可以讓標題精準包含該關鍵詞(關鍵詞不間斷)。再比如排行榜這個詞語,本身就是一個詞,不可能把排行和榜分開,但是如果采用了分詞符號比如排行_榜,那么該標題就分為了兩個關鍵詞。分詞符號的最大作用就是讓關鍵詞(詞或詞組)變成一個詞,用于增強網頁的唯一主題強調,從而增加該關鍵詞在網頁文檔中的權重(強調)程度。

應用:我們在借助中文分詞技術進行搜索引擎優化的時候強調三個原則,而這三個原則的把控是提升網頁核心關鍵詞權重的核心基石。

原則一:名詞優先

首先我們簡單的理解什么是名詞,從詞性來講名詞是通過概念性的描述一種人、事、物的名稱。比如父親、山藥、意義等這類帶有名稱屬性的詞性叫做名詞。而漂亮、矮小等這類詞屬于形容詞,蹦跑、種菜這種則屬于動詞。而我們正常的詞性來講,名詞是詞性范圍最廣,詞量最多的一種詞。比如我們優化的產品詞,業務詞等絕大多數都是名詞屬性。從搜索引擎角度來說,名詞的權重(重要程度)要大于其他屬性。比如“我的父親”,該標題父親顯然是核心詞,而不是我或者得。

原則二:頻次優先

之所以有頻次優先原則,那是因為我們在強調一個主題的核心程度的同時也要思考該詞在該網頁當中的比重,比如“漂亮_漂亮的含義_漂亮的意思”,盡管漂亮是形容詞,含義是名詞,但是該標題的核心詞絕對是漂亮而不是含義,因為頻次大于詞性。所以在頻次相等的情況下,名詞權重(重要程度)最高。頻次不等的情況下,頻次最高的關鍵詞強調性最大。

原則三:分詞符號優先

之所以才用到分詞符號大多數是因為,我們很多時候優化的一個關鍵詞并不是單一的詞匯,而是通過多個詞組合起來的詞組。而詞組里面可能不一定是名詞,可能是名詞+動詞、名詞+形容詞等組合搭配的詞匯。如果我們不間斷的去寫一個標題比如“我的語文老師很漂亮”,該標題我的、語文、老師均為名詞,如果沒有任何分詞符號,該標題通過分詞就是我的、語文、老師、很、漂亮。但是如果我們用【】將語文老師擴起來,那么該標題分詞以后就是我的、語文老師、很、漂亮。分詞符號的最大作用就是將網頁的一個詞組通過分詞符號的替換來達到詞組并歸或詞分離,從而增強網頁核心關鍵詞的主題強調作用。

語義分析系統: http://ictclas.nlpir.org/nlpir/

 圖片1.png

示例:上圖案例當中,張玉鵬后面采用了冒號,這里的冒號其實就是分詞符號,如果我們不加冒號,該標題反倒像一句話,通過分詞符號可以有效的將詞分離出來,從而提升該關鍵詞在網頁當中的整體核心權重。右圖早餐培訓,我們也采用了下劃線作為關鍵詞的分詞符號,如果我們不加下劃線,那么該標題就是“早餐培訓早餐培訓班早餐培訓學校【免費加盟】”。從語義上講,我們可以念成早餐、培訓早餐、培訓班、早餐、培訓學校。這類組合方式會有非常多,并且不加分詞符號讓整個標題有種讓人看不懂的感覺。所以我們要學會巧妙使用分詞符號,從短語或者詞組進行分離,從而達到關鍵詞獨立性的目的,也是為了增強網頁關鍵詞的唯一性。

TF-IDF算法原理與實戰應用

思考:什么是TF,什么是IDF,為什么需要TF-IDF算法?

答案:TF(全稱Term Frequency),中文含義詞頻,簡單理解就是關鍵詞出現在網頁當中的頻次。IDF(全稱Inverse Document Frequency),中文含義逆文檔頻率,簡單來說就是該關鍵詞出現在所有文檔里面的一種數據集合。比如關鍵詞“中國”在A網頁里面出現了100次,那么它的TF值則是100次(詞頻),假設搜索引擎所收錄的所有網頁里面有1億網頁包含“中國”該關鍵詞,那么IDF將由IDF公式計算出它對應的數據值。統一來理解則是TF是計算自己網頁內的關鍵詞頻次,而TDF是計算所有文檔里面包含該關鍵詞的一種概率數值。

計算公式:

TF=某個詞在文章中出現的次數=某個詞在文章中出現的次數/文章總詞數

IDF=log(語料庫文檔總數/(包含該詞文檔數+1))

TF-IDF=詞頻(TF)*逆文檔頻率(IFD)

備注:關于IDF中的計算公式如果不理解的話可以簡單的理解是通過一個總詞庫文檔數除以包含該詞的一個文檔總數+1,通過log對數運算得出的一種計算結果。假設A關鍵詞在B網頁中出現了10次,并且所有文檔語料庫有1000億張網頁,A關鍵詞在百度搜索結果出現的次數為100w次,那么IDF=log(1000億/1000001)。TF-IDF=10*log(1000億/1000001),該值不會計算可忽略在,重點理解該算法計算原理。

算法思想:

TF-IDF的核心思想是通過該算法進行有效的計算網頁的核心關鍵詞。雖然語義分析以及中文分詞能夠簡單的計算出頁面的關鍵詞主題,但是由于互聯網內容信息重復度較大,同一個內容單純從分詞角度來講是不足以滿足搜索引擎針對網頁的內容是否更加符合用戶的需求。而TF-IDF則可以用過算法公式來計算用戶搜索詞與網頁之間的相似度。

比如網頁標題“小明的同桌叫馬天”,這里面的、叫在搜索引擎里面一般都稱為停用詞,也就是無意義詞。而去掉這些詞剩下的詞則是小明、同桌、馬天。根據分詞原理,這三個詞都是名詞,那么作為用戶而言去看這個標題明顯知道是闡述馬天是網頁的核心關鍵詞,但是對于搜索引擎來說并不能深刻的理解該網頁的核心關鍵詞。對于這三個詞,一般我們都有一個詞的重要程度系數。從常見度來說,越常見的東西則不重要,反之越不常見越重要。那么搜索引擎是如何知道該詞的常見程度呢?可以通過相關搜索結果數來計算關鍵詞的重要度。

根據下圖的關鍵詞相關結果可以得出,馬天數值最小,也是最不常見的詞,那么常見度排序結果則是小明>同桌>馬天。現在在返回看我們最前面的張玉鵬案例就不難發現為何該詞有排名,標題其他詞卻沒有排名的原因。正是因為先通過分詞,然后借助分詞符號將短語分離,從而通過TF-IDF的核心算法思想進行操作排名。

 圖片2.png

算法應用:

關于TF-IDF的算法實戰應用,最常見的方式則是利用TF-IDF算法的計算方式來進行定位網頁的核心詞,從而網站大量提升關鍵詞排名。首先我們要理解真正原創文章的含義,真正的內容原創有兩種,一種是網頁內容與總語料庫文檔不重合,另一種則是關鍵詞與該關鍵詞的相關結果文檔不重合。而TF-IDF最佳的運用方式則是可以采用換湯不換藥的操作方式來進行關鍵詞排名。比如優化一個關鍵詞“山藥的功效與作用”,那么我們可以去抄襲一篇“人參的功效與作用”的文章,并且替換網頁里面的所有人參關鍵詞,盡管這篇文章在人參里面是重復性很高的文章。但是在山藥的功效與作用里面它就是獨一無二的。并且刻意增加山藥文章里面的TF值,讓搜索引擎認定該網頁的核心關鍵詞。

 圖片3.png

(這本來是寫人參 的一片文章,關鍵詞換成山藥后的搜索結果)

通過TF-IDF算法應用的經典案例,內容全部抄襲,網頁標題(title)與文章標題不同,目的就是用來提升網頁的點擊率。為了提升網頁的點擊率,我們可以將網頁的標題(title)寫的更加規范,這樣排名一旦上來,還有利于用戶的點擊,從而提升網頁關鍵詞的排名更佳狀態。

 圖片4.png

上圖我們可以看到,張玉鵬該網頁出現的內容重復度極高、并且網頁內容與標題也基本一致,那為何偏偏只有我的站張玉鵬有排名,而其他網站卻沒有排名。單純從站點的權重評級來看,www.51dx.org站點也不是最好的,這里面最大的原因則是TF問題。盡管內容都一致,甚至H標簽、加粗這類影響站內權重的標簽都規范了網頁的權重程度。但是51dx站點TF-IDF值最小,從頻次來講,51dx站點里面的張玉鵬關鍵詞是所有出現重復內容里面TF值最大的一個站點(頻次),所以搜索引擎在定位一個核心關鍵詞的時候,會將TF值最大的一個站點進行結果排序。并且結合IDF思想,張玉鵬搜索結果眾多,該網頁在張玉鵬里面的排名又是獨一無二的內容頁面。所以我們在借助TF-IDF算法操作排名的時候,盡可能的把TF值放大(放大的時候一定要保持關鍵詞分布自然性),即使是抄襲的文章,也要把抄襲做到極致,從而引起網頁關鍵詞的排名!

來源:紫菜頭網賺博客(微信/QQ號:779178376),轉載請保留出處和鏈接!

本文鏈接:http://www.mlnqvt.com.cn/post/1452.html

6.4 6.10
6.4 6.10

本文標簽:網賺項目  seo  賺錢就這么簡單  

<< 上一篇 下一篇 >>
7.4

  • 評論(7)
  • 贊助本站

◎歡迎參與討論,請在這里發表您的看法、交流您的觀點。

紫菜頭網賺公眾平臺

image

我是廣告

    文字廣告位

網賺博客 | 網絡營銷 |

排列3玩法