seo關鍵詞推廣分詞技術解析 ,搜索引擎是程序是一個工作機器,它對關鍵詞理解是基于數據庫的詞庫來識別的,所以在做seo優化的時候懂得seo關鍵詞分詞技術的原理,你才能是網站有更好的排名。
一、什么是搜索引擎分詞技術:
百度分詞技術就是百度針對用戶提交查詢的關鍵詞串進行的查詢處理后根據用戶的關鍵詞串用各種匹配方法進行的一種技術。 所謂分詞就是把字與字連在一起的漢語句子分成若干個相互獨立、完整、正確的單詞。詞是最小的、能獨立活動的、有意義的語言成分。計算機的所有語言知 識都來自機器詞典(給出詞的各項信息) 、句法規則(以詞類的各種組合方式來描述詞的聚合現象) 以及有關詞和句子的語義、語境、語用知識庫。中文信息處理系統只要涉及句法、語義(如檢索、翻譯、文摘、校對等應用) ,就需要以詞為基本單位。當漢字由句轉化為詞之后,才能使得句法分析、語句理解、自動文摘、自動分類和機器翻譯等文本處理具有可行性??梢哉f,分詞是機器 語言學的基礎。
二、分詞技術方法分類:
1.字符串匹配的分詞方法
字符串匹配這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞),按照掃描方向的不同,字符串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為更大(最長)匹配和最?。ㄗ疃蹋┢ヅ?;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。
2.詞義分詞法
這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式。
3.統計分詞法
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰共現概率?;ガF信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但并不是詞的常用字組,并且對常用詞的識別精度差,時空開銷大。
三、分詞技術技巧:
1.正向更大匹配法(由左到右的方向);
首先粗分,按照句子把文本切成一個一個句子。然后把每個句子切成單字。字典按照樹形結構存儲,比如這句話“春天還會遠嗎”首先查找“春”字開頭的詞,然后按照字典樹形結構往下走一個節點,查找“春”后面一個字是“天”的詞,然后又下沉一個節點,找“還”下面是“會”的詞,找不到了,查找就結束。
2.逆向更大匹配法(由右到左的方向);
就是朝相反的方向發掘可以匹配的文字,比如網上商城這個文字串,那么會向左延伸在網上的前面會出現的結果是區域性的文字,比如上?;蛘弑本┑?,在商城的前面會出現更精準的定義文字符,比如愛家,女人等專屬性強的文字符。
3.最少切分(使每一句中切出的詞數最?。?。
正向更大匹配方法和逆向更大匹配方法結合起來構成雙向匹配法。就是向左右縱深挖掘比較匹配的結果值。還可以將上述各種方法相互組合,實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。
分詞技術是seo從業者要掌握的重要技巧,熟悉了百度分詞技術,針對網站的標題關鍵詞的設定是有很大的幫助的,大家要知道標題在整個網站的重要性吧,所以這是必備的技能。
請立即點擊咨詢我們或撥打咨詢熱線: 13928450018,我們會詳細為你一一解答你心中的疑難。項目經理在線