研發新視界

淺談文字探勘技術

作者/黃詰仁

[發表日期：2010/10/22]

前言

現今的社會包含各式各樣的文字資料，像是報章雜誌、書籍或是網站。這樣多種類的文字資料如果未經整理，往往令人覺得資訊過於雜亂無章，無法被有效的利用。例如在內政部警政署的資料中，內部既有刑案資料，報案資料和贓物資料等，但資料彼此獨立且多數無明確關連關係，員警所取得的資訊往往不夠完備，不見得能有效增加破案的機會。以下便簡介其相關的文字探勘技術，以有效利用文字資訊。

斷詞

以中文來說，為了將文章做後續的處理，不可或缺的前處理技術為文章的斷詞，將文章分為許多有意義的詞。像是Yahoo的「斷章取義」API，即是利用廣大的網路資源，有效的將中文文章斷詞。

文章分段

故事分段的目的為將文章切分成有意義的單元（Units），例如句子或是場景（Theme）。在敘事性質的文章中，我們可以發現其內文是由一連串的主題（Topics）所構成的。現今文章分段演算法大致可以分為兩類：Supervised Method和Unsupervised Method。Supervised Method利用大量的訓練資料從中得知分段的規則，在針對特定類型的文章時，能夠由大量的訓練資料中得到較為不錯的效果。然而，大量訓練資料取得較為不易以及應用至其他類型的文章上皆使得此類的方法的效果無法令人滿意；相反的，Unsupervised Method較不受文章類型的影響。此類方法根據利用的文章資訊的不同又可分為兩類：Lexicon Cohesion及Multi-source Information。Lexicon Cohesion的概念為相似的字彙會出現在同一個主題的文段之中，可以利用的方法包括計算字彙重複出現的頻率；利用如WordNet的語意辭典來計算語意之間的相似程度；將文章切分為許多區塊後，計算兩兩區塊間的相似度。藉著這些方法來分析字彙的凝聚力（Cohesion）。而Multi-source Information除了利用Lexicon Cohesion的方法之外，更利用了文章形式中可能的分段線索，例如在廣播新聞的口語稿中，出現如“welcome back”或是“joining us”等都是作為分段的可能線索。

關鍵詞擷取

藉由關鍵詞擷取技術，便可由特徵詞大約看出文章主題的相關人、事和物。為文件建立關鍵詞主要有兩種方法，關鍵詞指定（Keyphrase Assignment）與關鍵詞擷取（Keyphrase Extraction）。關鍵詞指定的方法為從指定的詞典或語料庫中挑選最適合描述文件內容的詞來做為關鍵詞，利用機器學習的方法從已被標註關鍵詞的文章中學習出關鍵詞與文章中的關係，在將學習出的模型套用至需被擷取出關鍵詞的文章中，此方法受詞庫的內容所影響；而關鍵詞擷取則是從文件中挑選適合的詞彙作為關鍵詞，關鍵詞擷取方法擷取出現在文件之中較為重要的詞彙。像是傳統的tf-idf（Term frequency-Inverse document frequency）演算法，利用文章中重複出現的字詞作為關鍵字的擷取方法。

文章分群

傳統的分群方法中，有利用兩個或多個文件之間的相似程度來做為分群的依據，或是利用機器學習為主的分群方式來訓練一些文件來得到分群規則。為了找出兩個或是多個文件之間的相似度，可以利用傳統的資訊檢索技術，將文章以向量模型來表示（Vector Space Model），以關鍵詞視做為之中的每一維度，此時便可以利用一些常見的相似度計算方法：像是Cosine Measure，便可以定義多近的相似度視做為同一群。近幾年則大多利用潛在語意索引（Latent Semantic Indexing, LSI），LSI利用線性代數方法來擷取出關鍵字詞之間的語意關聯，消除文件資料間的雜訊（Noise），其利用奇異值分解的方法，將字彙-文件矩陣拆解為三個矩陣相乘，其分別為字彙-概念矩陣、概念-概念矩陣以及概念-文件矩陣。如下所示。

取得三個矩陣後，便可以依據SVD之特性取出U矩陣的前k行，形成Uk矩陣，Uk矩陣形成輸入矩陣A之詞彙空間的Orthogonal basis，也就是說，利用詞彙-概念矩陣的前k行找出代表所有文件的k個概念。也就是說，所有的文件都可以用這k個概念來表示，接著便可以將某一文件依其與k個概念中的的相似度來決定文件要分至哪一群。

參考資料

一、Yahoo斷章取義：http://tw.developer.yahoo.com/cas/

二、http://en.wikipedia.org/wiki/Text_mining

三、M. A. Hearst, “TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages,” Computational Linguistics, Vol. 23, No. 1, 1997.

四、E. Frank, G. W. Paynter, I. H. Witten, C. Gutwin, and C. G. Nevil-Manning, “Domain-specific Keyphrase Extraction,” Proc. of the International Joint Conference on Artificial Intelligence, 1999.

五、S. Osi?ski, D. Weiss, “Lingo: Search Results Clustering Algorithm Based on Singular Value Decomposition,” Proc. of International Joint Conference on Intelligent Information Systems IIS, 2004.