公告版位

目前分類:語意分析相關 (5)

瀏覽方式: 標題列表 簡短摘要

Probabilistic latent semantic analysis (概率潜在语义分析,pLSA) 是一种 Topic model,在99年被 Thomas Hofmann 提出。它和随后提出的 LDA 使得 Topic Model 成为了研究热点,其后的模型大都是建立在二者的基础上的。

我们有时会希望在数量庞大的文档库中自动地发现某些结构。比如我们希望在文档库发现若干个“主题”,并将每个主题用关键词的形式表现出来。我们还希望知道每篇文章中各个主题占得比重如何,并据此判断两篇文章的相关程度。而 pLSA 就能完成这样的任务。

我之前取了 Wikinews 中的 1000 篇新闻,试着用 pLSA 在其中发现 K=15 个主题。比如一篇关于 Wikileaks 的阿萨奇被保释消息的新闻,算法以 100% 的概率把它分给了主题 9,其关键词为:

media phone hacking wikileaks assange
australian stated information investigation murdoch

tiredapple 發表在 痞客邦 留言(0) 人氣()

KL距離,是Kullback-Leibler差異(Kullback-Leibler Divergence)的簡稱,也叫做相對熵(Relative Entropy)。它衡量的是相同事件空間裡的兩個概率分佈的差異情況。其物理意義是:在相同事件空間裡,概率分佈P(x)的事件空間,若用概率分佈Q(x)編碼時,平均每個基本事件(符號)編碼長度增加了多少比特。我們用D(P||Q)表示KL距離,計算公式如下:

  當兩個概率分佈完全相同時,即P(x)=Q(X),其相對熵為0 。我們知道,概率分佈P(X)的信息熵為:

  其表示,概率分佈P(x)編碼時,平均每個基本事件(符號)至少需要多少比特編碼。通過信息熵的學習,我們知道不存在其他比按照本身概率分佈更好的編碼方式了,所以D(P||Q)始終大於等於0的。雖然KL被稱為距離,但是其不滿足距離定義的三個條件:1)非負性;2)對稱性(不滿足);3)三角不等式(不滿足)。

tiredapple 發表在 痞客邦 留言(0) 人氣()

轉載自 http://tech.bobgo.net/?author=1 

1. 引子

Bag-of-Words 模型是NLP和IR領域中的一個基本假設。在這個模型中,一個文檔(document)被表示為一組單詞(word/term)的無序組合,而忽略了語法或者詞序的部分。BOW在傳統NLP領域取得了巨大的成功,在計算機視覺領域(Computer Vision)也開始嶄露頭角,但在實際應用過程中,它卻有一些不可避免的缺陷,比如:

  1. 稀疏性(Sparseness): 對於大詞典,尤其是包括了生僻字的詞典,文檔稀疏性不可避免;
  2. 多義詞(Polysem): 一詞多義在文檔中是常見的現象,BOW模型只統計單詞出現的次數,而忽略了他們之間的區別;
  3. 同義詞(Synonym): 同樣的,在不同的文檔中,或者在相同的文檔中,可以有多個單詞表示同一個意思;

從同義詞和多義詞問題我們可以看到,單詞也許不是文檔的最基本組成元素,在單詞與文檔之間還有一層隱含的關係,我們稱之為主題(Topic)。我們在寫文章時,首先想到的是文章的主題,然後才根據主題選擇合適的單詞來表達自己的觀點。在BOW模型中引入Topic的因素,成為了大家研究的方向,這就是我們要講的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA),至於更複雜的LDA和眾多其他的Topic Models,以後再詳細研究。

2. LSA簡介

tiredapple 發表在 痞客邦 留言(0) 人氣()

轉載自http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html

 

在做分類時常常需要估算不同樣本之間的相似性度量(Similarity Measurement),這時通常採用的方法就是計算樣本間的「距離」(Distance)。採用什麼樣的方法計算距離是很講究,甚至關係到分類的正確與否。

  本文的目的就是對常用的相似性度量作一個總結。

tiredapple 發表在 痞客邦 留言(1) 人氣()

轉載自http://blog.csdn.net/afgh2587849/article/details/6792262

SVD分解是LSA的數學基礎,本文是我的LSA學習筆記的一部分,之所以單獨拿出來,是因為SVD可以說是LSA的基礎,要理解LSA必須瞭解SVD,因此將LSA筆記的SVD一節單獨作為一篇文章。本節討論SVD分解相關數學問題,一個分為3個部分,第一部分討論線性代數中的一些基礎知識,第二部分討論SVD矩陣分解,第三部分討論低階近似。本節討論的矩陣都是實數矩陣。

基礎知識

tiredapple 發表在 痞客邦 留言(0) 人氣()