澄※雨妳的一切

Jun 22 Fri 2012 20:00
尾聲，Celtics...

Let's go Celtics!!Let's go Celtics!!Let's go Celtics!!......不絕於耳的口號，

仍然縈繞在我的耳邊....

tiredapple 發表在痞客邦留言(0) 人氣()

Dec 20 Tue 2011 17:26
Probabilistic latent semantic analysis (pLSA)

Probabilistic latent semantic analysis (概率潜在语义分析，pLSA) 是一种 Topic model，在99年被 Thomas Hofmann 提出。它和随后提出的 LDA 使得 Topic Model 成为了研究热点，其后的模型大都是建立在二者的基础上的。

我们有时会希望在数量庞大的文档库中自动地发现某些结构。比如我们希望在文档库发现若干个“主题”，并将每个主题用关键词的形式表现出来。我们还希望知道每篇文章中各个主题占得比重如何，并据此判断两篇文章的相关程度。而 pLSA 就能完成这样的任务。

我之前取了 Wikinews 中的 1000 篇新闻，试着用 pLSA 在其中发现 K=15 个主题。比如一篇关于 Wikileaks 的阿萨奇被保释消息的新闻，算法以 100% 的概率把它分给了主题 9，其关键词为：

media phone hacking wikileaks assange
australian stated information investigation murdoch

(繼續閱讀...)

tiredapple 發表在痞客邦留言(0) 人氣()

個人分類：語意分析相關

▲top

Dec 18 Sun 2011 02:16
KL距離，Kullback-Leibler Divergence

KL距離，是Kullback-Leibler差異（Kullback-Leibler Divergence）的簡稱，也叫做相對熵（Relative Entropy）。它衡量的是相同事件空間裡的兩個概率分佈的差異情況。其物理意義是：在相同事件空間裡，概率分佈P(x)的事件空間，若用概率分佈Q（x）編碼時，平均每個基本事件（符號）編碼長度增加了多少比特。我們用D（P||Q）表示KL距離，計算公式如下：

當兩個概率分佈完全相同時，即P(x)=Q(X)，其相對熵為0 。我們知道，概率分佈P(X)的信息熵為：

其表示，概率分佈P(x)編碼時，平均每個基本事件（符號）至少需要多少比特編碼。通過信息熵的學習，我們知道不存在其他比按照本身概率分佈更好的編碼方式了，所以D(P||Q）始終大於等於0的。雖然KL被稱為距離，但是其不滿足距離定義的三個條件：1）非負性；2）對稱性（不滿足）；3）三角不等式（不滿足）。

(繼續閱讀...)

tiredapple 發表在痞客邦留言(0) 人氣()

個人分類：語意分析相關

▲top

Oct 25 Tue 2011 04:17
LSA與PLSA

轉載自 http://tech.bobgo.net/?author=1

1. 引子

Bag-of-Words 模型是NLP和IR領域中的一個基本假設。在這個模型中，一個文檔(document)被表示為一組單詞(word/term)的無序組合，而忽略了語法或者詞序的部分。BOW在傳統NLP領域取得了巨大的成功，在計算機視覺領域(Computer Vision)也開始嶄露頭角，但在實際應用過程中，它卻有一些不可避免的缺陷，比如：

稀疏性(Sparseness): 對於大詞典，尤其是包括了生僻字的詞典，文檔稀疏性不可避免；
多義詞(Polysem): 一詞多義在文檔中是常見的現象，BOW模型只統計單詞出現的次數，而忽略了他們之間的區別；
同義詞(Synonym): 同樣的，在不同的文檔中，或者在相同的文檔中，可以有多個單詞表示同一個意思；

從同義詞和多義詞問題我們可以看到，單詞也許不是文檔的最基本組成元素，在單詞與文檔之間還有一層隱含的關係，我們稱之為主題(Topic)。我們在寫文章時，首先想到的是文章的主題，然後才根據主題選擇合適的單詞來表達自己的觀點。在BOW模型中引入Topic的因素，成為了大家研究的方向，這就是我們要講的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA)，至於更複雜的LDA和眾多其他的Topic Models，以後再詳細研究。

2. LSA簡介

(繼續閱讀...)

tiredapple 發表在痞客邦留言(0) 人氣()

個人分類：語意分析相關

▲top

Oct 25 Tue 2011 03:33
機器學習中的相似性度量

轉載自http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html

在做分類時常常需要估算不同樣本之間的相似性度量(Similarity Measurement)，這時通常採用的方法就是計算樣本間的「距離」(Distance)。採用什麼樣的方法計算距離是很講究，甚至關係到分類的正確與否。

　　本文的目的就是對常用的相似性度量作一個總結。

(繼續閱讀...)

tiredapple 發表在痞客邦留言(1) 人氣()

個人分類：語意分析相關

▲top

Oct 25 Tue 2011 03:24
SVD奇異值分解

轉載自http://blog.csdn.net/afgh2587849/article/details/6792262

SVD分解是LSA的數學基礎，本文是我的LSA學習筆記的一部分，之所以單獨拿出來，是因為SVD可以說是LSA的基礎，要理解LSA必須瞭解SVD，因此將LSA筆記的SVD一節單獨作為一篇文章。本節討論SVD分解相關數學問題，一個分為3個部分，第一部分討論線性代數中的一些基礎知識，第二部分討論SVD矩陣分解，第三部分討論低階近似。本節討論的矩陣都是實數矩陣。

基礎知識

(繼續閱讀...)

tiredapple 發表在痞客邦留言(0) 人氣()