公告版位

      Let's go Celtics!!Let's go Celtics!!Let's go Celtics!!......不絕於耳的口號,

仍然縈繞在我的耳邊....


tiredapple 發表在 痞客邦 留言(0) 人氣()

Probabilistic latent semantic analysis (概率潜在语义分析,pLSA) 是一种 Topic model,在99年被 Thomas Hofmann 提出。它和随后提出的 LDA 使得 Topic Model 成为了研究热点,其后的模型大都是建立在二者的基础上的。

我们有时会希望在数量庞大的文档库中自动地发现某些结构。比如我们希望在文档库发现若干个“主题”,并将每个主题用关键词的形式表现出来。我们还希望知道每篇文章中各个主题占得比重如何,并据此判断两篇文章的相关程度。而 pLSA 就能完成这样的任务。

我之前取了 Wikinews 中的 1000 篇新闻,试着用 pLSA 在其中发现 K=15 个主题。比如一篇关于 Wikileaks 的阿萨奇被保释消息的新闻,算法以 100% 的概率把它分给了主题 9,其关键词为:

media phone hacking wikileaks assange
australian stated information investigation murdoch

tiredapple 發表在 痞客邦 留言(0) 人氣()

KL距離,是Kullback-Leibler差異(Kullback-Leibler Divergence)的簡稱,也叫做相對熵(Relative Entropy)。它衡量的是相同事件空間裡的兩個概率分佈的差異情況。其物理意義是:在相同事件空間裡,概率分佈P(x)的事件空間,若用概率分佈Q(x)編碼時,平均每個基本事件(符號)編碼長度增加了多少比特。我們用D(P||Q)表示KL距離,計算公式如下:

  當兩個概率分佈完全相同時,即P(x)=Q(X),其相對熵為0 。我們知道,概率分佈P(X)的信息熵為:

  其表示,概率分佈P(x)編碼時,平均每個基本事件(符號)至少需要多少比特編碼。通過信息熵的學習,我們知道不存在其他比按照本身概率分佈更好的編碼方式了,所以D(P||Q)始終大於等於0的。雖然KL被稱為距離,但是其不滿足距離定義的三個條件:1)非負性;2)對稱性(不滿足);3)三角不等式(不滿足)。

tiredapple 發表在 痞客邦 留言(0) 人氣()

轉載自 http://tech.bobgo.net/?author=1 

1. 引子

Bag-of-Words 模型是NLP和IR領域中的一個基本假設。在這個模型中,一個文檔(document)被表示為一組單詞(word/term)的無序組合,而忽略了語法或者詞序的部分。BOW在傳統NLP領域取得了巨大的成功,在計算機視覺領域(Computer Vision)也開始嶄露頭角,但在實際應用過程中,它卻有一些不可避免的缺陷,比如:

  1. 稀疏性(Sparseness): 對於大詞典,尤其是包括了生僻字的詞典,文檔稀疏性不可避免;
  2. 多義詞(Polysem): 一詞多義在文檔中是常見的現象,BOW模型只統計單詞出現的次數,而忽略了他們之間的區別;
  3. 同義詞(Synonym): 同樣的,在不同的文檔中,或者在相同的文檔中,可以有多個單詞表示同一個意思;

從同義詞和多義詞問題我們可以看到,單詞也許不是文檔的最基本組成元素,在單詞與文檔之間還有一層隱含的關係,我們稱之為主題(Topic)。我們在寫文章時,首先想到的是文章的主題,然後才根據主題選擇合適的單詞來表達自己的觀點。在BOW模型中引入Topic的因素,成為了大家研究的方向,這就是我們要講的Latent Semantic Analysis (LSA) 和 probabilitistic Latent Semantic Analysis (pLSA),至於更複雜的LDA和眾多其他的Topic Models,以後再詳細研究。

2. LSA簡介

tiredapple 發表在 痞客邦 留言(0) 人氣()

轉載自http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html

 

在做分類時常常需要估算不同樣本之間的相似性度量(Similarity Measurement),這時通常採用的方法就是計算樣本間的「距離」(Distance)。採用什麼樣的方法計算距離是很講究,甚至關係到分類的正確與否。

  本文的目的就是對常用的相似性度量作一個總結。

tiredapple 發表在 痞客邦 留言(1) 人氣()

轉載自http://blog.csdn.net/afgh2587849/article/details/6792262

SVD分解是LSA的數學基礎,本文是我的LSA學習筆記的一部分,之所以單獨拿出來,是因為SVD可以說是LSA的基礎,要理解LSA必須瞭解SVD,因此將LSA筆記的SVD一節單獨作為一篇文章。本節討論SVD分解相關數學問題,一個分為3個部分,第一部分討論線性代數中的一些基礎知識,第二部分討論SVD矩陣分解,第三部分討論低階近似。本節討論的矩陣都是實數矩陣。

基礎知識

tiredapple 發表在 痞客邦 留言(0) 人氣()

  • Aug 01 Mon 2011 12:12
  • 110801

今天 一樣愛妳 : )

tiredapple 發表在 痞客邦 留言(0) 人氣()

夢一直遇見妳
邁向八年,還是忘不掉
夢裡我是開心的:)
喜歡妳也是開心的

tiredapple 發表在 痞客邦 留言(0) 人氣()

曾幾何時開始
我就不知道怎麼應對喜歡的女生了
或許也不一定是喜歡的女生
欣賞的女生或者漂亮的女生

tiredapple 發表在 痞客邦 留言(0) 人氣()

  • Mar 11 Fri 2011 18:13
  • 平安

願妳平安
最愛的妳

tiredapple 發表在 痞客邦 留言(0) 人氣()

  • Feb 25 Fri 2011 04:15
  • 低潮

進來念到現在
一直給老闆惹麻煩...一直做錯事
學長和老闆都對我失望
老闆也烙下重話
研究也沒任何靈感

tiredapple 發表在 痞客邦 留言(1) 人氣()

越是注意越是在意

tiredapple 發表在 痞客邦 留言(0) 人氣()

Research這個詞
對於目前My Institute life是個Keyword
做Research有很多的Objective
這是老闆整天耳提面命的

tiredapple 發表在 痞客邦 留言(0) 人氣()

  • Nov 16 Tue 2010 01:07
  • 改造

我的社交魅力一直都挺差
也不是說沒話說什麼
表達能力一直不是很好

單身那麼久了 也快兩年了

tiredapple 發表在 痞客邦 留言(0) 人氣()

  • Sep 29 Wed 2010 01:03
  • 密碼文章 精進

  • 這是一篇加密文章,請輸入密碼
  • 密碼提示:
  • 請輸入密碼:
1 234