Unsupervised_word

June 13, 2018 in NLP

現新詞的傳統作法通常先對本文進行分詞，然後剩餘未成功匹配的片斷便被視為新詞，但是設想一個問題，當詞庫內原本並無新詞的存在又如何信任此結果？因此假若統計時能夠基於原始文本並根據詞的共同特徵進行新詞探索(無監督)，然後再與詞庫進行比較，這樣變能更準確的找出新詞，以下便介紹統計的相關算法。算法及步驟假設文本為: 吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮統計詞頻: 假設我們將一段文字根據window size來切割便能統計出詞，假設window size為5 吃(2) 吃葡(2) 吃葡萄(2) 吃葡萄不(1) 吃葡萄不吐(1) 葡(4) 葡萄(4) 葡萄不(1) 葡萄不吐(1) 葡萄不吐葡(1) 萄(4) 萄不(1) 內部凝固度(cohesiveStrength): 一般來說我們會將統計詞的頻數，並設定門檻值，高於門檻值便被視為新詞，但基於詞頻仍然不夠，例如看電影出現了501次，電影院出現了175次，雖然看電影出現的次數較多但是直覺上"電影院"更加凝固一些,經由統計也能得出此結果, 以下範例則以吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮來進行推演。首先我們計算出概率吃(2/17) 吃葡(2/17) 吃葡萄(2/17) 吃葡萄不(1/17) 吃葡萄不吐(1/17) 葡(4/17) 葡萄(4/17) 葡萄不(1/17) 葡萄不吐(1/17) 葡萄不吐葡(1/17) 萄(4/17) 萄不(1/17) 假設計算"葡萄"的凝固度我們可以分為左右兩邊來進行觀察吃葡萄(2/17) = 0.11764705882352941 左：（吃葡萄) / (吃 * 葡萄) 吃(2/17) * 葡萄(4/17) = 0.02768166089965398 lfProb = 0.11764705882352941(吃葡萄) / 0.02768166089965398(吃 * 葡萄) = 4.25 右: （吃葡萄) / (吃葡 * 萄) 吃葡(2/17) * 萄(4/17) = 0.

Day1

April 20, 2018 in tensorflow

Start with Tensorflow Day1

OrientDB-SQL-API

April 5, 2017 in orientdb

OrientDB-http

April 3, 2017 in orientdb

OrientDB除了提供相關的程式語言client library之外，向支援一般的http request，以下將記錄相關的使用方式。

OrientDB-SQL-CRUD

April 3, 2017 in orientdb

初探Orientdb

April 3, 2017 in orientdb

初學OrientDB的一些心得記錄，並以實例來理解基礎操作

Nodejs worker threads

Unsupervised_word

Day1

OrientDB-SQL-API

OrientDB-http

OrientDB-SQL-CRUD

初探Orientdb

weihanchen

Nodejs worker threads

Unsupervised_word

Day1

OrientDB-SQL-API

OrientDB-http

OrientDB-SQL-CRUD

初探Orientdb

weihanchen

Export、Import 模組

Posts

物件的語法糖

Set物件

擴展運算子 Spread Operator

樣板字串 String Template

解構賦值 Destructuring Assignment

Nodejs Cluster

Nodejs worker threads

Unsupervised_word