点互信息PMI

点互信息用来衡量两个事物之间的相关性，两个事物同时出现的概率越大，其相关性越大。

计算 $word_1$ 和 $word_2$ 的相关性：

$PMI(word_1,word_2) = log_2\Big[\frac{P(word_1,word_2)}{P(word_1) \times P(word_2)}]$

其中：

P($word_1$, $word_2$) 表示 $word_1$ 和 $word_2$ 共同出现的频率，可转化为 $word_1$ 与 $word_2$ 共同出现的文档数与总文档数的比值
P($word_1$) 表示 $word_1$ 单独出现的频率，可转化为 $word_1$ 出现的文档数与总文档数的比值。$word_2$ 类同。

情感倾向点互信息SO-PMI

情感倾向点互信息基本思想是：分别选取一组正向种子词 $P_w$ 和一组负向种子词 $N_w$。计算候选情感词【word 跟每一个正向种子词$P_w$ 点互信息的总和】与【word 跟每一个负向种子词 $N_w$ 点互信息的总和】之间的差值：

$SO-PMI(word) = \sum_{P_{word}\,\in {P_{w}}}PMI(word,P_{word}) - \sum_{P_{word}\,\in{P_{w}}}PMI(word,P_{word})$

经计算：

在进行短文本情感词生成过程中，词频较高的情感词文档频率不一定高。种子词在短文本文档中出现的频率很低会导致候选情感词与种子词共现的频次较低，出现零概率事件，无法计算候选特征情感词的互信息。

核心思想：通过高频计数的N元语法重新估计0计数或者低频计数的N元语法发生的概率。

$r^* = (r+1) \frac{N_{r+1}}{N_r}$

关于Good-Turing的具体介绍可以查看这篇博文，这样我们就可以解决零概率的问题了。

当两个词语共现时，可能是彼此相邻，也可能是相距很远。我们认为如果两个共现词距离很近，则关联性越强；反之，关联性越弱。两个词语之间的距离可以用两个词语之间的词语个数表示。重复出现时，取间距最小值。则两个词语之间的共现距离：

$d = min|d_x - d_y|$

则最新的PMI公式为：

$PMI(word_1, word_2) = log_2\big(\frac{d \times hit(word_1) \times hit(word_2)}{N \times hit(word_1, word_2)})$

则最新的SO-PMI公式为：

$SO-PMI(word_1x, S_i) = \sum_{S_a\,\in S_i}log_2\Big[ \frac{N \times hit(word_x,S_a)}{M_i \times d \times hit(word_x) \times hit(S_a)} \Big]$

其中：

郭顺利, 张向先. 面向中文图书评论的情感词典构建方法研究[J]. 数据分析与知识发现, 2016, 32(2): 67-74.
姜伶伶, 何中市, 张航. 基于 Good-Turing 平滑 SO-PMI 算法构建微博情感词典方法的研究[J]. 现代计算机 (专业版), 2018 (10): 5.