文本情感分析的一些总结

情感分析

情感分析的定义有多个版本,通俗理解就是通过对大量文本进行分析,挖掘出用户的情感倾向,最终目的是运用到现实生活中,或辅助决策,或科学研究。

情感分析 ( Sentiment Analysis) ,也称为倾向性分析,是指采用自动化或半自动化手段对基于微博、论坛等在线社交网络产生的主观评论文本内容进行分析、处理、归纳和推导,从中挖掘出用户 ( 个人或群体、组织等) 针对主题、人物、事件等表达的评论、观点和意见的过程。情感倾向性分析的主要对象是网民自主发布的与网络舆情事件相关的文本。

研究内容

目前情感分析的研究主要有 情感的主客观分析、情感极性分析和多情感分类 等。

主客观情感分析 主要是从大量数据集中识别主观的文本信息。

情感极性分析 将情感态度分为正向情感和负向情感两极或者正、中、负三级,并通过打分形式计算情感强度。

多情感分类 在情感极性分析的不足中提出“乐、哀、怒、惊、惧、好、恶”7种情感维度,力争从更高的维度揭示用户的情感状况。

研究流程

较常见的研究流程:信息源选择->文本预处理->情感倾向性识别->情感可视化

分析方法

常用的情感分析方法包括无监督的基于情感词典的分析方法和有监督的机器学习方法。

基于情感词典

基于词典的分析方法将情感标注任务看作已具有明确情感标注的情感词典与评论语料之间的匹配问题。该类方法不需要预先进行训练,情感词典通常基于 Word Net,How Net等知识资源建立,情感词典的质量在很大程度上决定了网络评论情感极性识别的效果,该方法对情感词典的依赖性太强,如果情感词典中没有收录重要的情感词,就无法对评论的情感倾向进行判断。

所以除了通用的情感字典外,研究者还需要引入特定领域的专用字典来保证更好的识别效果!

计算文本 情感强度 普遍是基于情感字典的方式实现,而且情感字典不仅要要具备丰富的情感词汇,还要有对应的情感数值。除扩充的情感字典外,还需要程度副词情感表、否定词情感表及连词词表等。在这些条件充分下,通过句法分析等方式计算词语情感强度,汇总得出句子、文本的情感强度。

那么,如何根据已有情感字典,拓展特定领域或特定语料的情感字典呢?

点互信息(PMI) 算法用来计算两个词的相关度,PMI值越大表示两个词语的相关程度就越强。

1
PMI(x,y)=log⁡ P(x,y)/P(x)P(y)

其中,p(x,y)表示x与y一起出现的概率,p(x)是表征词语x在文本中使用的概率,p(y)是表征词语y在文本中使用的频率。PMI(x,y)表示两个词语同时出现的频率。

在实际应用中,也经常用语料库来统计词语出现的频率。

1
PMI(x,y)=log⁡ (N*df(x,y))/df(x)df(y)

df(x)表示在语料中含有词语x的文档数目,N代表为预料数据集中文档总的数目。所以,一个未知情感倾向性词语word的情感倾向强度值计算为:

1
SO-PMI(word) = ∑_(pword ∈ Pwords) PMI(word,pword)-  ∑_(nword ∈ Nwords) PMI(word,nword)

Pwords是正向情感种子词语的集合,Nwords是负向贬义情感种子的词语集合。情感种子词语集合由人工预先提供,经计算后,当某个词语的SO-PMI值大于0时,将其归为正向情感词,SO-PMI值小于0时,归位负向情感词。

对于不复杂的句子来说,提取情感词,根据情感词的权重累加就可以得到整个句子的情感强度,但是复杂一点的句子是无法使用的,需要添加一些句法规则。依存句法 一种描述句子中各个词条之间的依存结构的语法,这种语法不仅易于表示,而且保留句子短语的结构信息,细分为14种类型。

基于机器学习

基于机器学习的情感识别方法利用训练好的分类器对待分析评论进行情感倾向性识别。在此类任务中,可将情感分析看作一个分类问题,也就是对相关的情感表达对象进行正负情感的二类分类,或具有情感强度级别的多类分类。此方法中运用的比较常见的技术有:

  • 朴素贝叶斯
  • 支持向量机
  • 最大熵
  • 条件随机场

基于机器学习的方法只要通过训练集构造好了分类器,就可以对未知的情感表达文本进行分类。与基于词典的情感识别方法相比,此类方法减少了对特定情感词语料资源的依赖。但是该类方法要事先花费一定的时间进行训练集语料标注,且分类器的训练效果很大程度上决定了情感标注效果。在针对不同的研究目的时,选择合适的机器学习方法可以提升分析结果的准确率和效率。

情感可视化

基于词频统计的情感可视化分析

基于词频统计的情感可视化分析方法利用能够表达文本评论核心内容的关键词或主题词出现的频次高低来确定评论的情感倾向性和程度强弱。

基于空间的情感可视化分析

基于空间的情感可视化分析就是以带有地理位置信息的网络评论数据为语料,将大量数据按照对应的空间维度展示,令数据的呈现更加直观。

基于时间的情感可视化分析

基于时间的情感可视化分析就是以带有时间标签信息的网络评论数据为语料,将大量数据按照对应的时间维度展示。

工具库

参考文献

  • 朱琳琳,徐健. 网络评论情感分析关键技术及应用研究[J]. 情报理论与实践, 2017, 40(1): 121-126, 131.