当前位置：首页 > 情感 >

情感分类基础知识

时间：2020-07-16 11:02:48人气：297编辑：网络

注：本文摘录自深度学习算法实践

情感倾向分析得方法主要有两类：

基于情感词典的方法；
基于机器学习的方法

其中，基于情感词典的方法需要用到标注好的情感词典，英文的词典有很多，中文的话，主要有知网整理的Hownet和台湾大学整理发布额NTUSD这两个情感词典。另外，哈工大信息检索研究实验室开源的《同义词词林》也可以作为情感词典的补充。

基于机器学习的方法需要大量人工标注的预料作为训练集，通过提取文本特征，构建分类器实现情感的分类。

对比两者方法的优劣：

基于情感词典的方法，优点：非常稳定。如果一句话中包含这个词就提取出来，然后做正负情感分类。缺陷在于，对于不在情感表中的词就无能为力。其次，只根据情感词判断，忽视了语料语境的作用，同一个词在不同的语境中表达的意思完全不同，有时候甚至会影响情感表达。
机器学习的方法。机器学习需要人工标注语料作为训练集，提取出文本的特征，用特征构建一个分类器，再做情感的分类。因为在构建特征分类器时加入的文本特征包含一部分语境，部分规避了情感词典的弱点。但这种方法因为特征的抽取方法不同，而导致噪音，通用性不好。假设用汽车论坛语料训练出的模型去预测某个手机商品评论，就会出现错误率很高，根本不可用的情况。

为了弥补这两种方法的缺陷，目前业界通常用的有三种处理方法：

利用已有知识结构自动学习各种语料。这种处理方法的简单应用有很多，比如利用维基百科训练一个word2vec模型，每个词的向量实际关联了很多意义，再使用词向量表示句子，将会规避一部分问题。而知识图谱的建立，语境的感知再情感分析中都是非常必要的。
结合词法分析和机器学习两种方法做综合判断，以减少误差。
汽车领域的模型无法用在其他领域，某种程度上是由于训练集不够引起的，最好的处理办法是每个领域，每个行业动都用行业的语料重新训练一个模型，并定期更新模型。如果做不到，就尽可能的更新语料范围。

标签：情感分类

显示全部

收起