当前位置:首页 > 情感 > 

情感分类基础知识

时间:2020-07-16 11:02:48人气:297编辑:网络
注:本文摘录自深度学习算法实践

 

情感倾向分析得方法主要有两类:

基于情感词典的方法;
基于机器学习的方法
 

 

其中,基于情感词典的方法需要用到标注好的情感词典,英文的词典有很多,中文的话,主要有知网整理的Hownet和台湾大学整理发布额NTUSD这两个情感词典。另外,哈工大信息检索研究实验室开源的《同义词词林》也可以作为情感词典的补充。

 

 

基于机器学习的方法需要大量人工标注的预料作为训练集,通过提取文本特征,构建分类器实现情感的分类。

 

 

 

对比两者方法的优劣:

基于情感词典的方法,优点:非常稳定。如果一句话中包含这个词就提取出来,然后做正负情感分类。缺陷在于,对于不在情感表中的词就无能为力。其次,只根据情感词判断,忽视了语料语境的作用,同一个词在不同的语境中表达的意思完全不同,有时候甚至会影响情感表达。
机器学习的方法。机器学习需要人工标注语料作为训练集,提取出文本的特征,用特征构建一个分类器,再做情感的分类。因为在构建特征分类器时加入的文本特征包含一部分语境,部分规避了情感词典的弱点。但这种方法因为特征的抽取方法不同,而导致噪音,通用性不好。假设用汽车论坛语料训练出的模型去预测某个手机商品评论,就会出现错误率很高,根本不可用的情况。
 

为了弥补这两种方法的缺陷,目前业界通常用的有三种处理方法:

利用已有知识结构自动学习各种语料。这种处理方法的简单应用有很多,比如利用维基百科训练一个word2vec模型,每个词的向量实际关联了很多意义,再使用词向量表示句子,将会规避一部分问题。而知识图谱的建立,语境的感知再情感分析中都是非常必要的。
结合词法分析和机器学习两种方法做综合判断,以减少误差。
汽车领域的模型无法用在其他领域,某种程度上是由于训练集不够引起的,最好的处理办法是每个领域,每个行业动都用行业的语料重新训练一个模型,并定期更新模型。如果做不到,就尽可能的更新语料范围。
标签: 情感分类

显示全部

收起

最新文章
    匿名评论
  • 评论
人参与,条评论
热门推荐

最新更新 | 文章排行 | 网站地图 | 粤ICP备17127725号-1 |