一、论文标题与链接
Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision
基于层次情感监督的表征学习情感词典构建
链接:GitHub – NUSTM/HSSWE: Sentiment Lexicon Construction
二、论文正文
- 摘要:
论文提出了一种基于神经网络的词汇嵌入方式,同时使用了基于文档和词汇两个层次的词汇情感情况,经对比实验证明,该方法具有优秀的性能。 - 研究介绍:
- 情感词汇:具有情感得分的单词
- 提出问题:因领域多样性及先验性技术的缺失,特定情感词汇的自动构建技术是具有挑战性的研究问题
- HSSWE框架:在文档集情绪标签和单词级情绪注释下进行监督,避免了粗粒度文档级监督导致的情绪学习缺陷,提高情绪感知词嵌入的质量
- 主要贡献:
1.第一个在文档和单词层面的监督下学习有情绪感知的单词表征的工作
2.支持多种文字级的情绪注释
3.性能强大
- 相关工作
- 情感词典的构建
- 基于字典的方法通常集成预定义的资源,如WordNet,来构建情感词汇。
- 基于语料库的方法:以相似模式共存的词对往往具有相似的语义和情感关系
- 情感词典的构建
- 方法
- 词级情感学习和注释:学习每个单词的伪情绪分布,并将其作为单词级情绪注释来监督单词嵌入学习
- 情绪感知的词嵌入学习:基于层次的情感监督,学习了语料库中每个词的情感软件嵌入
- 情感词汇构建:以情感感知的词嵌入为基础,构建了情感词汇。
- 实验研究
- 数据集和设置
- (外部)与公共词汇的比较
- (内部)模型内的比较
- 单词级的感官感知注释:软VS硬
- 调整参数α
-
词汇分析
- 代码复现:
- tips:该论文代码Python版本为2.x,使用TensorFlow 1框架。Python 2 与 python 3 语法上有不少区别,可以参考
- Python2.x 与 3.x 版本区别 | 菜鸟教程 (runoob.com)
- 部分TensorFlow函数也存在用法的变化,如encode()与decode()函数:
tf.concat()函数等
- 关键代码:
计算软硬情感注释下的PMI-SO词典:
构建拓展词典: - 运行结果:
- HSSWE.py
- lexicon_constrcution.py
github代码中缺少ud和extend文件夹,补充后结果如上图所示 - evaluation.py
缺少下列分类器
- HSSWE.py
- tips:该论文代码Python版本为2.x,使用TensorFlow 1框架。Python 2 与 python 3 语法上有不少区别,可以参考
- 总结
三、阅读总结
本文首次使用了文档和单词层面的情感标签构建情感词典,巧妙地使用PMI-SO方法构建软硬情绪注释下的情感词典,再使用神经网络的方式。整合单次级别和文档级别的情感注释,生成情绪感知词典,最后使用分类器的方法来预测其他词的情绪得分,经实验证明,该方法比传统的方法在情感词典的构建上要更加准确。