基于主题模型的半监督网络文本情感分类研究
文献类型:期刊
作者:李扬[1]
机构:中国人民大学应用统计科学研究中心;中国人民大学统计学院;中国人民大学统计咨询研究中心;台北医学大学大数据研究中心
年:2016
期刊名称:数理统计与管理
期:06
页码范围:961-971
增刊:正刊
收录情况:中文核心期刊要目总览
所属部门:统计学院
语言:中文
ISSN:1002-1566
人气指数:1
浏览次数:1
关键词:情感分类;不平衡数据;半监督学习;主题模型
摘要:针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。
作者其他论文
有监督Group MCP方法的稳健性研究.李淞淋;李扬;易丹辉.统计与信息论坛.2014,11-17.
对PLS路径模型在综合评价应用中"优势"的审视.斯介生;李扬;肖宏伟,等.现代管理科学.2014,105-107.
两岸交流对台湾民众的影响研究:利益,认同与投票行为.于强;耿曙;李扬.理论月刊.2015,111-117.
面板数据模型的惩罚似然变量选择方法研究.李扬;曾宪斌.统计研究.2014,31(3),83-89.
机械类上市公司市盈率影响因素的研究.杨虎;易丹辉;肖宏伟,等.统计与决策.2014,158-162.