申请/专利权人:中国科学院计算机网络信息中心
申请日:2021-12-30
公开(公告)日:2024-05-03
公开(公告)号:CN114491062B
主分类号:G06F16/35
分类号:G06F16/35;G06F16/36;G06F40/289;G06F40/30;G06F18/2411
优先权:
专利状态码:有效-授权
法律状态:2024.05.03#授权;2022.05.31#实质审查的生效;2022.05.13#公开
摘要:本发明公开一种融合知识图谱和主题模型的短文本分类方法,属于自然语言处理领域,通过对知识图谱和主题模型技术的融合,利用知识图谱获取外部知识,进行特征扩展,在不改变原文本语义的同时,能够有效地扩充短文本的特征内容;使用扩展后的文本数据训练主题模型,挖掘文本之间的语义关联并将其作为扩展特征,缓解同义词现象对文本分类任务带来的不准确性,最终使用支持向量机进行短文本的分类预测。
主权项:1.一种融合知识图谱和主题模型的短文本分类方法,其特征在于,包括以下步骤:将已有标签的短文本数据作为训练数据,进行文本的预处理;将所述预处理后的文本进行关键词抽取,根据抽取得到的候选关键词构建候选关键词图,所述候选关键词图由节点、节点之间的边和边权重构成,所述节点即候选关键词;采用共现关系构造任意两个节点之间的边,当节点对应的词汇在一预设长度窗口中共现时,则两个节点之间存在边,初始化各个节点的权重,再迭代计算各节点的权重,直到收敛,再按照各个节点权重的降序进行排序,选择出关键词;将所述关键词映射到知识图谱中的实体上,得到候选实体集;基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体,作为目标实体;将所述目标实体作为关键词的背景知识,添加到所述短文本之后对所述短文本进行扩展,得到扩展内容,并作为基于知识图谱扩展的训练数据集;根据所述基于知识图谱扩展的训练数据集训练出主题模型,利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数,得到各个主题的词分布和各个文档的主题分布,计算出每个文档的主题概率向量;将所述扩展内容进行向量化得到扩展内容的文本向量,并将所述主题概率向量与所述扩展内容的文本向量拼接在一起,作为分类模型的输入;将所述分类模型的输入作为训练数据集,输入到一短文本分类模型中进行训练,训练出短文本分类模型,利用所述训练出的短文本分类模型对待测的短文本进行分类,输出分类结果。
全文数据:
权利要求:
百度查询: 中国科学院计算机网络信息中心 一种融合知识图谱和主题模型的短文本分类方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。