【发明授权】一种融合知识图谱和主题模型的短文本分类方法_中国科学院计算机网络信息中心_202111646536.7

申请/专利权人：中国科学院计算机网络信息中心

申请日：2021-12-30

公开（公告）日：2024-05-03

公开（公告）号：CN114491062B

主分类号：G06F16/35

分类号：G06F16/35;G06F16/36;G06F40/289;G06F40/30;G06F18/2411

优先权：

专利状态码：有效-授权

法律状态：2024.05.03#授权;2022.05.31#实质审查的生效;2022.05.13#公开

摘要：本发明公开一种融合知识图谱和主题模型的短文本分类方法，属于自然语言处理领域，通过对知识图谱和主题模型技术的融合，利用知识图谱获取外部知识，进行特征扩展，在不改变原文本语义的同时，能够有效地扩充短文本的特征内容；使用扩展后的文本数据训练主题模型，挖掘文本之间的语义关联并将其作为扩展特征，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。

主权项：1.一种融合知识图谱和主题模型的短文本分类方法，其特征在于，包括以下步骤：将已有标签的短文本数据作为训练数据，进行文本的预处理；将所述预处理后的文本进行关键词抽取，根据抽取得到的候选关键词构建候选关键词图，所述候选关键词图由节点、节点之间的边和边权重构成，所述节点即候选关键词；采用共现关系构造任意两个节点之间的边，当节点对应的词汇在一预设长度窗口中共现时，则两个节点之间存在边，初始化各个节点的权重，再迭代计算各节点的权重，直到收敛，再按照各个节点权重的降序进行排序，选择出关键词；将所述关键词映射到知识图谱中的实体上，得到候选实体集；基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体，作为目标实体；将所述目标实体作为关键词的背景知识，添加到所述短文本之后对所述短文本进行扩展，得到扩展内容，并作为基于知识图谱扩展的训练数据集；根据所述基于知识图谱扩展的训练数据集训练出主题模型，利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数，得到各个主题的词分布和各个文档的主题分布，计算出每个文档的主题概率向量；将所述扩展内容进行向量化得到扩展内容的文本向量，并将所述主题概率向量与所述扩展内容的文本向量拼接在一起，作为分类模型的输入；将所述分类模型的输入作为训练数据集，输入到一短文本分类模型中进行训练，训练出短文本分类模型，利用所述训练出的短文本分类模型对待测的短文本进行分类，输出分类结果。

全文数据：

权利要求：

百度查询：中国科学院计算机网络信息中心一种融合知识图谱和主题模型的短文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种声控发光电竞桌子_佛山市傲龙电竞家具有限公司_202323043898.4

下一篇：一种双联变量高效柱塞泵_宁波浙力液压科技有限公司_202323190413.4

相关技术

一种声控发光电竞桌子_佛山市傲龙电竞家具有限公司_202323043898.4

一种双联变量高效柱塞泵_宁波浙力液压科技有限公司_202323190413.4

河流流量监测装置_江苏省水文水资源勘测局苏州分局_202322724838.2

一种半挂车悬架焊接定位装置_山东旭腾汽车科技股份有限公司_202323007998.1

一种便携式食品安全药残检测仪_九江市检验检测认证中心_202322927412.7

一种钢结构施工用转运装置_湖北金朗金属科技有限公司_202323233264.5

焊接装置_宁德时代新能源科技股份有限公司_202420346330.5

一种长寿命高效运行的新型气动闸阀_南京凯沃茨流体控制技术有限公司_202323197912.6

一种物料粉碎车出料喷管均匀摆动机构_长沙中能装备制造有限公司_202322716406.7

一种快速进出料的熔炉_沈阳东科真空科技有限公司_202322843773.3

一种房地产评估用空鼓检测器_青岛天和不动产房地产评估有限责任公司_202323072491.4

一种可前后撑开并自动调整间距的智能衣架_华玥茗_202321769951.6

龙图腾网&IPTOP

【发明授权】一种融合知识图谱和主题模型的短文本分类方法_中国科学院计算机网络信息中心_202111646536.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务