买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种关键词提取方法及装置_度小满科技(北京)有限公司_202111048659.0 

申请/专利权人:度小满科技(北京)有限公司

申请日:2021-09-08

公开(公告)日:2024-04-12

公开(公告)号:CN113743090B

主分类号:G06F40/216

分类号:G06F40/216;G06F40/211;G06F40/242;G06F40/289;G06F16/332

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.12.21#实质审查的生效;2021.12.03#公开

摘要:本申请提供了一种关键词提取方法及装置,对待处理语句进行分词处理后,对分词结果进行碎词合并,然后,基于关键词字典获得每个词语的TF‑IDF值。对待处理语句进行分句,并对每个短句进行分词处理和碎词合并,得到每个短句包含的词语,进一步对每个短句包含的词语进行依存句法分析,得到该短句的核心词组;根据待处理语句所包含的每个词语及其对应的TF‑IDF值,以及该待处理语句包含的核心词组,确定出该待处理语句的关键词。该方案针对整个句子提取词语后,再将整个句子划分为短句,然后针对每个短句提取核心词组,以确保不会遗漏重要信息。而且,该方案进行分词后,又进行了碎词合并,不仅减少了词语数量,同时还使提取的关键词信息更加完整。

主权项:1.一种关键词提取方法,其特征在于,包括:对待处理语句进行分词处理得到分词结果,并对所述分词结果进行碎词合并,得到分词合并结果;基于预先训练得到的关键词字典,获得所述分词合并结果中每个词语的词频-逆向文件频率,所述关键词字典包括每个关键词对应的词频-逆向文件频率;对所述待处理语句进行分句,对于每个短句进行分词处理及碎词合并,得到所述短句包含的词语,以及对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组;基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词;所述对每个短句包含的词语进行依存句法分析,得到所述短句包含的核心词组,包括:基于依存句法分析方法分析短句包含的词语之间的语义依存关系,根据所述语义依存关系,提取出短句的核心词语,作为该短句的初始核心词语,至少根据所述初始核心词语的主谓结构、动宾结构与状中结构进行核心词扩充,得到所述短句的核心词组;所述基于所述待处理语句包含的词语、所述词语对应的词频-逆向文件频率,以及所述核心词组,获得所述待处理语句的关键词,包括:获取所述待处理语句包含的词语对应的权重系数,所述权重系数包括词频-逆向文件频率对应的第一权重、所述核心词组对应的第二权重、所述短句在所述待处理语句中所处位置对应的第三权重、每个所述核心词组的词性对应的第四权重,所述第一权重用于表征词频-逆向文件频率值维度对词语是关键词的影响程度,所述第三权重表征不同位置的词语对该词语是否是关键词的影响程度;计算所述词语对应的所述第一权重与所述词语的词频-逆向文本频率的乘积;计算所述乘积与所述第二权重、所述第三权重及所述第四权重的总和,得到所述词语对应的目标权重;根据所述待处理语句中每个词语对应的目标权重由高到低的顺序,确定前预设数量个词语为所述待处理语句的关键词;所述第一权重、所述第二权重、所述第三权重和所述第四权重的最大值总和等于1;所述核心词组对应的第二权重为第二权重预设值,非核心词组的词语对应的第二权重为0;处于所述待处理语句的句首或句尾的短句对应的第三权重的数值,高于所述待处理语句中其他位置的短句对应的第三权重;不同词性的词语对应的所述第四权重不同。

全文数据:

权利要求:

百度查询: 度小满科技(北京)有限公司 一种关键词提取方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。