买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于动态分布式汇集的文本自动摘录系统_桂林电子科技大学_202310748841.X 

申请/专利权人:桂林电子科技大学

申请日:2023-06-25

公开(公告)日:2023-09-12

公开(公告)号:CN116501862B

主分类号:G06F16/34

分类号:G06F16/34;G06F40/284;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2023.09.12#授权;2023.08.15#实质审查的生效;2023.07.28#公开

摘要:本发明属于文本自动摘录技术领域,具体涉及一种基于动态分布式汇集的文本自动摘录系统,包括文本采集模块、分类识别模块、关联提取模块、预摘录模块、评估模块以及摘录模块。该发明能够根据文本内容的多级标题将其分类为多个待摘录版块,并从这些待摘录版块中提取出与其标题相对应的关联词和关联语句,之后通过预摘录模块进行预处理,得到中转数据集,且该中转数据集中包含各个待摘录版块中的关联词和关联语句,减少后续摘录版块执行时的数据处理量,之后再通过评估模块来确定这些关联词以及关联语句的优先级,最后再利用摘录模块对中转数据集中的内容进行分别摘录即可。

主权项:1.一种基于动态分布式汇集的文本自动摘录系统,包括文本采集模块、分类识别模块、关联提取模块、预摘录模块、评估模块以及摘录模块,其特征在于:所述文本采集模块用于扫描并采集文本内容,得到待摘录文本;所述分类识别模块用于识别待摘录文本中的多级标题,并依据所述多级标题将待摘录文本内容分类为多个待摘录版块;所述关联提取模块用于从待摘录版块中提取关联词以及关联语句;所述关联提取模块执行时,识别所述多级标题的文字内容,并对其进行拆分处理,得到多个参照词;调用多个分别与多级标题相对应的待摘录版块,并分别从多个待摘录版块中提取与多级标题相关联的词汇,且将其标定为关联词;识别所述关联词所在语句,并将其标定为关联语句;所述关联提取模块包括筛除单元,在所述关联语句确定后,筛除单元执行,并统计每个关联语句中的关联词数量,且将其标定为待比对参数,并将所有关联语句按照待比对参数的大小进行排序,得到多个并列的关联语句;所述筛除单元内预设有用于与待比对参数进行比较的筛除阈值;若筛除阈值小于待比对参数,则将其对应的关联语句筛除;若所述筛除阈值大于或等于待比对参数,则保留其对应的关联语句;所述预摘录模块用于根据关联词以及关联语句从待摘录文本中摘录样本词以及样本语句,得到中转数据集;所述评估模块用于根据多级标题的权重值评估所述样本词的优先级,以及所述样本语句的连贯度;所述摘录模块用于获取用户需求,并根据用户需求从多个样本词中摘录出关键词,以及汇总所述样本语句,得到与所述文本内容对应的文本概要。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种基于动态分布式汇集的文本自动摘录系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。