买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种勘察报告文本关键信息提取系统和提取方法_西安理工大学_202110459258.8 

申请/专利权人:西安理工大学

申请日:2021-04-27

公开(公告)日:2024-04-16

公开(公告)号:CN113515939B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/216;G06F40/242;G06F40/268

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.11.05#实质审查的生效;2021.10.19#公开

摘要:本发明公开了一种勘察报告文本关键信息提取系统,包括依次电信号连接的文本输入模块、文本预处理模块、TF‑IDF计算模块、文本信息改进模块、关键词输出模块以及查找定位关键信息模块。本发明的一种勘察报告文本关键信息提取系统,对现有TF‑IDF算法进行优化使其准确度大大提高,实现了勘察报告规范文本的关键信息自动输出。本发明还公开了一种勘察报告文本关键信息提取方法。

主权项:1.一种勘察报告文本关键信息提取方法,其特征在于,具体按照如下步骤实施:步骤1,采用文本输入模块(1)进行文本输入;步骤2,采用文本预处理模块(2)对输入的文本进行预处理降噪,得到候选词;步骤3,使用TF-IDF计算模块(3)对经过预处理的文本进行计算,得到TF-IDF值排名前N的关键词作为候选关键词,具体为:步骤3.1、将经步骤2去除停用词之后的勘察报告中的词只保留动词、名词、标题词、自定义词典、专有名词和字符串,将其他词性的词汇进行剔除,得到的词作为候选词,根据公式(1)计算所有候选词的词频TF; (1)其中,TF表示当前词的词频,n表示当前词在勘察报告中的数量,表示勘察报告中所有词的数量;则,将当前词的词频矩阵为:[p][q][TF],表示第p个勘察报告文档中第q个词的词频值为TF;步骤3.2、根据公式(2)计算所有候选词的逆文档频率IDF: (2)其中,IDF表示当前词逆文档频率,表示语料库中勘察报告的总数量,表示包含当前词的文档数量占所有文档数量的频率;则,将当前词的逆文档频率矩阵为:[p][q][IDF],表示示第p个勘察报告文档中第q个词的逆文档频率值为IDF;步骤3.3、计算出每个词的TF-IDF矩阵表示为: 然后将矩阵除以矩阵的L2范数来进行矩阵归一化如公式(3),得出TF-IDF值,然后取TF-IDF值排名前N的候选词作为候选关键词: (3);步骤4,采用文本信息改进模块(4)对TF-IDF计算模块(3)计算得到的候选关键词进行优化,获得候选关键词新的TF-IDF值,具体为:步骤4.1、通过公式(4)计算经步骤3选出的候选关键词中的标题词的权重: (4)其中,表示标题词的权重,表示勘察报告j内包含词的总数;步骤4.2、通过公式(5)依据词汇的长度计算该词汇的权重: (5)其中,表示词的长度权重,表示词wi的长度,表示当前勘察报告中最长词的长度;步骤4.3、给自定义词典、字符串、名词、动词以及专有名词赋予不同权重weightcharwi,其中,当词性为自定义词典时weightcharwi=1.2,当词性为专有名词时weightcharwi=1.0,当词性为字符串时weightcharwi=0.8,当词性为名词时weightcharwi=0.8,当词性为动词时weightcharwi=0.6;步骤4.4、通过公式(6)对关键词的TF-IDF值进行加权计算得出新的TF-IDF值Y:Y=*(1.0*+1.0*+1.3*weightcharwi)(6)其中,Y表示当前词的最终TF-IDF值,如果当前词不是标题词,那么=0,如果是标题词按照公式(4)计算;步骤5,采用关键词输出模块(5)输出关键词;步骤6,通过查找定位关键信息模块(6)查找定位关键信息。

全文数据:

权利要求:

百度查询: 西安理工大学 一种勘察报告文本关键信息提取系统和提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。