买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于文本挖掘和自然语言处理的地质报告文本可视化方法_中国地质大学(武汉)_202011111355.X 

申请/专利权人:中国地质大学(武汉)

申请日:2020-10-16

公开(公告)日:2024-05-10

公开(公告)号:CN112199926B

主分类号:G06F40/166

分类号:G06F40/166;G06F40/284;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.05.10#授权;2021.01.26#实质审查的生效;2021.01.08#公开

摘要:本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法;包括首先,利用自然语言处理技术对地质报告进行数据预处理;其次,基于构建的停用词词库对文本中的停用词进行剔除;然后,统计相邻两个词之间共同出现的次数,并生成共现矩阵;最后,进行了词频统计、改进的TF‑IDF关键词提取等,并分别进行了词频统计可视化、关键词词云可视化、中心性分析可视化、多尺度关键词分析可视化等。本发明提出的地质报告文本可视化流程能充分发现和挖掘地质文本隐含的信息,能迅速从可视化结果中获取关键信息,使繁杂的文本信息能以非常直观的形式进行展示。本发明所提出的可视化流程对工程报告类文本具有较高的适用性和参考价值。

主权项:1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法,其特征在于:包括以下步骤:S101:获取研究区域的地质报告,并对所述地质报告进行预处理,得到预处理后的地质报告文本;预处理包括:S201:实现地质报告文本格式的转换,将地质报告.pdf格式转化为.txt格式,并去除地质报告中的图件和表格内容;S202:将文本内容进行剔除噪声的处理,包括公式的剔除和无关符号的剔除;所述无关符号包括:~,%和<;S203:将处理好的文本内容按行存储在.txt文本中,得到预处理后的地质报告文本;S102:将所述预处理后的地质报告文本,分别加入地质文本词典和停用词词典后进行分词,得到分词处理后的地质报告文本;步骤S102具体包括:对所述预处理后的地质报告文本,加入预先设计好的地质文本词典,通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词,并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出;S103:将所述分词处理后的地质报告文本,分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取,得到词频统计结果和TF-IDF关键词提取结果;其中,TF-IDF关键词提取结果作为第一关键词提取结果;步骤S103具体包括:针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果:首先进行词频统计,通过统计每个词语在地质报告文本中出现的次数,获取地质报告文本关键词信息;然后,将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数,得到标准化的词频TF,公式为: 上式中,fwi为词语wi在地质报告文本中出现的次数,lentotalwords表示地质报告文本总词数;同时,考虑到同一地区可能有多份相关内容的地质矿床报告文档,引入了逆文档频率,通过TF-IDF的关键词计算,排除地质文本内容长短和多份相关内容文档的影响,得到第一关键词提取结果: TF-IDF=TF*IDF上式中,log表示对得到的值取对数,lendoc为地质报告文档总数,lendocwi为包含词语wi的文档数目;S104:将所述分词处理后的地质报告文本,利用改进的TF-IDF关键词提取技术进行关键词信息提取,得到第二关键词提取结果;步骤S104中,利用改进的TF-TDF技术进行关键词信息提取具体为:针对地质报告文本中专有名词词长的影响,对TF-IDF关键词提取技术进行了改进,即对S103中-第一关键词提取结果进行词长统计,并与TF-IDF的结果相加,得到第二关键词提取结果;改进后的关键词提取技术公式为: 其中,Scorewi为最终的地质报告文本关键词提取的得分,lenwi表示第i个词语wi的词长,maxlenwords表示地质报告文本最长的词语长度;S105:考虑到相邻词语间的相关性,统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数,并将统计结果转化为共现矩阵;S106:将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化,并利用所述共现矩阵实现语义相似性的度量,实现了地质文本信息的充分挖掘;步骤S106具体包括:首先所述词频统计结果以柱状条形图和词云形式展示,所述第一关键词提取结果和所述第一关键词提取结果分别以柱状条形图进行可视化展示;其次,利用S105中获得的共现矩阵实现语义相似性的度量,分析地质文本词语的中心性,并根据不同的粒度进行了关键词分析,实现了地质文本的信息充分挖掘。

全文数据:

权利要求:

百度查询: 中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。