【发明授权】基于文本挖掘和自然语言处理的地质报告文本可视化方法_中国地质大学(武汉)_202011111355.X

申请/专利权人：中国地质大学(武汉)

申请日：2020-10-16

公开（公告）日：2024-05-10

公开（公告）号：CN112199926B

主分类号：G06F40/166

分类号：G06F40/166;G06F40/284;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.05.10#授权;2021.01.26#实质审查的生效;2021.01.08#公开

摘要：本发明提供了一种基于文本挖掘和自然语言处理的地质报告文本可视化方法；包括首先，利用自然语言处理技术对地质报告进行数据预处理；其次，基于构建的停用词词库对文本中的停用词进行剔除；然后，统计相邻两个词之间共同出现的次数，并生成共现矩阵；最后，进行了词频统计、改进的TF‑IDF关键词提取等，并分别进行了词频统计可视化、关键词词云可视化、中心性分析可视化、多尺度关键词分析可视化等。本发明提出的地质报告文本可视化流程能充分发现和挖掘地质文本隐含的信息，能迅速从可视化结果中获取关键信息，使繁杂的文本信息能以非常直观的形式进行展示。本发明所提出的可视化流程对工程报告类文本具有较高的适用性和参考价值。

主权项：1.一种基于文本挖掘和自然语言处理的地质报告文本可视化方法，其特征在于：包括以下步骤：S101：获取研究区域的地质报告，并对所述地质报告进行预处理，得到预处理后的地质报告文本；预处理包括：S201：实现地质报告文本格式的转换，将地质报告.pdf格式转化为.txt格式，并去除地质报告中的图件和表格内容；S202：将文本内容进行剔除噪声的处理，包括公式的剔除和无关符号的剔除；所述无关符号包括：～，％和＜；S203：将处理好的文本内容按行存储在.txt文本中，得到预处理后的地质报告文本；S102：将所述预处理后的地质报告文本，分别加入地质文本词典和停用词词典后进行分词，得到分词处理后的地质报告文本；步骤S102具体包括：对所述预处理后的地质报告文本，加入预先设计好的地质文本词典，通过不引用和引用停用词词典分别实现粗粒度地质报告文本的分词和精细化地质报告文本的分词，并将粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果均以.txt格式输出；S103：将所述分词处理后的地质报告文本，分别利用词频统计、TF-IDF关键词提取技术进行关键词信息提取，得到词频统计结果和TF-IDF关键词提取结果；其中，TF-IDF关键词提取结果作为第一关键词提取结果；步骤S103具体包括：针对S102中粗粒度地质报告文本的分词结果和精细化地质报告文本的分词结果：首先进行词频统计，通过统计每个词语在地质报告文本中出现的次数，获取地质报告文本关键词信息；然后，将获得的精细化地质报告文本的分词结果中的每个词的词频数除以地质报告文本总词数，得到标准化的词频TF，公式为：上式中，fwi为词语wi在地质报告文本中出现的次数，lentotalwords表示地质报告文本总词数；同时，考虑到同一地区可能有多份相关内容的地质矿床报告文档，引入了逆文档频率，通过TF-IDF的关键词计算，排除地质文本内容长短和多份相关内容文档的影响，得到第一关键词提取结果： TF-IDF＝TF*IDF上式中，log表示对得到的值取对数，lendoc为地质报告文档总数，lendocwi为包含词语wi的文档数目；S104：将所述分词处理后的地质报告文本，利用改进的TF-IDF关键词提取技术进行关键词信息提取，得到第二关键词提取结果；步骤S104中，利用改进的TF-TDF技术进行关键词信息提取具体为：针对地质报告文本中专有名词词长的影响，对TF-IDF关键词提取技术进行了改进，即对S103中-第一关键词提取结果进行词长统计，并与TF-IDF的结果相加，得到第二关键词提取结果；改进后的关键词提取技术公式为：其中，Scorewi为最终的地质报告文本关键词提取的得分，lenwi表示第i个词语wi的词长，maxlenwords表示地质报告文本最长的词语长度；S105：考虑到相邻词语间的相关性，统计所述分词处理后的地质报告文本中每相邻两个词语一起出现的次数，并将统计结果转化为共现矩阵；S106：将所述词频统计结果、所述第一关键词提取结果和所述第二关键词提取结果分别进行可视化，并利用所述共现矩阵实现语义相似性的度量，实现了地质文本信息的充分挖掘；步骤S106具体包括：首先所述词频统计结果以柱状条形图和词云形式展示，所述第一关键词提取结果和所述第一关键词提取结果分别以柱状条形图进行可视化展示；其次，利用S105中获得的共现矩阵实现语义相似性的度量，分析地质文本词语的中心性，并根据不同的粒度进行了关键词分析，实现了地质文本的信息充分挖掘。

全文数据：

权利要求：

百度查询：中国地质大学(武汉) 基于文本挖掘和自然语言处理的地质报告文本可视化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：受体亲和力偏好性的定点偶联聚乙二醇化白介素-2突变体及其用途_南京诺艾新生物技术有限公司_202311005600.2

下一篇：钻井泵自清洁型吸入过滤装置_中油国家油气钻井装备工程技术研究中心有限公司_202211464026.2

相关技术

受体亲和力偏好性的定点偶联聚乙二醇化白介素-2突变体及其用途_南京诺艾新生物技术有限公司_202311005600.2

钻井泵自清洁型吸入过滤装置_中油国家油气钻井装备工程技术研究中心有限公司_202211464026.2

去甲基肾上腺素荧光探针及其制备方法和在细胞成像与生物传感中的应用_华东师范大学_202211456955.9

业务代码的管理方法、装置、服务器及存储介质_哲库科技(上海)有限公司_202211457565.3

一种导航路线上车辆淹没预警的方法、系统及车辆_博泰车联网科技(上海)股份有限公司_202211457008.1

测试单元及形成方法、测试结构及形成方法、测试方法_中芯国际集成电路制造(上海)有限公司_202211459338.4

交互设备的测试方法、装置、设备及可读存储介质_腾讯科技(深圳)有限公司_202211473174.0

基于变换器的对象检测_脸萌有限公司_202311530645.1

一种防积灰的干粉气化炉导管段_华能(天津)煤气化发电有限公司_202211456998.7

一种高压气井偏心电缆直读测试装置及其测试方法_中国石油天然气股份有限公司_202211455003.5

一种可直接应用于金属阳极氧化防护的水性UV涂料的制备方法_长沙四辉新材料科技有限公司_202211444992.8

设备控制方法、装置、终端设备及存储介质_OPPO广东移动通信有限公司_202211457544.1

地质相关技术

一种地质锤_西南交通大学_202322650591.4

一种多功能地质钻杆_江苏曙光华阳钻具有限公司_202322690003.X

一种地质勘探的钻孔装置_黑龙江省地质科学研究所_202323178078.6

一种环境地质调查用扩孔设备_广东省东莞地质工程勘察院有限公司_202323207510.X

一种地质调查使用的采样装置_那晓红_202322980338.5

一种水文地质勘探装置_浙江工部建设管理有限公司_202322905641.9

一种地质钻探取样装置_唐永劲_202322836701.6

一种新型地质勘探采样装置_中国冶金地质总局广西地质勘查院_202321176529.X

一种地质勘探防塌装置_广东省交通规划设计研究院集团股份有限公司_202320491329.7

一种煤矿地质工程防治水装置_山西华科勘测有限公司_202322320978.3

文本相关技术

一种文本分类方法及装置_中国电子进出口有限公司_202011400717.7

文本输入方法、终端、电子设备及存储介质_广州视源电子科技股份有限公司_202211449784.7

文本的情感信息处理方法及装置_支付宝(杭州)信息技术有限公司_202010621825.0

一种文本处理方法及装置_荣耀终端有限公司_202211449799.3

一种文本语义相似度计算方法_中国海洋大学_202110654980.7

文本相似性检测方法、装置、计算机设备及存储介质_北京梆梆安全科技有限公司_202211459358.1

一种文本识别方法及相关电子设备_荣耀终端有限公司_202211458126.4

一种面向叙事文本的少样本跨领域事件发现方法_天津大学_202211447492.X

文本分析方法及装置、存储介质及电子设备_雷达新能源汽车(浙江)有限公司_202211450850.2

一种基于序列到序列的文本量化分析与生成方法及系统_上海金桥信息股份有限公司_202011284523.5

报告相关技术

一种报告管理系统_长春汽车检测中心有限责任公司_202410104777.6

在波束故障恢复规程中报告新波束信息_高通股份有限公司_202080017708.1

体检报告检测的方法、装置、设备及介质_康键信息技术(深圳)有限公司_202410313152.0

基于技术情报数据的企业评估报告生成方法及装置_中国科学技术大学_202410424996.2

用于定位状态信息(PSI)报告的PUCCH资源管理_高通股份有限公司_202180035305.4

一种接口覆盖率报告准确定位和展示的方法_上海高顿教育科技有限公司_202011565512.4

波束报告的发送方法、接收方法、装置及通信设备_维沃移动通信有限公司_202211436550.9

一种MERVL-H2B-tdTomato报告细胞系的构建方法_西北农林科技大学_202311497757.1

一种心原性猝死疾病遗传变异解读报告系统及应用_中国医学科学院阜外医院_202410245073.0

一种自动生成DDR芯片测试标准报告的方法及系统_深圳市共进电子股份有限公司_201811625935.3

龙图腾网&IPTOP

【发明授权】基于文本挖掘和自然语言处理的地质报告文本可视化方法_中国地质大学(武汉)_202011111355.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务