买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种用于材料与化工行业科技情报的数据处理方法_北京大学深圳研究生院_202410199914.9 

申请/专利权人:北京大学深圳研究生院

申请日:2024-02-23

公开(公告)日:2024-03-29

公开(公告)号:CN117787249A

主分类号:G06F40/205

分类号:G06F40/205;G06F40/216;G06F40/284;G06Q50/04;G06F17/16

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.16#实质审查的生效;2024.03.29#公开

摘要:一种用于材料与化工行业科技情报的数据处理方法,属于科技情报的数据处理技术领域。为解决文本数据中目标实词与非目标实词中的不平衡的问题,本发明采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量,构建实词向量矩阵计算实词向量矩阵中实词长度,构建实词长度矩阵;利用实词的长度对撰写错误的实词进行判断,对实词向量矩阵中撰写错误的实词进行修正,对修正的实词向量矩阵中的每个实词进行编码,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,然后进行不平衡数据处理,完成一种用于材料与化工行业科技情报的数据处理。本发明提高材料与化工科技情报的质量。

主权项:1.一种用于材料与化工行业科技情报的数据处理方法,其特征在于,包括如下步骤:S1、采集材料与化工行业科技情报,得到材料与化工行业科技情报信息数据,提取材料与化工行业科技情报信息数据中的实词向量gs,构建实词向量矩阵,,其中,B为实词总数量;S2、基于步骤S1构建的实词向量矩阵,计算实词向量矩阵GS中实词长度,构建实词长度矩阵;S3、利用实词的长度对撰写错误的实词进行判断,然后对实词向量矩阵中撰写错误的实词进行修正,得到修正的实词向量矩阵;S4、对步骤S3得到的修正的实词向量矩阵中的每个实词进行编码,设定目标实词编码为1,非目标实词编码为0,构建修正的实词的编码矩阵,其中为修正的实词的编码矩阵中的第B个元素,修正的实词的位置矩阵,其中为修正的实词的位置矩阵中的第B个元素,设定实词数量阈值,对修正的实词的编码矩阵进行实词数量判断,当修正的实词的编码矩阵中实词数量大于实词数量阈值时,进行下一步,当修正的实词的编码矩阵中实词数量小于等于实词数量阈值时,完成一种用于材料与化工行业科技情报的数据处理;S5、对步骤S3得到的修正的实词向量矩阵,基于步骤S4构建的修正的实词的编码矩阵、修正的实词的位置矩阵进行不平衡数据处理,完成一种用于材料与化工行业科技情报的数据处理。

全文数据:

权利要求:

百度查询: 北京大学深圳研究生院 一种用于材料与化工行业科技情报的数据处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。