买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于特征分类的无损检测文本挖掘方法_合肥工业大学_202410164472.4 

申请/专利权人:合肥工业大学

申请日:2024-02-05

公开(公告)日:2024-04-12

公开(公告)号:CN117874237A

主分类号:G06F16/35

分类号:G06F16/35;G06F40/284;G06F40/44

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公开了一种基于特征分类的无损检测文本挖掘方法,包括:1、无损检测知识文本的获取,2、知识文本的特征的提取,3、分词向量化,4、对词向量进行归一化处理,5、通过词向量之间的距离得到分词所属特征。本发明能通过模板化的方式来快速获取无损检测知识文本,从而能避免专家在知识获取中的主观干预,并能提高知识文本获取的速度、降低漏误率。

主权项:1.一种基于特征分类的无损检测文本挖掘方法,其特征在于,是按如下步骤进行:步骤1、无损检测知识文本的获取;步骤1.1、获取H条无损检测文本并作为知识文本库,记为T={t1,t2,...,th,...,tH};其中,th表示第h条知识文本;步骤1.2、对第h条知识文本th进行分词,获得对应的第h个分词集vh,i表示Vh中的任意第i个分词,Ih表示第h个分词集中的分词数量,令第i个分词vh,i对应的词性记为ph,i;步骤1.3、总分词集V={V1,V2,...,Vh,...,VH}={v1,v2,...,vb,...,vB},其中,vb表示第b个分词;B表示分词总数,且步骤2、从知识文本库T中提取知识文本的特征;步骤2.1、获取分词集V中的名词并构成名词集V′={V′1,V′2,...,V′h,...,V′H},其中,V′h表示第h个名词集;且其中,v′h,j表示第j个分词;Jh表示第h个名词集中的名词数量;步骤2.2、计算第j个名词v′h,j在第k条知识文本th中出现的频率其中,numv′h,j,th是th中包含v′h,j的名词数目;步骤2.3、计算第j个名词v′h,j在知识文本库T中的逆文档频率其中,dfv′h,j是T中包含v′h,j的知识文本数目;步骤2.4、计算第j个名词v′h,j在第k条知识文本th中词频-逆文件频率值TF-IDFv′h,j,th=TFv′h,j,th*IDFv′h,j;从而得到V′中每个名词的词频-逆文件频率值,并从中选取最大值所对应的名词作为检测对象O;步骤2.5、计算第j个名词v′h,i在第h条知识文本th中出现的加权频率为TFwv′h,j,th=w*TF0v′h,j,th+TFrv′h,j,th;其中,TFov′h,j,th是第j个名词v′h,j在第h条知识文本th中含有检测对象O的所有句子中出现的频率,TFrv′h,j,th是第j个名词v′h,j在th中的其余句子中出现的频率,w为加权系数;步骤2.6、计算第j个名词v′h,j对应的加权的词频-逆文件频率值TF-IDFwv′h,j,th=TFwv′h,j,th*IDFv′h,j;从而得到V′中每个名词的加权词频-逆文件频率值,并从中选取最大值所对应的名词作为缺陷对象D;步骤2.7、获取L种无损检测方法名并构造无损检测方法名的字典S={m1,m2,...,ml,...,mL};其中,ml表示第1种无损检测方法名;步骤2.8、将第h条知识文本th对应的分词集Vh中的所有分词分别与ml进行比对,得出在ml中出现的词频最高的一个分词,从而得到在L种无损检测方法名出现的词频最高的L个分词,并从L个分词中选取词频最大值所对应的分词作为无损检测方法名M;步骤3、对检测对象O、缺陷对象D和无损检测方法名M进行文本知识挖掘;步骤3.1、将检测对象O、缺陷对象D和无损检测方法名M作为三个待挖掘特征,并构建第h条知识文本th对应的检测对象O的特征集合Rh,O,缺陷对象D的特征集合Rh,D,无损检测方法名M的特征集合Rh,M;初始化Rh,O、Rh,D、Rh,M为空集;步骤3.2、计算第i个分词vh,i在第h条知识文本th中出现的频率其中,numvh,i,th是th中包含vh,i的分词数目;步骤3.3、将第h条知识文本th中的分词表示为词频矩阵步骤3.4、将词频矩阵ATF,th输入训练好的Word2Vec模型中,得出th对应的词向量矩阵为其中,表示分词vh,i对应的词向量,为Wh,i在第n维度上对应的取值;步骤3.5、将检测对象O、缺陷对象D和无损检测方法名M输入训练好的Word2Vec模型中,得到检测对象O的词向量缺陷对象D的词向量无损检测方法名M的词向量其中,表示检测对象O对应的词向量,表示缺陷对象D对应的词向量,表示无损检测方法名M对应的词向量;步骤3.6、将第h条知识文本th中的第i分词vh,i对应的词向量Wh,i进行归一化处理,得到归一化后的词向量其中,表示归一化后的词向量在第n维度上对应的取值;步骤3.7、对WO,WD,WM分别进行归一化处理,得到检测对象O归一化后的词向量缺陷对象D归一化后的词向量无损检测方法名M归一化后的词向量其中,表示归一化后的词向量在第n维度上对应的取值,表示归一化后的词向量在第n维度上对应的取值,表示归一化后的词向量在第n维度上对应的取值;步骤3.8、初始化h=1步骤3.9、初始化i=1;步骤3.10、计算知识文本th中第i个分词vh,i对应的归一化后的词向量分别与的距离与的距离与的距离步骤3.11、判断是否同时满足若是,执行步骤3.12;否则,将第i个分词vh,i加入到距离最小值所对应的待挖掘特征的特征集合中,再执行步骤3.12;其中,d0表示距离阈值;步骤3.12、若i<Ih,将i+1赋值给i,返回步骤3.10顺序执行;否则,表示完成第h条知识文本th中所有分词的归类,并得到第h条知识文本th的无损检测知识文本集合Rh={Rh,ORh,DRh,M},执行步骤3.13;步骤3.13、若h<H,将h+1赋值给h,返回步骤3.9顺序执行;否则,表示完成H条无损检测文本中所有分词的归类,并得到无损检测知识文本集合R={RORDRM},其中,RO表示检测对象O的特征集合,RD表示缺陷对象D的特征集合,RM表示无损检测方法名M的特征集合,执行步骤3.14;步骤3.14、将待查询的关键词与RO和RD中的分词进行比对,输出与待查询的关键词匹配的分词所属的无损检测知识文本,并用于辅助对应关键词的无损检测设计。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种基于特征分类的无损检测文本挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。