申请/专利权人:湖南工商大学
申请日:2024-01-05
公开(公告)日:2024-04-02
公开(公告)号:CN117521639B
主分类号:G06F40/216
分类号:G06F40/216;G06N3/0455;G06F18/2415;G06F18/25
优先权:
专利状态码:有效-授权
法律状态:2024.04.02#授权;2024.02.27#实质审查的生效;2024.02.06#公开
摘要:本发明实施例中提供了一种结合学术文本结构的文本检测方法,属于数据处理技术领域,具体包括:步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;步骤3,对学术文本的结构特征向量加权;步骤4,将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。通过本发明的方案,提高了文本检测的适应性、可解释性和精准度。
主权项:1.一种结合学术文本结构的文本检测方法,其特征在于,包括:步骤1,对学术文本不同结构划分重要性比例,并构建文本特征向量基本属性;步骤2,使用预设的统计方法计算学术文本不同结构中每个句子的属性频数;所述步骤2具体包括:步骤2.1,对学术文本中所划分的不同结构进行向量转换;步骤2.2,遍历每个结构中的所有句子,并标注出每个句子的文本特征向量基本属性值,其中,文本特征向量基本属性值包括词性、命名实体、句法和情感极性分数;步骤2.3,根据文本特征向量基本属性值,计算出词性、命名实体和句法的特征CF-SIDF值,其中,特征CF-SIDF值为CF值与SIDF值的乘积,CF值表示一种特征在一句话中出现的总次数除以当前文本属性特征总数,SIDF值表示一种特征的总数在所有文本个数的占比除一种特征在一句话中出现的总次数与文本结构个数的占比;步骤2.4,计算情感极性的平均值并据此计算平均情感极性分数;步骤2.5,根据CF-SIDF值和平均情感极性分数计算每个结构中单个句子的句子特征向量;步骤3,对学术文本的结构特征向量加权;所述步骤3具体包括:步骤3.1,将每个结构的句子特征向量重新组成结构特征向量;步骤3.2,利用结构权重对结构特征向量进行加权,得到学术文本的加权特征向量;步骤4,将加权特征向量拆分后得到的结构特征向量的上下文关系进行拼接,组合成窗口特征向量输入BERT神经网络进行训练,得到文本检测模型;步骤5,将待检测文本输入文本检测模型,得到其属于不同文本类型的概率。
全文数据:
权利要求:
百度查询: 湖南工商大学 一种结合学术文本结构的文本检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。