买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】段落类型识别方法及系统和文档结构识别方法及系统_中南大学_202110022142.8 

申请/专利权人:中南大学

申请日:2021-01-08

公开(公告)日:2024-04-12

公开(公告)号:CN112699637B

主分类号:G06F40/12

分类号:G06F40/12

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.05.11#实质审查的生效;2021.04.23#公开

摘要:本发明涉及段落类型识别方法及系统和文档结构识别方法及系统,其中,段落类型识别方法,包括:S1、根据预先设定的段落类型识别规则,判断文本中任一段落是否符合段落类型识别规则,获取判断结果;所述段落类型识别规则包括:第一级规则为规定段落类型识别规则判断先后顺序的优先级规则;第二级规则为段落识别关联准则;S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型;所述第一编号与所述段落类型识别准则对应。解决了现有的地质资料段落类型识别方法中语料标注成本过高、语料库稀缺的问题。

主权项:1.一种段落类型识别方法,其特征在于,包括:S1、根据预先设定的段落类型识别规则,判断文本中任一段落是否符合段落类型识别规则,获取判断结果;所述文本包括:Markdown格式的地质文本、MID格式的地质文本以及MIF格式的地质文本中的至少一种格式的地质文本;所述段落类型识别规则包括:第一级规则为规定段落类型识别规则判断先后顺序的优先级规则;第二级规则为段落识别关联准则;所述段落识别关联准则包括:多条件准则、正则表达式、段落类型、起止段落准则、结构准则、无格式准则、方法准则中的一种或多种准则;所述多条件准则包括:和规则:表示段落需要同时满足和规则两侧的正则表达式或其他规则表达式;或规则:表示段落只需满足或规则两侧的一个正则表达式或其他规则表达式;非规则:表示段落不满足非规则右侧的正则表达式或其他规则表达式;所述正则表达式为:描述段落特征;段落类型为:第一编号;起止段落准则包括:具有第一编号的在段落之前规则,表示段落在第一编号所对应的段落类型的段落之前;具有第一编号的非段落规则,表示段落的段落类型不是第一编号所对应的段落类型;具有第一编号的在段落之后规则,表示段落在第一编号所对应的段落类型的段落之后;具有正则表达式的在段落之前规则,表示段落在满足所述正则表达式的段落之前;具有正则表达式的在段落之后规则,表示段落在满足所述正则表达式的段落之后;结构准则:表示段落的段落类型满足结构准则右侧的第一编号所对应的段落类型;无格式准则:除符合多条件准则或起止段落准则或结构准则或方法准则的段落之外的段落;方法准则包括:预先设定的标题段落的标签标记准则;预先设定的目录段落的标签标记准则;S2、根据所述判断结果和预先设定段落类型识别规则及第一编号确定所述段落的段落类型;所述第一编号与所述段落类型识别规则对应。

全文数据:

权利要求:

百度查询: 中南大学 段落类型识别方法及系统和文档结构识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。