买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于BiLSTM+CRF模型的操作票命名实体识别方法_国网江苏省电力有限公司镇江供电分公司;南京瑞源电力科技有限公司_202311556835.0 

申请/专利权人:国网江苏省电力有限公司镇江供电分公司;南京瑞源电力科技有限公司

申请日:2023-11-21

公开(公告)日:2024-02-23

公开(公告)号:CN117592482A

主分类号:G06F40/30

分类号:G06F40/30;G06F40/242;G06N3/0442;G06N3/045;G06Q50/06

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.12#实质审查的生效;2024.02.23#公开

摘要:本发明公开了一种基于BiLSTM+CRF模型的操作票命名实体识别方法,包括:1语料库准备;2数据预处理;3采用BIEO标记法进行数据标注;4句子切分:根据标点符号进行句子切分;5将标注的句子拆分成字列表和对应的标注列表;6构建词汇表,将操作票文本数据转换成LSTM+CRF模型能够理解和处理的数字表示;7统计操作票词汇表和实体标签,并构建对应的词典,将词语映射为唯一的整数编号;8句子向量化;9将向量化后的数据拆分成训练集、验证集、测试集;10构建LSTM+CRF神经网络模型;11操作票命名体预测识别。本发明相对于传统方法和单独使用BILSM或CRF模型,通常能够获得更高的准确率、召回率和F1值等评价指标,识别率均超过9成。

主权项:1.一种基于BiLSTM+CRF模型的操作票命名实体识别方法,其特征在于,包括:1语料库准备:收集包含调度检修操作票数据的文本、数据库、日志文件;2数据预处理:对原始的操作票文本数据进行人工字符级分词、词性标注预处理;3采用BIEO标记法进行数据标注:将实体的起始位置标记为"B",中间部分标记为"I",非实体部分标记为"O",结束位置标记为"E";4句子切分:根据标点符号进行句子切分;5将标注的句子拆分成字列表和对应的标注列表;6构建词汇表,将操作票文本数据转换成LSTM+CRF模型能够理解和处理的数字表示;7统计操作票词汇表和实体标签,并构建对应的词典,将词语映射为唯一的整数编号;8句子向量化:将操作票文本进行向量化表示,将词语转换为对应的编号,并根据句子的最大长度进行填充或截断使得句子长度相同,最终得到的向量化表示分别是句子的编号和标签的编号;9将向量化后的数据拆分成训练集、验证集、测试集,供后续模型训练、评估、预测;10构建LSTM+CRF神经网络模型:将词向量输入到双向LSTM层中,然后将LSTM输出通过全连接层映射为每个标签的得分,最后使用CRF层进行解码,得到最优的标签序列;11操作票命名体预测识别:将操作票文本送入模型预测,自动识别出操作票中的命名体。

全文数据:

权利要求:

百度查询: 国网江苏省电力有限公司镇江供电分公司;南京瑞源电力科技有限公司 一种基于BiLSTM+CRF模型的操作票命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。