买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法_武汉大学_202011483732.2 

申请/专利权人:武汉大学

申请日:2020-12-16

公开(公告)日:2024-03-12

公开(公告)号:CN112560478B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/30;G06F40/169;G06F40/151;G06N3/0442;G06N3/0455;G06N3/047;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2021.04.13#实质审查的生效;2021.03.26#公开

摘要:本发明提出了一种使用语义标注的中文地址RoBERTa‑BiLSTM‑CRF耦合解析方法。本发明将多条地址文本依次进行分词,对分词后的字符进行人工语义标注,得到分词后去重的字符集及语义标注集。通过RoBERTa模型字典和语义标注集将地址文本及其对应的语义标注转化为地址信息矩阵。将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵。将地址的语义信息矩阵输入到BiLSTM对上下文语义信息进行删减,得到标签的得分序列。将标签的得分序列作为输入到CRF模型筛选最优语义标注序列。本发明采用语义标注,能够识别地址中地址元素的层级及空间关系;能够从非标准地址提取标准地址,解决未登录词问题、剔除非标准和错误地址元素,根据地址中的空间关系实现空间推理。

主权项:1.一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法,其特征在于,包括以下步骤:步骤1、将多条地址文本依次进行分词,对分词后的字符进行人工语义标注;处理得到分词后地址字符集合及语义标注集合,将多条分词后地址字符集合及语义标注集合进行拼接,得到分词后去重的字符集及语义标注集;步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量,依据字符信息向量将地址文本转化为地址文本信息矩阵;依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵;步骤3、根据地址文本中字符的位置,采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量,根据每个字符的位置信息向量将地址文本转化为位置信息矩阵;步骤4、将地址文本信息矩阵和位置信息矩阵相加,进一步与语义标注信息矩阵拼接得到地址信息矩阵;步骤5、将地址信息矩阵输入到RoBERTa神经网络,得到地址的语义信息矩阵;步骤6、将地址的语义信息矩阵输入到BiLSTM,使用前向传播算法和后向传播算法对BiLSTM进行训练,通过门控机制对上下文语义信息进行删减,得到标签的得分序列;步骤7、将标签的得分序列作为输入,利用条件随机场构建标签之间的约束关系,得到中文地址分词的最优标注序列;步骤2将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为: 其中,αi表示分词后去重的字符集中第i个字符的字符信息向量,i∈[1,N],N表示分词后的字符集中字符的数量,dmodel代表分词后的字符集中第i个字符的字符信息向量的维度;步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为: 将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为:βi={0,0,...,yi,…,0}其中,βi表示字符集中第i个字符的one-hot向量,yi表示地址中第i个字符出在word中第i个位置,且yi=1,βi其余位置的值为0,βi的维数为word中字符集的个数;限制地址文本长度为L,对于小于L的地址使用零向量进行补充,对于大于L的地址进行截断,零向量定义为:γ={0,0,...,0,…,0}其中,γ为零向量,所有位置的值为0,γ的维数为word中字符集的个数;则把一条地址文本η=[word1,word2,…,wordL-1]转化为稀疏信息矩阵为:BL*N=β1,β2,...,βL-1,γT通过字符矩阵和地址稀疏信息矩阵BL*N,将转化为步骤2所述地址文本信息矩阵为: 把对应的每个语义标注转化为one-hot向量为:τi={0,0,...,xi,…,0}其中,τi表示地址中第i个字符对应的语义标注的one-hot向量,xi表示这条地址中第i个字符对应的语义标注在tag中第i个位置,且xi=1,τi其余位置的值为0,τi的维数为tag中字符集的个数,即K;步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为:DL*K=τ1,τ2,…,τkT所述步骤6包括:将上下文语义信息矩阵输入到BiLSTM模型,通过遗忘门、记忆门、输出门对上下文语义信息进行删减,对于t时刻门控制单元的计算过程如下:ft=σwf·[ht-1,xt]+bfit=σwi·[ht-1,xt]+bict=ft*ct-1+it*tanhwc·[ht-1,xt]+bcot=σwo·[ht-1,xt]+boht=ot*tanhct其中,ht-1表示前一时刻的隐藏层状态,xt表示当前时刻输入的词,ft表示遗忘门的值,it表示记忆门的值,ct表示当前时刻细胞状态,ot表示输出门的值,ht表示当前时刻的隐藏层状态,bf、bi、bc和bo表示偏移量,wf、wi和wo表示相应门的权重矩阵;分别经过前向LSTM和后向LSTM计算之后,得到地址的前向信息m和后向信息n;把前向信息、后向信息拼接,得到地址的上下文语义信息v=[m,n];把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X={x1,x2,…,xn};计算公式如下X=v×E其中,E为初始化的转换矩阵。

全文数据:

权利要求:

百度查询: 武汉大学 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。