【发明授权】一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法_武汉大学_202011483732.2

导航：龙图腾网> 最新专利技术> 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法_武汉大学_202011483732.2

申请/专利权人：武汉大学

申请日：2020-12-16

公开（公告）日：2024-03-12

公开（公告）号：CN112560478B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/30;G06F40/169;G06F40/151;G06N3/0442;G06N3/0455;G06N3/047;G06N3/084

优先权：

专利状态码：有效-授权

法律状态：2024.03.12#授权;2021.04.13#实质审查的生效;2021.03.26#公开

摘要：本发明提出了一种使用语义标注的中文地址RoBERTa‑BiLSTM‑CRF耦合解析方法。本发明将多条地址文本依次进行分词，对分词后的字符进行人工语义标注，得到分词后去重的字符集及语义标注集。通过RoBERTa模型字典和语义标注集将地址文本及其对应的语义标注转化为地址信息矩阵。将地址信息矩阵输入到RoBERTa神经网络，得到地址的语义信息矩阵。将地址的语义信息矩阵输入到BiLSTM对上下文语义信息进行删减，得到标签的得分序列。将标签的得分序列作为输入到CRF模型筛选最优语义标注序列。本发明采用语义标注，能够识别地址中地址元素的层级及空间关系；能够从非标准地址提取标准地址，解决未登录词问题、剔除非标准和错误地址元素，根据地址中的空间关系实现空间推理。

主权项：1.一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法，其特征在于，包括以下步骤：步骤1、将多条地址文本依次进行分词，对分词后的字符进行人工语义标注；处理得到分词后地址字符集合及语义标注集合，将多条分词后地址字符集合及语义标注集合进行拼接，得到分词后去重的字符集及语义标注集；步骤2、将得到分词后去重的字符集通过RoBERTa模型词典转化为字符信息向量，依据字符信息向量将地址文本转化为地址文本信息矩阵；依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵；步骤3、根据地址文本中字符的位置，采用RoBERTa模型中的三角函数位置编码方式计算地址文本中每个字符的位置信息向量，根据每个字符的位置信息向量将地址文本转化为位置信息矩阵；步骤4、将地址文本信息矩阵和位置信息矩阵相加，进一步与语义标注信息矩阵拼接得到地址信息矩阵；步骤5、将地址信息矩阵输入到RoBERTa神经网络，得到地址的语义信息矩阵；步骤6、将地址的语义信息矩阵输入到BiLSTM，使用前向传播算法和后向传播算法对BiLSTM进行训练，通过门控机制对上下文语义信息进行删减，得到标签的得分序列；步骤7、将标签的得分序列作为输入，利用条件随机场构建标签之间的约束关系，得到中文地址分词的最优标注序列；步骤2将分词后去重的字符集通过查找RoBERTa模型词典转化为字符信息向量为：其中，αi表示分词后去重的字符集中第i个字符的字符信息向量，i∈[1,N]，N表示分词后的字符集中字符的数量，dmodel代表分词后的字符集中第i个字符的字符信息向量的维度；步骤2所述依据字符信息向量将地址文本转化为地址文本信息矩阵为：将每条地址中包含的字符通过步骤1得到分词后去重的字符集转化为one-hot向量为：βi＝{0,0,...,yi,…,0}其中，βi表示字符集中第i个字符的one-hot向量，yi表示地址中第i个字符出在word中第i个位置，且yi＝1，βi其余位置的值为0，βi的维数为word中字符集的个数；限制地址文本长度为L，对于小于L的地址使用零向量进行补充，对于大于L的地址进行截断，零向量定义为：γ＝{0,0,...,0,…,0}其中，γ为零向量，所有位置的值为0，γ的维数为word中字符集的个数；则把一条地址文本η＝[word1,word2,…,wordL-1]转化为稀疏信息矩阵为：BL*N＝β1,β2,...,βL-1,γT通过字符矩阵和地址稀疏信息矩阵BL*N，将转化为步骤2所述地址文本信息矩阵为：把对应的每个语义标注转化为one-hot向量为：τi＝{0,0,...,xi,…,0}其中，τi表示地址中第i个字符对应的语义标注的one-hot向量，xi表示这条地址中第i个字符对应的语义标注在tag中第i个位置，且xi＝1，τi其余位置的值为0，τi的维数为tag中字符集的个数，即K；步骤2所述依据语义标注集将地址文本对应的语义标注转化为语义标注信息矩阵为：DL*K＝τ1,τ2,…,τkT所述步骤6包括：将上下文语义信息矩阵输入到BiLSTM模型，通过遗忘门、记忆门、输出门对上下文语义信息进行删减，对于t时刻门控制单元的计算过程如下：ft＝σwf·[ht-1,xt]+bfit＝σwi·[ht-1,xt]+bict＝ft*ct-1+it*tanhwc·[ht-1,xt]+bcot＝σwo·[ht-1,xt]+boht＝ot*tanhct其中，ht-1表示前一时刻的隐藏层状态，xt表示当前时刻输入的词，ft表示遗忘门的值，it表示记忆门的值，ct表示当前时刻细胞状态，ot表示输出门的值，ht表示当前时刻的隐藏层状态，bf、bi、bc和bo表示偏移量，wf、wi和wo表示相应门的权重矩阵；分别经过前向LSTM和后向LSTM计算之后，得到地址的前向信息m和后向信息n；把前向信息、后向信息拼接，得到地址的上下文语义信息v＝[m,n]；把得到地址的上下文语义信息通过全连接神经网络转化为标签得分序列X＝{x1，x2，…，xn}；计算公式如下X＝v×E其中，E为初始化的转换矩阵。

全文数据：

权利要求：

百度查询：武汉大学一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

下一篇：管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

相关技术

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种高速直驱转台_江苏心力量智能科技有限公司_202322229050.4

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种机床零件用抛光装置_杭州盈动达精密机械有限公司_202322717477.9

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

地址相关技术

基于DICOM传输的地址来区分设备的管理系统及方法_北京新网医讯技术有限公司_202011212973.3

一种设备地址/标识的隐藏还原方法及报文传输方法_中国电子科技集团公司第三十研究所_202410179896.8

基于IPv6地址可视化管理方法、系统及存储介质_北京连星科技有限公司_202210999384.7

地址转换系统及地址转换方法_瑞昱半导体股份有限公司_202211220628.3

跟踪逻辑块地址的数据温度_美光科技公司_201980029110.1

从机地址更新方法及相关装置_珠海市芯动力科技有限公司_202410083080.5

地址转换方法、装置、物理机及存储介质_上海天数智芯半导体有限公司_202311707210.X

订阅地址的配置方法、相关设备及存储介质_浙江艾克斯精灵人工智能科技有限公司_202210765486.2

MAC地址表的更新方法及装置_锐捷网络股份有限公司_202210015962.9

一种网络地址转换装置_深圳清华大学研究院_202322421644.5

中文相关技术

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质_公安部第三研究所_202111528511.7

一种改进中文自动文本摘要自注意力计算的方法_北京工业大学_202011226337.6

基于多模态地理文本预训练的中文地址解析方法及系统_以萨技术股份有限公司_202410093592.X

一种中文民航空中交通管制语音识别方法及系统_厦门大学_202110467893.0

一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种中文作文AI句评流水线输出方法、装置及存储介质_北京和气聚力教育科技有限公司_202410294625.7

中文教学用挂板_哈尔滨信息工程学院_202321742796.9

基于视觉Transformer的中文文本识别方法_中国人民解放军国防科技大学_202410005609.1

RoBERTa-BiLSTM-CRF相关技术

一种基于ALBERT-BiLSTM模型和SVM-NB分类的文本情绪识别方法_武汉科技大学_202210623982.4

基于HPO-BiLSTM-CRF的网络安全漏洞知识图谱构建方法_南京航空航天大学_202410036258.0

一种基于FP-Growth-BiLSTM组合模型的短期电力负荷预测方法_长沙理工大学_202410043111.4

一种基于ICEEMDAN-IDBO-BILSTM的建筑能耗预测方法_辽宁科技大学_202311840837.2

分布式光伏发电功率WaveNet-BiLstm预测方法和装置_浙江工业大学_202311736745.X

一种基于Bert模型和BiLSTM模型的文本情感分析方法、系统、设备及可读存储介质_北京新数科技有限公司_202410013583.5

一种改进多头自注意力机制-BiLSTM的风机轴承故障诊断方法_河北工业大学_202311832901.2

一种基于多卷积自注意力BiLSTM的风电场风向预测方法_长春东煤高技术股份有限公司_202311618779.9

基于GAN-CNN-BiLSTM的工业循环水系统供水泵故障诊断方法_湘潭大学_202210664270.7

一种基于BERT-BiLSTM-CRF的船舶命名实体识别方法_中国船舶集团有限公司综合技术经济研究院_202311861671.2

龙图腾网&IPTOP

【发明授权】一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法_武汉大学_202011483732.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务