【发明授权】一种基于transformer和CRF的中文地址分词方法_浙江邦盛科技股份有限公司_201910448338.6

导航：龙图腾网> 最新专利技术> 一种基于transformer和CRF的中文地址分词方法_浙江邦盛科技股份有限公司_201910448338.6

申请/专利权人：浙江邦盛科技股份有限公司

申请日：2019-05-28

公开（公告）日：2022-12-02

公开（公告）号：CN110222337B

主分类号：G06F40/279

分类号：G06F40/279;G06N3/02

优先权：

专利状态码：有效-授权

法律状态：2022.12.02#授权;2019.10.08#实质审查的生效;2019.09.10#公开

摘要：本发明公开了一种基于transformer和CRF的中文地址分词方法。该方法首先将地址文本编码转换为文本信息矩阵；然后将文本信息矩阵作为输入传到transformer神经网络；最后利用条件随机场CRF对transformer神经网络的输出进行标注，得到地址分词标注序列。与传统基于规则的分词方法相比，该方法用数值向量表征地址文本可以使文本信息更加丰富，具有较好的准确率和鲁棒性，对未出现过的新地址数据也可以正确分词。在中文地址分词领域，该方法具有极大的研究意义和使用价值。

主权项：1.一种基于transformer和CRF的中文地址分词方法，其特征在于，包括以下步骤：步骤1、对初始地址文本进行分词标注，得到带标注的地址文本，并对地址文本进行字符统计得到字符集，根据字符集将地址文本转化成序列化地址向量；步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量，根据特征信息向量将序列化地址向量转换为特征信息矩阵；步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量，根据位置信息向量将序列化地址向量转换为位置信息矩阵；步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵；步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中，得到地址文本的语义特征信息矩阵；步骤6、将步骤5得到的语义特征信息矩阵作为输入，利用条件随机场CRF对语义特征信息进行标注，得到中文地址分词标注序列。

全文数据：一种基于transformer和CRF的中文地址分词方法技术领域本发明属于自然语言处理中的中文分词领域，尤其涉及一种基于transformer和CRFConditionalRandomField的中文地址分词方法。背景技术随着信息技术的发展以及商业贸易、企业和政府事务的电子化，产生了海量的地址数据信息，如何有效地将这些地址数据转化为结构化数据存储并加以利用已经成为一个迫切需要解决的问题。传统的中文地址分词一般采用基于规则的分词方法，事先人工建立好分词词典，基于字符串匹配进行分词，取得了一定的效果，但是这种方法在海量地址文本下难以覆盖完全，并且鲁棒性较差，对未出现过的新地址数据分词准确率较低。中文地址分词是中文分词在地名地址中的应用，它是将地名地址串拆分成若干地理要素的过程。中文分词是自然语言处理下的一项子任务，随着深度学习在自然语言处理领域的发展与流行，将深度学习应用到中文分词上也成为大势所趋。发明内容本发明的目的在于针对现有技术的不足，提供一种基于transformer和CRF的中文地址分词方法。本发明的目的是通过以下技术方案来实现的：一种基于transformer和CRF的中文地址分词方法，包括以下步骤：步骤1、对初始地址文本进行分词标注，得到带标注的地址文本，并对地址文本进行字符统计得到字符集，根据字符集将地址文本转化成序列化地址向量。步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量，根据特征信息向量将序列化地址向量转换为特征信息矩阵。步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量，根据位置信息向量将序列化地址向量转换为位置信息矩阵。步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵。步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中，得到地址文本的语义特征信息矩阵。步骤6、将步骤5得到的语义特征信息矩阵作为输入，利用条件随机场CRF对语义特征信息进行标注，得到中文地址分词标注序列。进一步地，所述步骤1包括：1对初始地址文本进行人工分词；2采用BMES法对分词后的地址文本进行标注，即词的第一个字符标记为B，词中间的字符标记为M，词尾的字符标记为E，如果词是一个单独字符则标记为S；3对初始地址文本进行字符统计得到字符集，并将初始地址文本中的字符转换为其在字符集中的id，得到序列化地址向量；4令l为地址文本限制长度，对长度小于l的序列化地址向量进行补0，对长度大于l的序列化地址向量进行截断，得到长度均为l的序列化地址向量。进一步地，所述步骤2包括：1将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量，得到字符矩阵其中n是字符集中字符个数，dmodel是每个字符的特征信息向量的维度，E中第i行代表第i个字符的特征信息向量；2根据序列化地址向量中的字符id将字符转化为相应的特征信息向量，得到特征信息矩阵进一步地，所述步骤3包括：1计算序列化地址向量中每个位置pos的位置信息向量PEpos，计算公式如下：其中PEpos,k为PEpos第k个元素的值，k＝0,1,...,dmodel-1；2将序列化地址向量中的字符转化为相应的位置信息向量，得到位置信息矩阵进一步地，所述步骤5中，transformer神经网络的具体模型结构如下：1Multi-HeadAttention层利用多头注意力机制获取上下文信息，具体公式如下：MultiHeadQ，K，V＝Concathead1，...，headhWO其中MultiHeadQ,K,V是Multi-HeadAttention层的输出结果；Concat是矩阵拼接函数；headi是第i个head的输出结果，h是head的个数；WO是输出的映射参数矩阵，分别为Q、K、V在第i个head上的映射参数矩阵，Q＝K＝V＝I，dq＝dk＝dv＝dmodelh。每一个head均采用scaleddot-productattention机制，具体计算过程如下：其中AttentionQ,K,V是scaleddot-productattention的输出，softmaxx是归一化指数函数；Wrl是序列相对位置关系权重参数，2Position-wiseFeedForwardNetwork层对Multi-HeadAttention层的输出进行两次线性变换和一次ReLU激活，具体公式如下：FFNx＝max0，xW1+b1W2+b2其中W1、W2分别为两次线性变换的参数矩阵，b1、b2分别为两次线性变换的偏置向量，dff是Position-wiseFeedForwardNetwork层中隐藏层的维度；FFNx是Position-wiseFeedForwardNetwork层的输出。3上述两个子层的输出均需经过残差连接和层归一化操作，具体公式如下：x′＝x+Sublayerx其中Sublayerx是子层对应的计算函数；x′i∈Rl，H＝dmodel；μ和σ为均值和方差向量，μ、σ∈Rl；g和b为拟合参数，g、b∈Rl；⊙是点乘函数；LayerNormx′是层归一化函数的输出。进一步地，所述步骤6包括：1给定输入观测序列x＝{x1，x2，...，xn}，标注序列y＝{yn，y2，...，yn}的条件概率为py|x，具体公式如下：其中tj是第j个转移特征函数，sk是第k个状态特征函数，λj和μk是特征函数对应的权重参数，Z是规范化因子。2采用维特比算法选取条件概率最大的y作为最优标注序列。本发明的有益效果：本发明方法不但利用transformer神经网络的优势更好地提取文本特征信息，而且加入了文本序列中字符的绝对位置和相对位置信息，在进行标注时还利用CRF考虑了标注序列中字符标注之间的相互关系，最终将地址文本拆分成若干地理要素。与传统基于规则的分词方法相比，该方法用数值向量表征地址文本可以使文本信息更加丰富，具有较好的准确率和鲁棒性，对未出现过的新地址数据也可以正确分词。在中文地址分词领域，该方法具有极大的研究意义和使用价值。附图说明图1为transformer神经网络的结构示意图；图2为CRF的结构示意图。具体实施方式下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。本发明提供的一种基于transformer和CRF的中文地址分词方法，该方法包括以下步骤：步骤1、对初始地址文本进行分词标注，得到带标注的地址文本，并对地址文本进行字符统计得到字符集，根据字符集将地址文本转化成序列化地址向量；步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量，根据特征信息向量将序列化地址向量转换为特征信息矩阵；步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量，根据位置信息向量将序列化地址向量转换为位置信息矩阵；步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵；步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中，得到地址文本的语义特征信息矩阵；步骤6、将步骤5得到的语义特征信息矩阵作为输入，利用条件随机场CRF对语义特征信息进行标注，得到中文地址分词标注序列。进一步地，所述步骤1包括：1对初始地址文本进行人工分词；2采用BMES法对分词后的地址文本进行标注，即词的第一个字符标记为B，词中间的字符标记为M，词尾的字符标记为E，如果词是一个单独字符则标记为S；以“浙江省|杭州市|浙江邦盛有限公司”为例，其中“|”为分词标记，该地址对应的标注序列为“BMEBMEBMMMMMME”；3对初始地址文本进行字符统计得到字符集，并将初始地址文本中的字符转换为其在字符集中的id，得到序列化地址向量；4令l为地址文本限制长度，对长度小于l的序列化地址向量进行补0，对长度大于l的序列化地址向量进行截断，得到长度均为l的序列化地址向量。进一步地，所述步骤2包括：1将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量，得到字符矩阵其中n是字符集中字符个数，dmodel是每个字符的特征信息向量的维度，E中第i行代表第i个字符的特征信息向量；2根据序列化地址向量中的字符id将字符转化为相应的特征信息向量，得到特征信息矩阵进一步地，所述步骤3包括：1计算序列化地址向量中每个位置pos的位置信息向量PEpos，计算公式如下：其中PEpos,k为PEpos第k个元素的值，k＝0,1,...,dmodel-1；2将序列化地址向量中的字符转化为相应的位置信息向量，得到位置信息矩阵进一步地，所述步骤4包括：将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵进一步地，所述步骤5中transformer神经网络是一种新型的深度学习神经网络结构，它可以获取到更远的上下文信息，避免传统循环神经网络因梯度消失或者梯度爆炸而导致的信息消失问题，其示意图如图1所示，具体模型结构如下：1Multi-HeadAttention层利用多头注意力机制获取上下文信息，具体公式如下：MultiHeadQ，K，V＝Concathed1，...，headhWO其中MultiHeadQ,K,V是Multi-HeadAttention层的输出结果；Concat是矩阵拼接函数；headi是第i个head的输出结果，h是head的个数；WO是输出的映射参数矩阵，分别为Q、K、V在第i个head上的映射参数矩阵，Q＝K＝V＝I，dq＝dk＝dv＝dmodelh。每一个head都采用scaleddot-productattention机制，具体计算过程如下：其中AttentionQ,K,V是scaleddot-productattention的输出，softmaxx是归一化指数函数；Wrl是序列相对位置关系权重参数，2Position-wiseFeedForwardNetwork层对Multi-HeadAttention层的输出进行两次线性变换和一次ReLU激活，具体公式如下：FFNx＝max0，xW1+b1W2+b2其中W1、W2分别为两次线性变换的参数矩阵，b1、b2分别为两次线性变换的偏置向量，dff是Position-wiseFeedForwardNetwork层中隐藏层的维度；FFNx是Position-wiseFeedForwardNetwork层的输出。3上述两个子层的输出均需经过残差连接和层归一化操作，具体公式如下：x′＝x+Sublayerx其中Sublayerx是子层对应的计算函数；x′i∈Rl，H＝dmodel；μ和σ为均值和方差向量，μ、σ∈Rl；g和b为拟合参数，g、b∈Rl；⊙是点乘函数；LayerNormx′是层归一化函数的输出。进一步地，所述步骤6包括：1条件随机场是一种判别式无向图模型，其示意图如图2所示。给定输入观测序列x＝{x1，x2，...，xn}，标注序列y＝{yn，y2，...，yn}的条件概率为py|x，具体公式如下：其中tj是第j个转移特征函数，sk是第k个状态特征函数，λj和μk是特征函数对应的权重参数，Z是规范化因子。2采用维特比算法选取条件概率最大的y作为最优标注序列。上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

权利要求：1.一种基于transformer和CRF的中文地址分词方法，其特征在于，包括以下步骤：步骤1、对初始地址文本进行分词标注，得到带标注的地址文本，并对地址文本进行字符统计得到字符集，根据字符集将地址文本转化成序列化地址向量。步骤2、将步骤1得到的字符集中的字符随机初始化为特征信息向量，根据特征信息向量将序列化地址向量转换为特征信息矩阵。步骤3、根据序列化地址向量中的元素位置计算得到位置信息向量，根据位置信息向量将序列化地址向量转换为位置信息矩阵。步骤4、将步骤2得到的特征信息矩阵和步骤3得到的位置信息矩阵相加，得到文本信息矩阵。步骤5、将步骤4得到的文本信息矩阵输入到transformer神经网络中，得到地址文本的语义特征信息矩阵。步骤6、将步骤5得到的语义特征信息矩阵作为输入，利用条件随机场CRF对语义特征信息进行标注，得到中文地址分词标注序列。2.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤1包括：1对初始地址文本进行人工分词；2采用BMES法对分词后的地址文本进行标注，即词的第一个字符标记为B，词中间的字符标记为M，词尾的字符标记为E，如果词是一个单独字符则标记为S；3对初始地址文本进行字符统计得到字符集，并将初始地址文本中的字符转换为其在字符集中的id，得到序列化地址向量；4令l为地址文本限制长度，对长度小于l的序列化地址向量进行补0，对长度大于l的序列化地址向量进行截断，得到长度均为l的序列化地址向量。3.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤2包括：1将步骤1中得到的字符集中的每个字符随机初始化为特征信息向量，得到字符矩阵其中n是字符集中字符个数，dmodel是每个字符的特征信息向量的维度，E中第i行代表第i个字符的特征信息向量；2根据序列化地址向量中的字符id将字符转化为相应的特征信息向量，得到特征信息矩阵4.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤3包括：1计算序列化地址向量中每个位置pos的位置信息向量PEpos，计算公式如下：其中PEpos，k为PEpos第k个元素的值，k＝0，1，...，dmodel-1；2将序列化地址向量中的字符转化为相应的位置信息向量，得到位置信息矩阵5.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤5中，transformer神经网络的具体模型结构如下：1Multi-HeadAttention层利用多头注意力机制获取上下文信息，具体公式如下：MultiHeadQ，K，V＝Concathead1，...，headhWowhereheadi＝AttentionQWiQ，KWiK，VWiV其中MultiHeadQ，K，V是Multi-HeadAttention层的输出结果；Concat是矩阵拼接函数；headi是第i个head的输出结果，h是head的个数；Wo是输出的映射参数矩阵，WiQ、WiK、WiV分别为Q、K、V在第i个head上的映射参数矩阵，Q＝K＝V＝I，dq＝dk＝dv＝dmodelh。每一个head均采用scaleddot-productattention机制，具体计算过程如下：其中AttentionQ，K，V是scaleddot-productattention的输出，softmaxx是归一化指数函数；Wrl是序列相对位置关系权重参数，WiV∈Rl×l。2Position-wiseFeedForwardNetwork层对Multi-HeadAttention层的输出进行两次线性变换和一次ReLU激活，具体公式如下：FFNx＝max0，xW1+b1W2+b2其中W1、W2分别为两次线性变换的参数矩阵，b1、b2分别为两次线性变换的偏置向量，dff是Position-wiseFeedForwardNetwork层中隐藏层的维度；FFNx是Position-wiseFeedForwardNetwork层的输出。3上述两个子层的输出均需经过残差连接和层归一化操作，具体公式如下：x′＝x+Sublayerx其中Sublayerx是子层对应的计算函数；x′i∈Rl，H＝dmodel；μ和σ为均值和方差向量，μ、σ∈Rl；g和b为拟合参数，g、b∈Rl；⊙是点乘函数；LayerNormx′是层归一化函数的输出。6.根据权利要求1所述的一种基于transformer和CRF的中文地址分词方法，其特征在于，所述步骤6包括：1给定输入观测序列x＝{x1，x2，...，xn}，标注序列y＝{yn，y2，...，yn}的条件概率为py|x，具体公式如下：其中tj是第j个转移特征函数，sk是第k个状态特征函数，λj和μk是特征函数对应的权重参数，Z是规范化因子。2采用维特比算法选取条件概率最大的y作为最优标注序列。

百度查询：浙江邦盛科技股份有限公司一种基于transformer和CRF的中文地址分词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

下一篇：一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

相关技术

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种滑套式HDMI数据线_深圳市海鑫达连接线有限公司_202322633970.2

一种便携式放线架_高炜精密电子(东莞)有限公司_202322772571.4

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

中文相关技术

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质_公安部第三研究所_202111528511.7

中文教学用挂板_哈尔滨信息工程学院_202321742796.9

基于视觉Transformer的中文文本识别方法_中国人民解放军国防科技大学_202410005609.1

一种中文语法纠错方法及系统_长沙市智为信息技术有限公司_202410279802.4

一种移动应用中文隐私政策收集个人信息合规性检测方法_湘潭大学_202311842713.8

基于大模型的高效数据资产的自然语言识别加中文分词的查询方法_北京中数睿智科技有限公司_202410076897.X

中文分词方法、电子装置及可读存储介质_平安科技(深圳)有限公司_201910371045.2

一种基于预加载权重词性组合的中文关键短语抽取的方法_南京烽火天地通信科技有限公司_202210100205.1

一种中文标准多维度相似度计算方法_中国科学院空间应用工程与技术中心_202410266051.2

地址相关技术

基于DICOM传输的地址来区分设备的管理系统及方法_北京新网医讯技术有限公司_202011212973.3

一种设备地址/标识的隐藏还原方法及报文传输方法_中国电子科技集团公司第三十研究所_202410179896.8

基于IPv6地址可视化管理方法、系统及存储介质_北京连星科技有限公司_202210999384.7

统一地址转换方法与统一地址空间_北京忆恒创源科技股份有限公司_201810315446.1

收件地址校验方法、装置、设备及存储介质_上海东普信息科技有限公司_202410065949.3

地址转换服务的安全性_国际商业机器公司_202280057765.1

一种基于流量识别的IP地址管理方法_湖南探鲸科技有限责任公司_202311830450.9

一种IPv6地址信息确定方法、装置、设备及介质_杭州安恒信息技术股份有限公司_202210820656.2

一种充电桩功率模块地址分配方法及相关产品_阳光乐充科技有限公司_202410057190.4

一种地址相似关系生成方法及装置_中国农业银行股份有限公司_202011640350.6

CRF相关技术

一种基于BERT-BiLSTM-CRF的船舶命名实体识别方法_中国船舶集团有限公司综合技术经济研究院_202311861671.2

一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法_武汉大学_202011483732.2

一种基于BERT-BiLSTM-CRF的日志实体识别方法及装置_北京安信天行科技有限公司_202311624851.9

一种基于ERNIE3.0_Att_IDCNN_BiGRU_CRF的命名实体识别算法_昆明理工大学_202311539422.1

一种基于BiLSTM+CRF模型的操作票命名实体识别方法_国网江苏省电力有限公司镇江供电分公司_202311556835.0

基于BiLSTM-CRF的车轴疲劳裂纹声发射信号预测系统_大连交通大学_202311240812.9

基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质_湖南星汉数智科技有限公司_202010899318.3

一种基于Schema模版和Bert-BiLSTM-CRF的仿真想定辅助生成方法_中国人民解放军军事科学院战争研究院_202311410276.2

一种基于BERT-BiLSTM-CRF模型的配网故障设备实体识别方法_国网福建省电力有限公司电力科学研究院_202311508250.1

基于CRF与多样式MRC的长跨度命名实体识别方法及系统_中山大学_202310974242.X

龙图腾网&IPTOP

【发明授权】一种基于transformer和CRF的中文地址分词方法_浙江邦盛科技股份有限公司_201910448338.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务