【发明授权】一种基于神经网络的中文标点符号添加方法_北京工商大学_201910168357.3

导航：龙图腾网> 最新专利技术> 一种基于神经网络的中文标点符号添加方法_北京工商大学_201910168357.3

申请/专利权人：北京工商大学

申请日：2019-03-06

公开（公告）日：2024-03-15

公开（公告）号：CN109918666B

主分类号：G06F40/253

分类号：G06F40/253;G06F40/289;G06F16/33;G06N3/02;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.03.15#授权;2019.07.16#实质审查的生效;2019.06.21#公开

摘要：本发明提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：构造标点符号添加的训练数据集、基于神经网络构建中文标点符号添加方法、利用标点符号训练数据集来训练神经网络、利用训练好的神经网络对中文标点符号进行恢复、勘误；本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平，本发明可应用于对语音合成文字后的文本进行标点符号勘误。

主权项：1.一种基于神经网络的中文标点符号添加方法，其特征在于，包括以下步骤：步骤一：构造标点符号添加的训练数据集；步骤二：基于神经网络构建中文标点符号添加的方法；步骤三：利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络；所述步骤三中，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam；一种构造所述标点符号添加的训练数据集的方法，包括以下步骤：步骤S1.1：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符噪声数据，保留数据集正文部分，过滤噪声后得到清洗过后的文本序列；步骤S1.2：构建训练数据集，使用分词工具对清洗过后的文本序列进行分词，得到分词后的序列；步骤S1.3：对经分词后的序列，进行标点符号标注，得到对应的标签序列；步骤S1.4：构建词-索引词典，对分词后的序列进行数字化处理，去掉全部的标点符号，使文本序列和标签序列一一对应，得到数字序列，数字序列和标签序列构成标点符号训练数据集；所述步骤S1.3中，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，当前词后面若是逗号，则在标签序列中，为当前词标注为数字2，当前词后面若是分号，则在标签序列中，为当前词标注为数字3；构建所述神经网络的方法包括：步骤2.1：构建神经网络，通过自注意力机制深度神经网络来建模序列标注模型，构建深度自注意力模型和深层神经网络模型；步骤2.2：对识别文本中的每一个词进行编码，根据所述词的编码，所述词的声学信息编码，所述词的词性特征，所述词的句法特征，生成所述词的特征向量；步骤2.3：将步骤2.2得出的所述词的特征向量输入步骤2.1中的深度自注意力模型，通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合，生成所述词的输入特征；步骤2.4：将步骤2.3得出的所述词的输入特征输入步骤2.1中的深层神经网络模型，得到所述词后每种标点符号预测的概率，所述词后预测标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号；所述步骤2.3中，所述深层自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，通过自注意力机制，学习到当前词和其他所有词的句意相关性信息，句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。

全文数据：一种基于神经网络的中文标点符号添加方法技术领域本发明涉及自然语言处理领域，尤其涉及一种基于神经网络的中文标点符号添加方法。背景技术在NLP领域里，语音转化为文本标点符号不能显式的添加，或者只是依据语音的停顿添加标点，这样往往导致标点符号添加错误，且只能添加逗号等分隔符进行分句，转化后的文本往往需要大量人工干预。在出版社，期刊，杂志等领域要对稿件进行格式审查，标点符号的规范使用是重要的一项标准。目前针对中文标点符号预测勘误，学术界还没有提出一个较好的方法，在该领域还处于探索阶段，已有的方法往往是基于统计的规则匹配，之后人工复查，这样浪费大量人力。基于近年来大数据，神经网络的兴起，本发明在海量中文文本数据集上训练神经网络，在标点符号自动添加，自动判断标点符号使用正误上取得了很好的效果。因此，本发明提出一种基于神经网络的中文标点符号添加方法，以解决现有技术中的不足之处。发明内容针对上述问题，本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误，对出版社，杂志社，等投稿的稿件进行标点符号的勘误，对中文文本标点符号规范化自动化处理是一种有益的尝试。本发明提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：步骤一：构造标点符号添加的训练数据集；步骤二：基于神经网络构建中文标点符号添加方法；步骤三：利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络。进一步改进在于：所述步骤三中，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam。一种构造标点符号添加的训练数据集方法，包括以下步骤：步骤一：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据，保留数据集文本部分，过滤噪声后得到清洗过后的文本序列；步骤二：构建训练数据集，使用分词工具对清洗过后的文本序列进行分词，得到分词后的序列；步骤三：对经分词后的序列，进行标点符号标注，得到对应的标签序列；步骤四：构建词-索引词典，对分词后的序列进行数字化处理，去掉全部的标点符号，使文本序列和标签序列一一对应，得到数字序列，数字序列和标签序列构成标点符号训练数据集。进一步改进在于：所述步骤三中，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，当前词后面若是逗号，则在标签序列中，为当前词标注为数字2，当前词后面若是分号，则在标签序列中，为当前词标注为数字3，等等，对常用的十六个标点符号进行标注。一种中文标点符号添加的方法，包括以下步骤：步骤一：构建神经网络，通过自注意力机制深度神经网络来建模序列标注模型，构建深度自注意力模型和深层神经网络模型；步骤二：对识别文本中的每一个词进行编码，根据所述词的编码，所述词的声学信息编码，所述词的词性特征，所述词的句法特征，生成所述词的特征向量；步骤三：将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型，通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合，生成所述词的输入特征；步骤四：将步骤三得出的所述词的输入特征输入步骤一中的深层神经网络模型，得到所述词后每种标点符号添加的概率，所述词后添加标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号。进一步改进在于：所述步骤三中，自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，通过自注意力机制，学习到当前词和其他所有词的句意相关性信息，句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。进一步改进在于：所述步骤四中，深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加各种标点符号的概率。本发明的有益效果为：本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误，对出版社，杂志社，等投稿的稿件进行标点符号的勘误，对中文文本标点符号规范化自动化处理是一种有益的尝试。附图说明图1为本发明构造标点符号添加的训练数据集流程示意图。图2为本发明中文标点符号添加的方法流程示意图。具体实施方式为了使发明实现的技术手段、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。根据图1、2所示，本实施例提出一种基于神经网络的中文标点符号添加方法，包括以下步骤：步骤一：构造标点符号添加的训练数据集；步骤二：基于神经网络构建中文标点符号添加方法；步骤三：利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam。一种构造标点符号添加的训练数据集的方法，包括以下步骤：步骤一：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据，去除比如书名、作者名、每一章的标题、段落之间的空格等多余数据，保留数据集正文部分，把正文内容字符串连接起来形成一个总文件，得到清洗过后的文本序列；步骤二：构建训练数据集，使用分词工具对清洗过后的文本序列进行分词，分词器选择开源工具HanLP，得到分词后的序列；步骤三：对经分词后的序列，进行标注，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，前词后面若是逗号，则在标签序列中，为当前词标注为数字2，前词后面若是分号，则在标签序列中，为当前词标注为数字3，等等，对常用的十六个标点符号进行标注，得到对应的标点符号标签序列；步骤四：构建词-索引词典，对分词后的序列进行数字化处理，去掉全部的标点符号，使文本序列和标签序列一一对应，得到数字序列，数字序列和标签序列构成标点符号训练数据集。一种中文标点符号添加的方法，包括以下步骤：步骤一：构建神经网络，通过自注意力机制深度神经网络来建模序列标注模型，构建深度自注意力模型和深层神经网络模型；步骤二：对识别文本中的每一个词进行编码，根据所述词的编码，所述词的声学信息编码，所述词的词性特征，所述词的句法特征，生成所述词的特征向量；步骤三：将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型，通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合，生成所述词的输入特征，在这个过程中，自注意力模型通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，查询向量和键向量通过求数量积得到相似度度量值，对相似度度量值进行归一化后，对值向量进行加权求和，权重即相似度度量值归一化后的值，通过上面的自注意力机制，网络学习到当前词和其他所有词的句意相关性信息，有效克服了传统循环神经网络LSTM长距离信息依赖问题，自注意力机制是比LSTM更能有效提取特征，上述句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息，其中,上述词所属的句子成分是指上述汉字属于句子的主语、谓语、宾语、状语或定语等，上述词词性是指上述汉字的上下文文本中词性,例如上述分词为动词或名词等，具体地,自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,需要按照序列的先后顺序来构建输出,将待识别文本看作序列,将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，自注意力的模型由于使用了大量语料,自注意力模型获取的上述词的与其他词的句意相关性信息中还蕴含了上述词的上下文文本的语义信息,从而可以避免一些因为建模能力不足而在出现次数较少的词中间添加了标点符号的错误，而且,自注意力模型可以使用多层堆叠来进一步加强对复杂句子、长句子的信息控制,实现更高的精度；步骤四：将步骤三得出的所述词的特征向量，输入步骤一中的深层神经网络模型，得到所述词后每种标点符号预测的概率，所述词后预测标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，具体地,深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号。本发明从大数据出发，构建深度神经网络模型来对中文标点符号恢复、勘误，突破了传统的大量人工检测的局限，神经网络在大量训练集一经训练完成，就可以对各种题材的文本进行标点符号的恢复勘误，经大量文本训练过后的神经网络，标点符号预测的准确率在95％以上，精确率在85％以上，召回率在85％以上，f1值在85％以上，符合工业要求水平。本发明可应用于对语音合成文字后的文本进行标点符号勘误，对出版社，杂志社，等投稿的稿件进行标点符号的勘误，对中文文本标点符号规范化自动化处理是一种有益的尝试。以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

权利要求：1.一种基于神经网络的中文标点符号添加方法，其特征在于，包括以下步骤：步骤一：构造标点符号添加的训练数据集；步骤二：基于神经网络构建中文标点符号添加的方法；步骤三：利用步骤一中的标点符号训练数据集来训练步骤二中的神经网络。2.根据权利要求1所述的一种基于神经网络的中文标点符号添加方法，其特征在于：所述步骤三中，神经网络的深度学习工具基于Tensorflow后端的Keras，损失函数用交叉熵损失，优化器用Adam。3.应用于权利要求1所述的一种构造标点符号添加的训练数据集的方法，其特征在于：包括以下步骤：步骤一：收集中文文本数据集，进行数据清洗，通过正则匹配过滤掉文本数据集中包含html标签特殊字符等噪声数据，保留数据集正文部分，过滤噪声后得到清洗过后的文本序列；步骤二：构建训练数据集，使用分词工具对清洗过后的文本序列进行分词，得到分词后的序列；步骤三：对经分词后的序列，进行标点符号标注，得到对应的标签序列；步骤四：构建词-索引词典，对分词后的序列进行数字化处理，去掉全部的标点符号，使文本序列和标签序列一一对应，得到数字序列，数字序列和标签序列构成标点符号训练数据集。4.根据权利要求3所述的一种构造标点符号添加的训练数据集的方法，其特征在于：所述步骤三中，标注规则为：当前词后面若不是标点符号，则在标签序列中，为当前词标注为数字0，当前词后面若是句号，则在标签序列中，为当前词标注为数字1，当前词后面若是逗号，则在标签序列中，为当前词标注为数字2，当前词后面若是分号，则在标签序列中，为当前词标注为数字3，等等，对常用的十六个标点符号进行标注。5.应用于权利要求1所述的一种中文标点符号添加的方法，其特征在于：包括以下步骤：步骤一：构建神经网络，通过自注意力机制深度神经网络来建模序列标注模型，构建深度自注意力模型和深层神经网络模型；步骤二：对识别文本中的每一个词进行编码，根据所述词的编码，所述词的声学信息编码，所述词的词性特征，所述词的句法特征，生成所述词的特征向量；步骤三：将步骤二得出的所述词的特征向量输入步骤一中的深度自注意力模型，通过所述深度自注意力模型将所述词的特征向量与所述深度自注意力模型获取所述词与其他词句意的相关性信息结合，生成所述词的输入特征；步骤四：将步骤三得出的所述词的输入特征输入步骤一中的深层神经网络模型，得到所述词后每种标点符号预测的概率，所述词后预测标点符号的概率包括，没有标点符号的概率，预测为每种标点符号的概率，根据概率最高的预测结果在所述词后添加标点符号。6.根据权利要求5所述的一种中文标点符号添加的方法，其特征在于：所述步骤三中，自注意力模型获得由待识别文本中每个词的特征向量组成的特征向量序列之后,按照序列的先后顺序来构建输出,将待识别文本看作序列,通过将输入向量通过三个可学习的权重矩阵分别映射为查询向量、键向量和值向量，通过计算值向量的加权和得到当前词的表示，权重为查询向量和键向量相关性，通过自注意力机制，学习到当前词和其他所有词的句意相关性信息，句意信息包括上述词所属的句子成分、上述词在句子中的位置、上述词的词性和上述词的上下文文本的语义信息。7.根据权利要求5所述的一种中文标点符号添加的方法，其特征在于：所述步骤四中，深层神经网络模型的输出为所述词对应的一维向量,上述一维向量分别代表了该词后不加标点以及加各种标点符号的概率。

百度查询：北京工商大学一种基于神经网络的中文标点符号添加方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

下一篇：一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

相关技术

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种新型立式磷石膏废料破碎机_湖北旭特建材科技有限公司_202322371565.8

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

一种基于区块链技术的危险废物监管装置_上海博优环境科技发展有限公司_202322288382.X

一种高效散热电源_广州市力为电子有限公司_202322175013.X

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

中文相关技术

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质_公安部第三研究所_202111528511.7

一种改进中文自动文本摘要自注意力计算的方法_北京工业大学_202011226337.6

基于多模态地理文本预训练的中文地址解析方法及系统_以萨技术股份有限公司_202410093592.X

一种中文民航空中交通管制语音识别方法及系统_厦门大学_202110467893.0

一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种中文作文AI句评流水线输出方法、装置及存储介质_北京和气聚力教育科技有限公司_202410294625.7

中文教学用挂板_哈尔滨信息工程学院_202321742796.9

基于视觉Transformer的中文文本识别方法_中国人民解放军国防科技大学_202410005609.1

网络相关技术

用于标识通信网络中的网络节点的方法和通信网络_罗伯特·博世有限公司_201910574227.X

网络设备的升级_瑞典爱立信有限公司_201780096272.8

在区块链网络中验证交易的方法以及构成该网络的节点_比特飞翔区块链株式会社_201980026000.X

一种移动通信网络辅助广播网络的收发方法及其装置_上海交通大学_202210665237.6

基于多通道图卷积网络的社交网络节点分类方法与系统_扬州大学_202210353954.5

深度神经网络的正确性保持优化_通用汽车环球科技运作有限责任公司_201910504097.2

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

一种时间敏感网络性能评估方法_中国科学院沈阳自动化研究所_202111441534.4

主动安全网络及构建方法_北京北信源软件股份有限公司_202210505613.5

一种网络加速方法和装置_荣耀终端有限公司_202211284598.2

标点符号相关技术

一种低轨卫星信道估计和符号检测方法及系统_华中科技大学_202210957642.5

一种模型用定位标点装置_西安乐之舞音乐文化传播有限公司_202322595264.3

用于将符号分配给对象的系统和方法_康耐视公司_202280057997.7

一种适用于低轨卫星互联网系统的并行符号定时恢复方法_西安电子科技大学_202210887029.0

一种标点预测方法、装置、设备及存储介质_科大讯飞股份有限公司_202011230897.9

机器人配送目标点的设置方法、装置、机器人和存储介质_深圳市普渡科技有限公司_202011634578.4

一种标点预测方法、装置、设备以及存储介质_科大讯飞股份有限公司_202311868635.9

用于确定经由正交频分复用信号传输的符号的方法和设备_大陆汽车科技有限公司_202280044678.2

支持用于SL-PRS接收的AGC符号的方法和用户设备_联发科技股份有限公司_202311259958.8

一种基于符号分段的卫星通信信号互干扰抑制方法_中国电子科技集团公司第五十四研究所_202410030636.4

龙图腾网&IPTOP

【发明授权】一种基于神经网络的中文标点符号添加方法_北京工商大学_201910168357.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务