买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】机构名简称的预测方法、装置和计算机设备_腾讯科技(深圳)有限公司_201910485332.6 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2019-06-05

公开(公告)日:2023-10-31

公开(公告)号:CN110263123B

主分类号:G06F16/33

分类号:G06F16/33;G06F40/126;G06F40/284

优先权:

专利状态码:有效-授权

法律状态:2023.10.31#授权;2021.10.26#实质审查的生效;2019.09.20#公开

摘要:本申请涉及一种机构名简称的预测方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取机构名文本;提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识;根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。本申请提供的方案可以有效提高机构名简称预测的准确性。

主权项:1.一种机构名简称的预测方法,包括:获取机构名文本,所述机构名文本是指机构名全称的文本数据;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征,所述文本特征还包括三元字符关系特征以及二元字符关系特征,所述三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,所述二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;所述属性标识包括简称字段标识以及非简称字段标识;滤除所述机构名文本中属性标识为非简称字段标识的字符;依次输出属性标识为简称字段标识的字符,得到所述机构名文本的简称字段。

全文数据:机构名简称的预测方法、装置和计算机设备技术领域本申请涉及计算机技术领域,特别是涉及一种机构名简称的预测方法、装置、计算机可读存储介质和计算机设备。背景技术在日常生活中,对于全称较长的机构名,会将其压缩成短的、简单的词语作为简称进行替代,例如对于“中国石油天然气有限公司”,日常会称呼其简称“中石油”;如果无法获知机构名对应的简称,往往给信息检索、信息抽取等自然语言处理带来困难。在传统方法中,通常采用人工整理或者基于文本规则挖掘的方式获取机构名对应的简称,其中,人工整理的方式需要耗费大量人力资源,而基于文本规则挖掘的方式虽然在一定程度上减少人力资源的浪费,但是机构名用字规律不强、使用较随意导致机构名简称的构成没有稳定的规则,基于文本规则挖掘的方式预测机构名简称的准确率低。发明内容基于此,有必要针对以传统方法获得的机构名简称准确率低的技术问题,提供一种机构名简称的预测方法、装置、计算机可读存储介质和计算机设备。一种机构名简称的预测方法,包括:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。一种机构名简称的预测装置,其特征在于,所述装置包括:文本获取模块,用于获取机构名文本;文本特征获取模块,用于提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;属性标识获取模块,用于将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;简称字段获取模块,用于根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。上述机构名简称的预测方法、装置、计算机可读存储介质和计算机设备,通过获取机构名文本中各个字符的包括字符特征、后缀名特征、分词特征以及词性特征的文本特征,将文本特征输入至机器学习模型中,获取机器学习模型输出的机构名文本各个字符对应的属性标识,进而根据属性标识获取机构名的简称字段,由于文本特征能够全面的表达机构名文本中的不同信息,文本特征的可解析性提高,使得机器学习模型的可解析性以及泛化性提高,有效提高机构名简称预测的准确性。附图说明图1为一个实施例中机构名简称的预测方法的应用环境图;图2为一个实施例中计算机设备的内部机构示意图;图3为一个实施例中机构名简称的预测方法的流程示意图;图4为一个实施例中机构名简称的预测方法的运行示意图;图5为一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图6为另一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图7为又一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图8为再一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图9为还一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图;图10为一个实施例中机器学习模型训练过程步骤的流程示意图;图11为一个实施例中利用条件随机场算法模型预测机构名简称的准确率以及召回率的数据表;图12为一个实施例中获取机构名训练样本的步骤的流程示意图;图13为一个实施例中百度词条网页的示意图;图14为另一个实施例中机构名简称的预测方法的流程示意图;图15为一个实施例中机构名简称的预测装置的结构框图;图16为另一个实施例中机构名简称的预测装置的结构框图;图17为又一个实施例中的机构名简称的预测装置的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中机构名简称的预测方法的应用环境图。该机构名简称的预测方法应用于一种计算机设备。该计算机设备可以是服务器或终端。如图1所示,以该计算机设备是终端102为例,用户可以通过界面操作终端102,终端102在获取到用户通过操作时输入的机构名文本后,提取机构名文本中各字符的文本特征,将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识,进而根据所述机构名文本中各字符的属性标识获取所述机构名文本的简称字段,终端102可以将获得的简称字段通过操作界面输出,反馈给用户,也可以将该简称字段发送至后一级的服务器以供后一级的服务器进行信息检索或信息抽取等操作。本领域技术人员可以理解。图1中示出的应用环境,仅仅与本申请方案相关的部分场景,并不构成对本申请应用环境的限定,图2为一个实施例中计算机设备的内部机构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现机构名简称的预测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行机构名简称的预测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。如图3所示,在一个实施例中,提供了一种机构名简称的预测方法。本实施例主要以该方法应用于上述图1中的终端来举例说明。参照图3,该机构名简称的预测方法,具体包括如下步骤:S202,获取机构名文本。其中,机构名文本是指机构名全称的文本数据。S204,提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征。具体的,终端对机构名文本进行特征提取,以获取各个字符的文本特征,实现机构名文本进行特征化表示,具体的特征提取方式可以包括分词、利用词典进行特征抽取、词性分析等。其中,文本特征是指用于描述机构名文本中各个字符在不同维度的信息,包括字符特征、后缀名特征、分词特征以及词性特征等;具体的,字符特征用于表征机构名文本中每个字的本身的字符信息;后缀名特征用于表征机构名文本中每个字符是否为后缀词的信息;分词特征用于机构名文本中每个字符是否为分词的首字符信息;词性特征用于表征每个字符的词性信息;通过使用可解释性强的文本特征,使得后续机器学习模型对机构名简称的预测准确性提高。S206,将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识。其中,对于预先训练好的机器学习模型,已经将文本特征设置为输入项,将各个字符的属性标识设置为输出项,因此,将获得的文本特征输入至预先训练好的机器学习模型,预先训练好的机器学习模型根据获取的文本特征,利用属性标识对机构名文本中每一个字符进行标注。S208,根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。在本步骤中,终端获得各个字符对应的属性标识后,根据各个字符的属性标识,从机构名文本中筛选出组成机构名简称的简称字段。进一步地,在一个实施例中,属性标识包括简称字段标识以及非简称字段标识;简称字段标识用于表示当前字符为简称字段的字符,非简称字段标识用于表示当前字符不是简称字段的字符。具体的,终端可以根据机构名文本中的各个字符对应的简称字段标识或非简称字段标识,确定机构名文本中的简称字段。上述机构名简称的预测方法,通过获取机构名文本中各个字符的包括字符特征、后缀名特征、分词特征以及词性特征的文本特征,将文本特征输入至机器学习模型中,获取机器学习模型输出的机构名文本各个字符对应的属性标识,进而根据属性标识获取机构名的简称字段,由于文本特征能够全面的表达机构名文本中的不同信息,使得机器学习模型的可解析性以及泛化性提高,有效提高机构名简称预测的准确性。可选的,在一个实施例中,机器学习模型包括条件随机场算法模型、最大熵模型或隐马尔可夫模型中的一种。在一个实施例中,步骤S208具体可以包括:滤除机构名文本中属性标识为非简称字段标识的字符;依次输出属性标识为简称字段标识的字符,得到机构名文本的简称字段。具体的,简称字段标识可以用属性标识“P”表示,非简称字段可以用属性标识“S”表示。参见图4,图4为一个实施例中机构名简称的预测方法的运行示意图;预先训练好的机器学习模型对机构名文本“腾讯征信有限公司”中每一个字符进行标注属性标识,终端获取属性标识标注的结果,对属性标识为“S”的字符进行滤除,仅仅保留属性标识为“P”的字符,从而将保留下来的字符依次输出,得到机构名文本对应的简称字段“腾讯征信”。图5为一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图。如图5所示,在一个实施例中,字符特征包括三元字符关系特征以及二元字符关系特征,提取机构名文本中各字符的文本特征的步骤,包括:S302,从机构名文本中分割出字符。具体的,终端在获取到机构名文本后,从机构名文本中分割出一个个字符。以机构名文本为“腾讯征信有限公司”为例,对该机构名文本进行分割获得的各个字符分别为:“腾”、“迅”、“征”、“信”、“有”、“限”、“公”以及“司”。S304,获取各字符的三元字符关系特征以及二元字符关系特征,三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息。终端获取到机构名文本中各个字符后,将某一个字符作为当前字符,获取该字符的三元字符关系特征以及二元字符关系特征,进而获取所有字符的三元字符关系特征以及二元字符关系特征。具体的,三元字符关系特征是一组三元组数据表示,其结构可以为当前字符的前一字符,当前字符,当前字符的后一字符;二元字符关系特征是一组二元数据表示,其结构可以为当前字符,当前字符的后一字符。三元字符关系特征以及二元字符关系特征,有效表征机构名文本中各个字符的上下文信息,利用字符特征进行机构名简称预测,可有效提高机构名简称预测准确性。其中,对于机构名文本中各个字符可以用word2vec向量或独热编码One-HotEncoding进行表示。仍然以机构名文本为“腾讯征信有限公司”为例,对该机构名文本进行分割获得的各个字符后,当当前字符为“信”时,字符“信”的三元字符关系特征为讯,征,信,二元关系特征为征,信;应该理解的是,当当前字符无前一字符或后一字符,可以在三元字符关系特征或二元关系特征对应位置中进行填零处理,例如当当前字符为“腾”时,字符“腾”的三元字符关系特征为none,腾,讯,二元关系特征为腾,讯。图6为另一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图。如图6所示,在一个实施例中,提取机构名文本中各字符的文本特征的步骤,包括:S402,对机构名文本进行分词处理,获得机构名文本中的词序列。具体的,终端获取机构名文本后,采用分词处理算法对机构名文本进行分词处理,以获得机构文本对应的词序列。其中,分词处理算法可以是基于词典的分词算法,也可以是基于统计的分词算法。以基于词典的算法进行说明,终端采用基于词典的分词算法对机构名文本进行分词处理时,可以按照一定的策略将机构名文本与词典中存储的词汇进行一一匹配,若匹配成功,则确定该词汇对应的分词为一个词序列。S404,获取词序列的词性,并获取用于表示词性的特征编码。其中,词序列的词性可以包括名词、动词、形容词、数词等。终端在获取到词序列后,分别获取各个词序列对应的词性,并生成词性对应的特征编码。具体的,终端可以预先生成与不同词性对应的离散型特征编码,并保存为词性特征词典,在获取到各个词序列的词性,可以直接在词性特征词典中查找对应的特征编码,应该说明的是,对于同一词性的特征编码是一致的。S406,将词性的特征编码作为词序列内各字符的词性特征。具体的,终端将词序列的词性对应的特征编码,作为该词序列中各个字符的词性特征,进而可以得到各个字符的词性特征,词性特征可有效表征机构名文本中各个字符的词性信息,可解释性较强。本实施例中,由于单个字符词性较多,通过以词汇为粒度的词性信息确定该词汇中各个字符的词性信息,有效提高获取字符的词性信息的准确性,进而提高词性特征的准确性,利用词性特征进行机构名简称预测,可有效提高机构名简称预测准确性。以机构名文本为“腾讯征信有限公司”为例,终端对“腾讯征信有限公司”进行分词处理,得到的词序列分别为“腾迅”、“征信”、“有限”以及“公司”;获取各个词序列的词性,其分别为:“腾讯”名词、“征信”名词、“有限”形容词以及“公司”名词,通过将各个词序列的词性对应的特征编码,确定为词序列内各个字符的词性特征,最终得到的各个字符的词性为:“腾”名词、“迅”名词、“征”名词、“信”名词、“有”形容词、“限”形容词、“公”名词以及“司”名词。图7为又一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图。如图7所示,在一个实施例中,对机构名文本进行分词处理,获得机构名文本中的词序列的步骤之后,还包括:S502,确定词序列中的首字符,并生成用于表示首字符的特征编码;S504,将首字符的特征编码确定为词序列中首字符对应字符的分词特征。其中,首字符是指词序列的第一个字符。具体的,终端在获取到机构名文本的词序列后,确定各个词序列中的首字符,进而确定为词序列首字符的字符,并将首字符的特征编码确定为该字符的分词特征。应该理解的是,当某个字符并非所属词序列的首字符,则该字符的分词特征可以为空,也可以为零值,此处不作限定。本实施例通过生成首字符的特征编码,将首字符的特征编码作为词序列首字符对应字符的分词特征,有效表征机构名文本中各个词序列的首字符位置以及不同词序列间的分界处,使得机构名文本各个字符对应的文本特征的可解释性提高,有效提高机构名简称预测的准确性。以机构名文本为“腾讯征信有限公司”为例,终端对“腾讯征信有限公司”进行分词处理,得到的词序列分别为“腾迅”、“征信”、“有限”以及“公司”;获取各个词序列的词性,其分别为:“腾讯”、“征信”、“有限”以及“公司”,确定各个词序列的首字符分别为:“腾”、“征”、“有”、“公”,将首字符的特征编码作为这些首字符对应字符的分词特征,其余字符的词性特征填零。图8为再一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图。如图8所示,在一个实施例中,后缀名特征包括机构名后缀特征,对机构名文本进行分词处理,获得机构名文本中的词序列的步骤之后,还包括:S602,将词序列分别与机构后缀名词典中的机构后缀名进行匹配;S604,根据匹配成功的目标机构后缀名生成机构名后缀特征;S606,将机构名后缀特征确定为词序列中各字符的后缀名特征。其中,机构后缀名包括公司、工厂、银行、大学、集团等表示机构的名词,机构后缀名词典包括不同的机构后缀名及其对应的离散型特征编码。具体的,终端获取到机构名文本的词序列后,将词序列与机构后缀名词典中各个机构后缀名进行一一匹配,当词序列与机构后缀名一致时即匹配成功,此时,将匹配成功的目标机构后缀名的特征编码确定为该词序列的机构名后缀名特征,进而将该机构名后缀特征确定为该词序列中各个字符的后缀名特征。进一步的,由于机构后缀名在大部分情况下出现在机构名文本的末尾,因此,在一个实施例中,可以只将机构名文本中最后一个词序列与机构后缀名词典中的机构后缀名进行匹配,从而根据匹配成功的目标机构后缀名生成机构名后缀特征,并将该机构名后缀特征作为最后一个词序列中各个字符的后缀名特征,有效减少数据处理量,提高机构名简称获取的速率。图9为还一个实施例中提取机构名文本中各字符的文本特征的步骤的流程示意图。如图9所示,在一个实施例中,后缀名特征包括地址后缀特征;对机构名文本进行分词处理,获得机构名文本中的词序列的步骤之后,还包括:S702,确定词序列的尾字符;S704,将尾字符分别与地址后缀名词典中的地址后缀名进行匹配;S706,根据匹配成功的目标地址后缀名生成地址后缀特征;S708,将地址后缀特征确定为词序列中尾字符对应字符的后缀名特征。其中,尾字符是指词序列的最后一个字符;地址后缀名包括国、省、市、区、县等表示地名的名词;地址后缀名词典包括不同的地址后缀名及其对应的离散型特征编码。终端在获取到机构名文本的词序列后,确定各个词序列中的尾字符,进而将尾字符与地址后缀名词典中各个地址后缀名进行一一匹配,当尾字符与地址后缀名一致时即匹配成功,将匹配成功的目标地址后缀名的特征编码确定为该词序列的地址后缀特征,进而将该地址后缀特征确定为该词序列中尾字符对应字符的后缀名特征。同样的,当某个字符并非地名后缀名,则该字符的分词特征可以为空,也可以为零值,此处不作限定。图10为一个实施例中机器学习模型训练过程步骤的流程示意图。如图10所示,获取机构名文本的步骤之前,还包括:S802,获取机构名训练数据,机构名训练数据包括机构名训练样本中各字符的文本特征以及机构名训练样本中各字符对应的属性标识。其中,机构名训练样本可以利用爬虫技术从互联网网络数据中抓取获得,也可以从电子词典或其他人工标注渠道获得;终端对机构名训练样本进行特征提取,获取各个字符的文本特征以及属性标识,进而得到机构名训练数据;具体的,文本特征至少包括字符特征、后缀名特征、分词特征以及词性特征,机构名训练数据的形式可如表1所示。字符字符特征后缀名特征分词特征词性特征属性标识表1S804,将机构名训练样本中各字符的文本特征作为输入特征、机构名训练样本中各字符对应的属性标识作为输出特征,对机器学习模型进行训练,得到训练后的机器学习模型。在机器学习模型中,预选对机器学习模型的输入项以及输出项进行配置,将机构名训练样本中各字符的文本特征配置为输入项,将机构名训练样本中各字符对应的属性标识作为输出项;机器学习模型对输入的多组机构名训练数据进行分析训练,训练后的机器学习模型可用于预测机构名简称。其中,机器学习模型可以选用条件随机场算法模型、最大熵模型或隐马尔可夫模型中的一种。以机器学习模型为条件随机场算法模型为例,对本实施例中的机器学习模型的训练过程进行进一步说明,在获取到多个机构名训练数据后,将这些机构名训练数据按照3:1的比例划分为训练数据集以及测试数据集,在进行条件随机场算法模型进行训练过程中,将训练数据集中的机构名训练样本的文本特征以及属性标识输入至条件随机场算法模型中,利用训练算法对模型进行迭代训练。训练完成后,利用测试数据集中的机构名训练数据对该条件随机场算法模型进行测试,获得准确率以及召回率如图11所示,图中表示条件随机场算法模型预测的前N个简称即包含正确简称的准确率以及召回率,其中N=1,2,3,从图11中可以知条件随机场算法模型预测的前3个简称即包含正确简称的准确率为75.8%。图12为一个实施例中获取机构名训练样本的步骤的流程示意图。如图12所示,在一个实施例中,获取机构名训练样本的步骤,包括:S902,抓取机构名训练样本以及机构名训练样本对应的简称字段。本步骤中,终端抓取机构名全称及其对应的简称,作为机构名训练样本及其对应的简称字段。具体的,终端可以利用爬虫技术从百度词条数据中抓取机构名训练样本及其对应的简称字段;图13为一个实施例中百度词条网页的示意图,图中包括有“中国工商银行”以及“奥林匹克运动会”这两个百度词条网页,终端可以从百度网页的网页数据中获取机构名全称,并抽取正文数据中“简称”后的字段作为机构名训练样本对应的简称字段。S904,提取机构名训练样本中各字符的文本特征,并根据简称字段对机构名训练样本中各字符标注属性标识。终端对抓取获得的机构名训练样本进行特征提取,获取各个字符对应的文本特征,并根据简称字段中各个字符,对机构名训练样本中的字符标注属性标识。具体的,终端可以对机构名训练样本中与简称字段相同的字符标注简称字段标识,对剩余的字符标注非简称字段标识。S906,根据机构名训练样本中各字符的文本特征以及属性标识生成机构名训练数据。具体的,终端可以将多个文本特征以及其简称字段构造成形如表1的机构名训练数据,后续利用机构名训练数据对机器学习模型进行训练。本实施例中,通过抓取多个机构名训练样本及其简称字段生成机构名训练数据,以用于机器学习模型的训练,使得机器学习模型能够用于对机构名简称进行预测。进一步的,在一个实施例中,终端获取各个百度词条数据的搜索频次,将搜索频次低于一定阈值的百度词条数据删除,保留搜索频次较高的百度词条数据,使得索频次低于一定阈值、置信度较低的百度词条数据滤除,有效提高机构名训练数据的置信度。图14为另一个实施例中机构名简称的预测方法的流程示意图。如图14所示,在一个实施例中,机构名简称的预测方法还包括:S1002,获取机构名文本。S1004,提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征。S1006,将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识。S1008,根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。S1010,根据机构名文本以及机构名文本对应的简称字段生成机构名同义词词典。具体的,终端在获取到大量的机构名文本、以及利用预先训练好的机器学习模型获取的机构文本的简称字段后,将机构名文本及其简称字段一一对应保存,生成机构名同义词词典。S1012,在获得待预测的机构名文本后,在机构名同义词词典中查询待预测的机构名文本的简称字段。在终端获取到待预测的机构名文本后,终端在机构名同义词词典中直接查询与待预测的机构名文本对应的简称字段,提高机构名简称的获取速率。本实施例中,终端利用预先训练好的机器学习模型对大量的机构名文本的简称字段进行预测,生成这些原始机构名对应的简称,并将机构名文本以及对应的简称进行保存,得到大规模、泛化性强的机构名同义词词典,在后续获取待预测的机构名文本后,可以直接在机构名同义词词典中查询与之对应的简称字段,提高机构名简称的预测速率。进一步的,在获得机构名同义词词典后,终端可以获取各个机构名文本的搜索频次,并对搜索频次较高的机构名文本及其简称字段进行二次审核,修正错误的机构名文本的简称字段,提高机构名简称获取的准确性。应该理解的是,虽然图3至图14的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3至图14中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。如图15所示,在一个实施例中,提供一种机构名简称的预测装置1100,该装置1100包括文本获取模块1101、文本特征获取模块1102、属性标识获取模块1103以及简称字段获取模块1104,其中,文本获取模块1101,用于获取机构名文本;文本特征获取模块1102,用于提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;属性标识获取模块1103,用于将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识;简称字段获取模块1104,用于根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。在一个实施例中,字符特征包括三元字符关系特征以及二元字符关系特征;文本特征获取模块1102,用于从机构名文本中分割出字符;获取各字符的三元字符关系特征以及二元字符关系特征,三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息。在一个实施例中,文本特征获取模块1102,用于对机构名文本进行分词处理,获得机构名文本中的词序列;获取词序列的词性,并获取用于表示词性的特征编码;将词性的特征编码作为词序列内各字符的词性特征。在一个实施例中,文本特征获取模块1102,还用于确定词序列中的首字符,并生成用于表示首字符的特征编码;将首字符的特征编码确定为词序列中首字符对应字符的分词特征。在一个实施例中,后缀名特征包括机构名后缀特征;文本特征获取模块1102,还用于将词序列分别与机构后缀名词典中的机构后缀名进行匹配;根据匹配成功的目标机构后缀名生成机构名后缀特征;将机构名后缀特征确定为词序列中各字符的后缀名特征。在一个实施例中,后缀名特征包括地址后缀特征;文本特征获取模块1102,还用于确定词序列的尾字符;将尾字符分别与地址后缀名词典中的地址后缀名进行匹配;根据匹配成功的目标地址后缀名生成地址后缀特征;将地址后缀特征确定为词序列中尾字符对应字符的后缀名特征。图16为另一个实施例中的机构名简称的预测装置的结构框图。参见图16,该机构名预测装置还包括训练数据获取模块1105以及模型训练模块1106;其中,训练数据获取模块1105,用于获取机构名训练数据,机构名训练数据包括机构名训练样本中各字符的文本特征以及机构名训练样本中各字符对应的属性标识;模型训练模块1106,用于将机构名训练样本中各字符的文本特征作为输入特征、机构名训练样本中各字符对应的属性标识作为输出特征,对机器学习模型进行训练,得到训练后的机器学习模型。在一个实施例中,训练数据获取模块1105,用于抓取机构名训练样本以及机构名训练样本对应的简称字段;提取机构名训练样本中各字符的文本特征,并根据简称字段对机构名训练样本中各字符标注属性标识;根据机构名训练样本中各字符的文本特征以及属性标识生成机构名训练数据。图17为又一个实施例中的机构名简称的预测装置的结构框图。参见图17,该机构名预测装置还包括词典生成模块1107以及简称字段查询模块1108,其中:词典生成模块1107,用于根据机构名文本以及机构名文本对应的简称字段生成机构名同义词词典;简称字段查询模块1108,用于在获得待预测的机构名文本后,在机构名同义词词典中查询待预测的机构名文本的简称字段。在一个实施例中,属性标识包括简称字段标识以及非简称字段标识;简称字段获取模块1104,用于滤除机构名文本中属性标识为非简称字段标识的字符;依次输出属性标识为简称字段标识的字符,得到机构名文本的简称字段。在一个实施例中,机器学习模型包括条件随机场算法模型、最大熵模型或隐马尔可夫模型中的一种。在一个实施例中,本申请提供的机构名简称的预测装置可以实现为一种计算机程序的形式,计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该机构名简称的预测装置的各个程序模块,比如,图14所示的文本获取模块1101、文本特征获取模块1102、属性标识获取模块1103以及简称字段获取模块1104。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的机构名简称的预测方法中的步骤。例如,图2所示的计算机设备可以通过如图15所示的机构名简称的预测装置中的文本获取模块1101执行步骤S202。计算机设备可通过文本特征获取模块1102执行步骤S204。计算机设备可通过属性标识获取模块1103执行步骤S206。计算机设备可通过简称字段获取模块1104执行步骤S208。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取机构名文本;提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识;根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。在一个实施例中,字符特征包括三元字符关系特征以及二元字符关系特征;计算机程序使得处理器还执行以下步骤:从机构名文本中分割出字符;获取各字符的三元字符关系特征以及二元字符关系特征,三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息。在一个实施例中,计算机程序使得处理器还执行以下步骤:对机构名文本进行分词处理,获得机构名文本中的词序列;获取词序列的词性,并获取用于表示词性的特征编码;将词性的特征编码作为词序列内各字符的词性特征。在一个实施例中,计算机程序使得处理器还执行以下步骤:确定词序列中的首字符,并生成用于表示首字符的特征编码;将首字符的特征编码确定为词序列中首字符对应字符的分词特征。在一个实施例中,后缀名特征包括机构名后缀特征;计算机程序使得处理器还执行以下步骤:将词序列分别与机构后缀名词典中的机构后缀名进行匹配;根据匹配成功的目标机构后缀名生成机构名后缀特征;将机构名后缀特征确定为词序列中各字符的后缀名特征。在一个实施例中,后缀名特征包括地址后缀特征;计算机程序使得处理器还执行以下步骤:确定词序列的尾字符;将尾字符分别与地址后缀名词典中的地址后缀名进行匹配;根据匹配成功的目标地址后缀名生成地址后缀特征;将地址后缀特征确定为词序列中尾字符对应字符的后缀名特征。在一个实施例中,计算机程序使得处理器还执行以下步骤:获取机构名训练数据,机构名训练数据包括机构名训练样本中各字符的文本特征以及机构名训练样本中各字符对应的属性标识;将机构名训练样本中各字符的文本特征作为输入特征、机构名训练样本中各字符对应的属性标识作为输出特征,对机器学习模型进行训练,得到训练后的机器学习模型。在一个实施例中,计算机程序使得处理器还执行以下步骤:抓取机构名训练样本以及机构名训练样本对应的简称字段;提取机构名训练样本中各字符的文本特征,并根据简称字段对机构名训练样本中各字符标注属性标识;根据机构名训练样本中各字符的文本特征以及属性标识生成机构名训练数据。在一个实施例中,计算机程序使得处理器还执行以下步骤:根据机构名文本以及机构名文本对应的简称字段生成机构名同义词词典;在获得待预测的机构名文本后,在机构名同义词词典中查询待预测的机构名文本的简称字段。在一个实施例中,属性标识包括简称字段标识以及非简称字段标识;计算机程序使得处理器还执行以下步骤:滤除机构名文本中属性标识为非简称字段标识的字符;依次输出属性标识为简称字段标识的字符,得到机构名文本的简称字段。在一个实施例中,机器学习模型包括条件随机场算法模型、最大熵模型或隐马尔可夫模型中的一种。在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,实现以下步骤:获取机构名文本;提取机构名文本中各字符的文本特征,文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将文本特征输入至预先训练好的机器学习模型中,得到机器学习模型输出的机构名文本中各个字符对应的属性标识;根据机构名文本中各字符的属性标识,确定机构名文本的简称字段。在一个实施例中,字符特征包括三元字符关系特征以及二元字符关系特征;计算机程序使得处理器在执行提取机构名文本中各字符的文本特征的步骤时,具体执行以下步骤:从机构名文本中分割出字符;获取各字符的三元字符关系特征以及二元字符关系特征,三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息。在一个实施例中,计算机程序使得处理器在执行提取机构名文本中各字符的文本特征的步骤时,具体执行以下步骤:对机构名文本进行分词处理,获得机构名文本中的词序列;获取词序列的词性,并获取用于表示词性的特征编码;将词性的特征编码作为词序列内各字符的词性特征。在一个实施例中,计算机程序使得处理器还执行以下步骤:确定词序列中的首字符,并生成用于表示首字符的特征编码;将首字符的特征编码确定为词序列中首字符对应字符的分词特征。在一个实施例中,后缀名特征包括机构名后缀特征;计算机程序使得处理器还执行以下步骤:将词序列分别与机构后缀名词典中的机构后缀名进行匹配;根据匹配成功的目标机构后缀名生成机构名后缀特征;将机构名后缀特征确定为词序列中各字符的后缀名特征。在一个实施例中,后缀名特征包括地址后缀特征;计算机程序使得处理器还执行以下步骤:确定词序列的尾字符;将尾字符分别与地址后缀名词典中的地址后缀名进行匹配;根据匹配成功的目标地址后缀名生成地址后缀特征;将地址后缀特征确定为词序列中尾字符对应字符的后缀名特征。在一个实施例中,计算机程序使得处理器还执行以下步骤:获取机构名训练数据,机构名训练数据包括机构名训练样本中各字符的文本特征以及机构名训练样本中各字符对应的属性标识;将机构名训练样本中各字符的文本特征作为输入特征、机构名训练样本中各字符对应的属性标识作为输出特征,对机器学习模型进行训练,得到训练后的机器学习模型。在一个实施例中,计算机程序使得处理器执行获取机构名训练样本的步骤时,具体执行以下步骤:抓取机构名训练样本以及机构名训练样本对应的简称字段;提取机构名训练样本中各字符的文本特征,并根据简称字段对机构名训练样本中各字符标注属性标识;根据机构名训练样本中各字符的文本特征以及属性标识生成机构名训练数据。在一个实施例中,计算机程序使得处理器还执行以下步骤:根据机构名文本以及机构名文本对应的简称字段生成机构名同义词词典;在获得待预测的机构名文本后,在机构名同义词词典中查询待预测的机构名文本的简称字段。在一个实施例中,属性标识包括简称字段标识以及非简称字段标识;计算机程序使得处理器执行根据机构名文本中各字符的属性标识,确定机构名文本的简称字段的步骤时,具体执行以下步骤:滤除机构名文本中属性标识为非简称字段标识的字符;依次输出属性标识为简称字段标识的字符,得到机构名文本的简称字段。在一个实施例中,机器学习模型包括条件随机场算法模型、最大熵模型或隐马尔可夫模型中的一种。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

权利要求:1.一种机构名简称的预测方法,包括:获取机构名文本;提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。2.根据权利要求1所述的方法,其特征在于,所述字符特征包括三元字符关系特征以及二元字符关系特征;所述提取所述机构名文本中各字符的文本特征的步骤,包括:从所述机构名文本中分割出字符;获取各字符的三元字符关系特征以及二元字符关系特征,所述三元字符关系特征用于表征当前字符、当前字符的前一字符以及当前字符的后一字符的信息,所述二元字符关系特征用于表征当前字符以及当前字符的后一字符的信息。3.根据权利要求1所述的方法,其特征在于,所述提取所述机构名文本中各字符的文本特征的步骤,包括:对所述机构名文本进行分词处理,获得所述机构名文本中的词序列;获取所述词序列的词性,并获取用于表示所述词性的特征编码;将所述词性的特征编码作为所述词序列内各字符的词性特征。4.根据权利要求3所述的方法,其特征在于,所述对所述机构名文本进行分词处理,获得所述机构名文本中的词序列的步骤之后,还包括:确定所述词序列中的首字符,并生成用于表示所述首字符的特征编码;将所述首字符的特征编码确定为所述词序列中首字符对应字符的分词特征。5.根据权利要求3所述的方法,其特征在于,所述后缀名特征包括机构名后缀特征;所述对所述机构名文本进行分词处理,获得所述机构名文本中的词序列的步骤之后,还包括:将所述词序列分别与机构后缀名词典中的机构后缀名进行匹配;根据匹配成功的目标机构后缀名生成机构名后缀特征;将所述机构名后缀特征确定为所述词序列中各字符的后缀名特征。6.根据权利要求3所述的方法,其特征在于,所述后缀名特征包括地址后缀特征;所述对所述机构名文本进行分词处理,获得所述机构名文本中的词序列的步骤之后,还包括:确定所述词序列的尾字符;将所述尾字符分别与地址后缀名词典中的地址后缀名进行匹配;根据匹配成功的目标地址后缀名生成地址后缀特征;将所述地址后缀特征确定为所述词序列中尾字符对应字符的后缀名特征。7.根据权利要求1所述的方法,其特征在于,所述获取机构名文本的步骤之前,还包括:获取机构名训练数据,所述机构名训练数据包括机构名训练样本中各字符的文本特征以及所述机构名训练样本中各字符对应的属性标识;将所述机构名训练样本中各字符的文本特征作为输入特征、所述机构名训练样本中各字符对应的属性标识作为输出特征,对所述机器学习模型进行训练,得到训练后的机器学习模型。8.根据权利要求7所述的方法,其特征在于,所述获取机构名训练样本的步骤,包括:抓取机构名训练样本以及所述机构名训练样本对应的简称字段;提取所述机构名训练样本中各字符的文本特征,并根据所述简称字段对所述机构名训练样本中各字符标注属性标识;根据所述机构名训练样本中各字符的文本特征以及属性标识生成机构名训练数据。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述机构名文本以及所述机构名文本对应的简称字段生成机构名同义词词典;在获得待预测的机构名文本后,在所述机构名同义词词典中查询所述待预测的机构名文本的简称字段。10.根据权利要求1所述的方法,其特征在于,所述属性标识包括简称字段标识以及非简称字段标识;所述根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段的步骤,包括:滤除所述机构名文本中属性标识为非简称字段标识的字符;依次输出属性标识为简称字段标识的字符,得到所述机构名文本的简称字段。11.根据权利要求1所述的方法,其特征在于,所述机器学习模型包括条件随机场算法模型、最大熵模型或隐马尔可夫模型中的一种。12.一种机构名简称的预测装置,其特征在于,所述装置包括:文本获取模块,用于获取机构名文本;文本特征获取模块,用于提取所述机构名文本中各字符的文本特征,所述文本特征至少包括字符特征、后缀名特征、分词特征和或词性特征;属性标识获取模块,用于将所述文本特征输入至预先训练好的机器学习模型中,得到所述机器学习模型输出的所述机构名文本中各个字符对应的属性标识;简称字段获取模块,用于根据所述机构名文本中各字符的属性标识,确定所述机构名文本的简称字段。13.根据权利要求12所述的装置,其特征在于,所述装置还包括:训练数据获取模块,用于获取机构名训练数据,所述机构名训练数据包括机构名训练样本中各字符的文本特征以及所述机构名训练样本中各字符对应的属性标识;模型训练模块,用于将所述机构名训练样本中各字符的文本特征作为输入特征、所述机构名训练样本中各字符对应的属性标识作为输出特征,对所述机器学习模型进行训练,得到训练后的机器学习模型。14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

百度查询: 腾讯科技(深圳)有限公司 机构名简称的预测方法、装置和计算机设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。