买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种公司名的商号抽取方法_浪潮软件股份有限公司_201811258104.7 

申请/专利权人:浪潮软件股份有限公司

申请日:2018-10-26

公开(公告)日:2019-03-26

公开(公告)号:CN109522417A

主分类号:G06F16/36(2019.01)I

分类号:G06F16/36(2019.01)I;G06F16/33(2019.01)I

优先权:

专利状态码:失效-发明专利申请公布后的驳回

法律状态:2024.01.05#发明专利申请公布后的驳回;2019.04.19#实质审查的生效;2019.03.26#公开

摘要:本发明公开了一种公司名的商号抽取方法,具体方法包括,首先进行文本预处理,通过对文本进行分词预处理得到最小的词义单元;其次构建符合格式要求的行政区划词典、组织形式词典和行业词典,并将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中,进行准确分词;获得行政区划和行业在字符串中的位置信息;通过行政区划和行业位置信息,计算获得商号的位置信息;根据商号的位置信息,抽取商号的字符串。本发明的一种公司名的商号抽取方法和现有技术相比,减少了人工标注的繁琐工作,减少了人力成本及时间成本。

主权项:1.一种公司名的商号抽取方法,其特征在于,具体方法如下:首先进行文本预处理,通过对文本进行分词预处理得到最小的词义单元;其次构建符合格式要求的行政区划词典、组织形式词典和行业词典,并将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中,进行准确分词;获得行政区划和行业在字符串中的位置信息;通过行政区划和行业位置信息,计算获得商号的位置信息;根据商号的位置信息,抽取商号的字符串。

全文数据:一种公司名的商号抽取方法技术领域本发明涉及自然语言处理技术领域,具体地说是一种公司名的商号抽取方法。背景技术公司名的商号抽取,在很多领域有着应用,比如搜索引擎的输入框补全、公司名实体链接中的匹配算法。目前,公司名主要有以下四个部分组成,公司所在地的行政区划名称、公司商号或字号、行业、组织形式。由于公司命名的特殊性,自然语言处理领域的分词器一般不能把公司名的商号分出来。目前的机器学习包含深度学习虽然在精度上有一定的优势如:现有的一种基于深度学习的公司名成分抽取系统和方法申请号:201710024098.8,方法包括,采集公司名并人工标注其各个成分:将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆LSTM模型的输入,根据所述标注的向量训练,所述的LSTM模型,将公司名向量输入训练后LSTM模型,输出标注结果;将所述的LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。但是,存在的弊端为,需要大量的人工标注,而且人工标注的成本比较高。发明内容本发明的技术任务是针对以上不足之处,提供一种公司名的商号抽取方法。本发明解决其技术问题所采用的技术方案是:一种公司名的商号抽取方法,具体方法如下:首先进行文本预处理,通过对文本进行分词预处理得到最小的词义单元;其次构建符合格式要求的行政区划词典、组织形式词典和行业词典,并将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中,进行准确分词;获得行政区划和行业在字符串中的位置信息;通过行政区划和行业位置信息,计算获得商号的位置信息;根据商号的位置信息,抽取商号的字符串。进一步的,优选的方法如下:行业词典的构建包括,对文本进行分词预处理后构建符合格式要求的行政区划词典、组织形式词典,对分词结果进行频率统计,去掉低频量信息,去掉行政区划词典和组织形式词典里的信息,爬取得到行业信息,从而形成行业词典。进一步的,优选的方法如下:构建行业词典时还包括人工验证环节和行业词典完备环节;人工验证环节,用于修正爬取到的行业信息;行业词典完备环节,用于将爬取到的行业信息与已有的相应的行业词典合并。进一步的,优选的方法如下:所述的文本预处理包括通过正则表达式或字典匹配去除冗余信息,冗余信息包括标点符号、空格、空白行中的一种或者几种。一种公司名的商号抽取系统,包括文本预处理模块、分词器词典加载并分词模块、行政区划和行业位置信息获取模块、商号位置信息获取模块以及商号抽取模块;文本预处理模块,用于通过对文本进行分词预处理得到最小的词义单元;分词器词典加载并分词模块,用于构建符合格式要求的行政区划词典、组织形式词典和行业词典,并将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中,进行准确分词;行政区划和行业位置信息获取模块,用于获得行政区划和行业在字符串中的位置信息;商号位置信息获取模块,用于通过行政区划和行业位置信息,计算获得商号的位置信息;商号抽取模块,根据商号的位置信息,抽取商号的字符串。进一步的,优选的结构如下:所述的分词器词典加载并分词模块,包括词典构建单元、词典加载单元、分词单元;词典构建单元,用于构建符合格式要求的行政区划词典、组织形式词典和行业词典;词典加载单元,用于将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中;分词单元,用于准确分词。进一步的,优选的结构如下:还包括人工验证单元和行业词典合并单元;对文本进行分词预处理后构建符合格式要求的行政区划词典、组织形式词典,对分词结果进行频率统计,去掉低频量信息,去掉行政区划词典和组织形式词典里的信息,爬取得到行业信息;人工验证单元,用于修正爬取到的行业信息;行业词典合并单元,用于将爬取到的行业信息与已有的相应的行业词典合并。进一步的,优选的结构如下:所述的服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。本发明的一种公司名的商号抽取方法和现有技术相比,有益效果如下:本发明可应用于垂直搜索领域中查询补全,可以迅速得到用户查询的信息;本发明可应用于公司名实体链接中的匹配算法,通过赋予不同的权重计算公司名的相似度;本发明可应用于需要通过机器学习深度学习训练大量标注语料对公司名进行自动标注的场景。附图说明下面结合附图对本发明进一步说明。附图1为一种公司名的商号抽取方法的流程框图。附图2为一种公司名的商号抽取系统的原理框图。具体实施方式下面结合附图和具体实施例对本发明作进一步说明。本发明为一种公司名的商号抽取方法,旨在通过统计及词典匹配的方法进行商号抽取。本发明的方法包括,首先分词处理,对文本数据进行预处理,去除特殊字符,进行分词处理;其次构建行政区划词典,通过对国家行政区划的整理,构建符合方法要求的格式;然后构建行业词典,根据对分词结果进行频率统计,根据频率特征抽取行业名称,并进行人工校对,与已有的行业词典进行合并;最后通过准确分词,根据行政区划与行业的位置信息,来抽取出商号信息。实施例1:具体实施方法如下:首先进行数据预处理:从企业名录库抽到的数据包含企业的唯一标志号和企业名称两项,从数据中可以看到,包含许多标点符号、空格、空白行。如下:这些信息是在录入的过程中误操作形成的,所以首先需要去除这些冗余信息,通过正则表达式,可以有效地去除。对于企业名称为空字符串的情况,不考虑。然后构建行政区划词典:从公开的行政区划网上,有从国家、省份直辖市、市、县区、乡镇街道办、村社区完整的区划编码及名称。我们通过对其整理出符合格式要求的词典同理去构建组织形式词典,如下所示:其次去构建行业词典:通过采用分词器对每条企业名称进行分词处理,目的是得到最小的词义单元。对得到的分词结果分析后,发现绝大部分的商号都分不准确而且名字一般是不重名的,所以商号部分是个低频量,而行政区划与组织形式相对是固定不变的,比较好区分。所以通过对分词结果的频率统计后,去掉低频量,去掉行政区划字典里面包含的部分,再去掉组织形式的词典,最后剩下的就是行业信息了。但是里面会有差错,通过人工验证的方式,确保正确无误。考虑到完备性,爬取了一些行业词典,然后与本行业词典合并。最后,形成了行业词典。把上述的整理成的行政区划词典和行业词典,以自定义词典的形式加载到分词器里面,可以确保分词的过程中,信息单元不会被误拆。再次查找行政区划位置和行业位置标志:可以从分词结果中,可以获得行政区域和行业在字符串中的位置信息;最终,通过行政区域和行业在字符串中的位置信息,通过两者位置相减,就可以得到商号的位置信息,进而取出商号字符串。本发明的方法可应用于垂直搜索领域中查询补全,可以迅速得到用户查询的信息;可应用于公司名实体链接中的匹配算法,通过赋予不同的权重计算公司名的相似度;可应用于需要通过机器学习深度学习训练大量标注语料对公司名进行自动标注的场景。通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

权利要求:1.一种公司名的商号抽取方法,其特征在于,具体方法如下:首先进行文本预处理,通过对文本进行分词预处理得到最小的词义单元;其次构建符合格式要求的行政区划词典、组织形式词典和行业词典,并将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中,进行准确分词;获得行政区划和行业在字符串中的位置信息;通过行政区划和行业位置信息,计算获得商号的位置信息;根据商号的位置信息,抽取商号的字符串。2.根据权利要求1所述的一种公司名的商号抽取方法,其特征在于,行业词典的构建包括,对文本进行分词预处理后构建符合格式要求的行政区划词典、组织形式词典,对分词结果进行频率统计,去掉低频量信息,去掉行政区划词典和组织形式词典里的信息,爬取得到行业信息,从而形成行业词典。3.根据权利要求2所述的一种公司名的商号抽取方法,其特征在于,构建行业词典时还包括人工验证环节和行业词典完备环节;人工验证环节,用于修正爬取到的行业信息;行业词典完备环节,用于将爬取到的行业信息与已有的相应的行业词典合并。4.根据权利要求1所述的一种公司名的商号抽取方法,其特征在于,所述的文本预处理包括通过正则表达式或者字典匹配去除冗余信息,冗余信息包括标点符号、空格、空白行中的一种或者几种。5.一种公司名的商号抽取系统,其特征在于,包括文本预处理模块、分词器词典加载并分词模块、行政区划和行业位置信息获取模块、商号位置信息获取模块以及商号抽取模块;文本预处理模块,用于通过对文本进行分词预处理得到最小的词义单元;分词器词典加载并分词模块,用于构建符合格式要求的行政区划词典、组织形式词典和行业词典,并将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中,进行准确分词;行政区划和行业位置信息获取模块,用于获得行政区划和行业在字符串中的位置信息;商号位置信息获取模块,用于通过行政区划和行业位置信息,计算获得商号的位置信息;商号抽取模块,根据商号的位置信息,抽取商号的字符串。6.根据权利要求5所述的一种公司名的商号抽取系统,其特征在于,所述的分词器词典加载并分词模块,包括词典构建单元、词典加载单元、分词单元;词典构建单元,用于构建符合格式要求的行政区划词典、组织形式词典和行业词典;词典加载单元,用于将行政区划词典、组织形式词典和行业词典以自定义词典的形式加载到分词器中;分词单元,用于准确分词。7.根据权利要求6所述的一种公司名的商号抽取系统,其特征在于,还包括人工验证单元和行业词典合并单元;对文本进行分词预处理后构建符合格式要求的行政区划词典、组织形式词典,对分词结果进行频率统计,去掉低频量信息,去掉行政区划词典和组织形式词典里的信息,爬取得到行业信息;人工验证单元,用于修正爬取到的行业信息;行业词典合并单元,用于将爬取到的行业信息与已有的相应的行业词典合并。8.一种用于公司名的商号抽取的服务器,其特征在于,所述的服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

百度查询: 浪潮软件股份有限公司 一种公司名的商号抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。