买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】校验行业文本的方法和装置_北京国双科技有限公司_201611256002.2 

申请/专利权人:北京国双科技有限公司

申请日:2016-12-29

公开(公告)日:2020-07-31

公开(公告)号:CN108255887B

主分类号:G06F16/33(20190101)

分类号:G06F16/33(20190101);G06F16/953(20190101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.31#授权;2018.07.31#实质审查的生效;2018.07.06#公开

摘要:本发明公开了一种校验行业文本的方法和装置。其中,该方法包括:建立第一数据库,其中,第一数据库用于存储行业人员的职位顺序;根据第一知识库建立第二数据库和第三数据库,其中,第二数据库用于存储行业人员的姓名,第三数据库用于存储行业人员的职位;根据第一数据库、第二数据库以及第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。本发明解决了现有的校验行业文本的方法任务量大以及校验精度低的技术问题。

主权项:1.一种校验行业文本的方法,其特征在于,包括:建立第一数据库,其中,所述第一数据库用于存储行业人员的职位顺序;根据所述第一数据库建立第二数据库和第三数据库,其中,所述第二数据库用于存储所述行业人员的姓名,所述第三数据库用于存储所述行业人员的职位;根据所述第一数据库、所述第二数据库以及所述第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验;根据所述第一数据库建立第二数据库和第三数据库包括:获取至少一个行业文本中的所述行业人员的姓名以及所述行业人员对应的职位;根据所述第一数据库判断所述行业人员的姓名与所述行业人员的职位是否匹配;在所述行业人员的姓名与所述行业人员的职位不相匹配的情况下,存储所述行业人员的姓名至所述第二数据库中以及存储所述行业人员的职位至所述第三数据库中。

全文数据:校验行业文本的方法和装置技术领域[0001]本发明涉及数据库领域,具体而言,涉及一种校验行业文本的方法和装置。背景技术[0002]随着信息化的飞速发展,人们获取信息资源的渠道越来越多。但在人们获取信息的同时,也会发现信息中出现了许多错误,尤其在新闻、报告等资源中的错误将会带来严重的影响。在政府行业中的新闻发布稿中常会出现政府行业人员名字错误、职位错误以及顺序排列错误等问题,例如,市长姓名在新闻的发布稿中的顺序是在市委书记或省长之前。类似上述问题需要校验人员有非常的敏感性和专业性才能发现,并且也不能保证100%的准确度。而目前多采用人工对信息资源中的错误进行校正,这种方法使得信息校验人员的任务量非常大,而且效率还比较低。[0003]针对上述现有的校验行业文本的方法任务量大以及校验精度低的问题,目前尚未提出有效的解决方案。发明内容[0004]本发明实施例提供了一种校验行业文本的方法和装置,以至少解决现有的校验行业文本的方法任务量大以及校验精度低的技术问题。[0005]根据本发明实施例的一个方面,提供了一种校验行业文本的方法,包括:建立第一数据库,其中,第一数据库用于存储行业人员的职位顺序;根据第一数据库建立第二数据库和第三数据库,其中,第二数据库用于存储行业人员的姓名,第三数据库用于存储行业人员的职位;根据第一数据库、第二数据库以及第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。[0006]根据本发明实施例的另一方面,还提供了一种校验行业文本的装置,包括:第一建立模块,用于建立第一知识库,其中,第一数据库用于存储行业人员的职位顺序;第二建立模块,用于根据第一数据库建立第二数据库以及第三数据库,其中,第二数据库用于存储行业人员的姓名,第三数据库用于存储行业人员的职位;校验模块,用于根据第一数据库、第二数据库以及第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。[0007]在本发明实施例中,采用机器校验行业文本的方式,通过建立第一数据库,并根据第一数据库建立第二数据库和第三数据库,最后根据第一数据库、第二数据库和第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验,达到了对行业人员的姓名、职位以及顺序进行精确校验的目的,从而实现了减少文本校验人员的任务量以及提高校验精度的技术效果,进而解决了现有的校验行业文本的方法任务量大以及校验精度低的技术问题。附图说明[0008]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0009]图1是根据本发明实施例的一种校验行业文本的方法流程图;[0010]图2是根据本发明实施例的一种可选的校验行业文本的方法流程图;[0011]图3是根据本发明实施例的一种可选的校验行业文本的方法流程图;[0012]图4是根据本发明实施例的一种可选的校验行业文本的方法流程图;[0013]图5是根据本发明实施例的一种可选的校验行业文本的方法流程图;[00M]图6是根据本发明实施例的一种可选的校验行业文本的方法流程图;以及[0015]图7是根据本发明实施例的一种校验行业文本的装置结构示意图。具体实施方式[0016]为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。[0017]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。[0018]实施例1[0019]根据本发明实施例,提供了一种校验行业文本的方法实施例。[0020]图1是根据本发明实施例的校验行业文本的方法流程图,如图1所示,该方法包括如下步骤:[0021]步骤S102,建立第一数据库,其中,第一数据库用于存储行业人员的职位顺序。[0022]在一种可选的实施例中,上述第一数据库可以为政府人员知识库,该政府人员知识库可以用来存储政府行业人员的职位顺序。此外,该政府人员知识库还可用来存储政府人员的姓名、政府人员的职位、该政府人员的任职日期、任职地区、职位级别等结构化数据。根据一定的数据格式,将上述结构化数据存储在数据库中,即可建立上述政府人员知识库。[0023]需要说明的是,在第一数据库中存储结构化数据,通过提取待测文本中的人员姓名以及人员职位等相关数据,并与存储在第一数据库中的结构化数据进行匹配,根据匹配结果对待测文本进行校验,可以达到机器校验与人工校验相结合,减少校验人员任务量的目的。[0024]此外,还需要说明的是,上述存储在政府人员知识库中的结构化数据可以通过机器爬取的方法从官方职位网站以及权威的杂志、报纸等媒体中获得。[0025]步骤S104,根据第一数据库建立第二数据库和第三数据库,其中,第二数据库用于存储行业人员的姓名,第三数据库用于存储行业人员的职位。[0026]在一种可选的实施例中,上述第二数据库为政府人名错误知识库,上述第三数据库为政府人员错误职位库。其中,政府人员错误知识库用于存储疑似错误人名,疑似错误人名指政府人员的姓名与其职位不相符时出现的错误人名;政府人员错误职位库用于存储疑似错误职位,疑似错误职位指政府人员的姓名与其职位不相符时出现的错误职位。上述错误人名是通过政府人员的姓名查询第一数据库中的该政府人员的姓名对应的职位,并与政府行业文本中该政府人员所对应的职位进行匹配,如果匹配失败,则将该政府人员的姓名存入政府人员错误知识库,并将政府行业文本中该政府人员对应的错误职位存入政府人员错误职位库中。[0027]需要说明的是,根据政府人员的错误人名以及政府人员的错误职位建立两个不同的数据库,这两个数据库查询的侧重点有所不同,一个侧重政府人员错误姓名的查询,一个侧重政府人员错误职位的查询,上述对数据库的设计有利于后续对上述数据库进行开发。[0028]步骤S106,根据第一数据库、第二数据库以及第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。[0029]在上述步骤S106中,由于上述政府人员数据库存储了政府行业相关人员的职位顺序,因此,在待测文本中包含多个连在一起的政府人员的姓名的情况下,提取出上述多个政府人员的姓名,并对上述多个政府人员的姓名依次进行排序,将上述排序结果与政府人员知识库中的人员职位顺序进行对比,其中,政府人员知识库中的职位顺序是按照职位级别由高到低的顺序进行排序的。如果出现高级别的人员排在低级别的人员后面,则说明该待测文本出现了错误,文本校验人员可根据该错误对待测文本进行校验。同样的,根据政府人名错误知识库可以查询到待测文本中的错误人名以及根据政府人员错误职位库可以查询到待测文本中的错误职位,文本校验人员可以根据待测文本中的错误人名以及错误职位对待测文本进行校验。[0030]上述步骤S106的校验方法大大节省了文本校验人员的工作时间,减少了校验人员的任务量,提高了校验效率以及校验的精度。[0031]基于上述实施例中步骤S102至步骤S106所公开的方案,可以获知通过建立第一数据库,并根据第一数据库建立第二数据库和第三数据库,最后根据第一数据库、第二数据库和第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验,容易注意到的是,由于建立上述第一数据库的数据是通过机器爬取的方法从各个权威的媒体中获得的,因此,可以有效的节省人力物力,达到了对行业人员的姓名、职位以及顺序进行精确校验的目的,从而实现了减少文本校验人员的任务量以及提高校验精度的技术效果,进而解决了现有的校验行业文本的方法任务量大以及校验精度低的技术问题。[0032]可选的,图2示出了一种可选的校验行业文本的方法流程图,如图2所示,该方法包括如下步骤:[0033]步骤S202,获取至少一个行业文本;[0034]步骤S204,提取至少一个行业文本中的行业人员的参数,其中,行业人员的参数至少包括如下之一:行业人员的姓名、行业人员的职位以及行业人员的职位顺序;[0035]步骤S206,建立行业人员的参数之间的关联关系;[0036]步骤S208,根据关联关系建立第一数据库。[0037]在一种可选的实施例中,上述行业文本可以为各个行业的文本,例如政府行业的文本。获取上述行业文本例如政府行业的文本可以通过机器爬取的方法获得,例如,可以通过网页爬取器获取官方职位网站上的文本。此外,除获取官方职位网站上的文本外,还可以获取人民日报以及各省门户网站等权威媒体的文本。在得到各个行业的文本之后,通过使用自然语言处理方法识别出上述文本中的人名,并通过对文本中该人名前后位置的词语进行提取,获得该人名所对应的职位,并将该人名以及与其对应的职位存入数据库中,例如,“XXX董事长张三受邀出席YYY座谈会”从该句中,提取出人名“张三”,以及人名之前的职位“董事长”。[0038]需要说明的是,在将上述相关行业人员的姓名以及职位存入第一数据库的同时,也会存入该职位对应的顺序,例如,省长对应的职位顺序是12,市长对应的职位顺序是13。[0039]此外,还需要说明的是,上述相关行业人员的参数之间的关联关系可以如表1所示的关联关系,通过表1中的任意一项参数可以查询到其他参数的信息。同样,在第一数据库中也以表1所示的格式对相关行业人员的参数进行存储。[0040]表1[0042]可选的,图3示出了一种可选的校验行业文本的方法流程图,如图3所示,该方法包括如下步骤:[0043]步骤S302,获取至少一个行业文本中的行业人员的姓名以及行业人员对应的职位;[0044]步骤S304,根据第一知识库判断行业人员的姓名与行业人员的职位是否匹配;[0045]步骤S306,在行业人员的姓名与行业人员的职位不相匹配的情况下,存储行业人员的姓名至第二数据库中以及存储行业人员的职位至第三数据库中。[0046]在上述步骤S302至步骤S306所公开的方案中,在完成第一数据库的建立之后,以第一数据库为依据,分别根据相关行业文本中的人名以及职位的对应关系建立第二数据库和第三数据库,其中,在政府行业中,第二数据库为政府人员错误人名知识库,第三数据库为政府人员错误职务库。首先,根据政府行业的文本判断该文本中出现的人名与其对应的职位是否相匹配,如果不相匹配,则将该人名标记为疑似错误人名,该职位标记为错误职位,并将该错误人名存入政府人员错误人名知识库,将该错误职位存入政府人员错误职务库。[0047]需要说明的是,为了提高文本校验的精确度,在将相关行业文本中的人名标记为疑似错误人名之后,需要人工再次对其进行核对,并将核对之后的结果存入政府人名错误知识库中。同样,对于错误职位也需要人工再次对其进行核对,并将核对之后的结果存入政府人员错误职位库中。[0048]可选的,图4示出了一种可选的校验行业文本的方法流程图,如图4所示,该方法包括如下步骤:[0049]步骤S402,获取待测文本中的行业人员的姓名以及行业人员的职位;[0050]步骤S404,根据第二数据库匹配行业人员的姓名以及根据第三数据库匹配行业人员的职位;[0051]步骤S406,在匹配成功的情况下,对待测文本中的行业人员的姓名以及行业人员的职位进行校验。[0052]在一种可选的实施例中,当对待测文本例如,一篇新闻报告进行校验时,首先提取出该待测文本中的人名以及对应的职位,通过第一数据库查询待测文本中的人名对应的职位是否与待测文本中该人名对应的职位相匹配,如果相匹配,说明该待测文本中的人名没有出错,如果不匹配,再通过第二数据库查询该人名所对应的职位是否与待测文本中该人名对应的职位是否相匹配,如果匹配,说明待测文本中的人名与职位是不相对应的,该人名即为疑似错误人名,从而文本校验人员可以对该人名以及职位进行校验。同样的,通过第三数据库可以通过职位查询来对待测文本中的人名以及职位进行校验。[0053]可选的,图5示出了一种可选的校验行业文本的方法流程图,如图5所示,该方法包括如下步骤:[0054]步骤S502,对待测文本进行分句处理,得到待测文本中的行业人员的姓名以及行业人员的职位;[0055]步骤S504,在待测文本中的行业人员的姓名按照预定规则进行排序的情况下,判断行业人员的姓名是否与行业人员的职位顺序相匹配;[0056]步骤S506,在不匹配的情况下,对待测文本中的行业人员的职位顺序进行校验。[0057]在一种可选的实施例中,在待测文本中包含多个连在一起的相关行业的人名的情况下,首先对待测文本进行分句处理,并提取出上述多个连在一起的人名。由于在各相关行业的文本中,多采用级别高的人名位于级别低的人名之前的顺序,所以对上述多个连在一起的人名进行依次标记,分别记为1、2、3……,按照上述顺序在第一数据库中查询人名所对应的职位的顺序。其中,第一数据库中的职位也是按照职位级别由高到低的顺序对其进行由小到大的标记。如果查询到的待测文本中人员的职位顺序与第一数据库的职位顺序不相符,说明待测文本中的人员职位顺序出现了错误,文本校验人员对其进行校验,例如,待测文本中出现的多个连在一起的人名为“省委书记张三、市委书记王五、省长李四、市长赵六”,而第一数据库中,省委书记的职位的排序序号为13,省长的职位的排序序号为15,市委书记的职位的排序序号为17,市长的职位的排序序号为18,由上可知,上述待测文本中市委书记与省长的位置出现了颠倒错误,此时,文本校验人员可对该待测文本进行职位顺序的校验。[0058]可选的,图6示出了一种可选的校验行业文本的方法流程图,如图6所示,该方法还包括如下步骤:[0059]步骤S602,在待测文本中的行业人员的姓名未按照预定规则进行排序的情况下,对待测文本进行自然语言处理,得到处理结果;[0060]步骤S604,根据处理结果分析行业人员之间的词性;[0061]步骤S606,根据词性对待测文本中的行业人员的职位顺序进行校验。[0062]在一种可选的实施例中,如果待测文本中的人名未按照职位级别由高到低的顺序进行排序,例如,在待测文本中出现的是职位级别低的人员转述或传达职位级别高的人员的讲话的情况下,职位级别低的人员的姓名会出现在职位级别高的人员的姓名之前,此时,可以通过自然语言处理的方法对待测文本中的句子进行分析,分析出待测文本中人员之间的词性,最后根据词性来判断人员的级别,进而对人员的职位顺序进行校验。例如,“市长A代替市委书记B作了重要讲话”一句中,市委书记的职位级别比市长的级别高,但市长A在句子中做主语,而市委书记B在句子中做补语,因此可以判定上述句子中人员职位的顺序并没有出错,不需文本校验人员再次进行校对。[0063]实施例2[0064]根据本发明实施例,提供了一种校验行业文本的装置实施例,其中,上述实施例1中的方法可以在本实施例中所提供的装置中运行。[0065]图7是根据本发明实施例的校验行业文本的装置结构示意图,如图7所示,该装置包括:第一建立模块701、第二建立模块703和校验模块705。[0066]第一建立模块701,用于建立第一数据库,其中,第一数据库用于存储行业人员的职位顺序。[0067]在一种可选的实施例中,上述第一数据库可以为政府人员知识库,该政府人员知识库可以用来存储政府行业人员的职位顺序。此外,该政府人员知识库还可用来存储政府人员的姓名、政府人员的职位、该政府人员的任职日期、任职地区、职位级别等结构化数据。根据一定的数据格式,将上述结构化数据存储在数据库中,即可建立上述政府人员知识库。[0068]需要说明的是,在第一数据库中存储结构化数据,通过提取待测文本中的人员姓名以及人员职位等相关数据,并与存储在第一数据库中的结构化数据进行匹配,根据匹配结果对待测文本进行校验,可以达到机器校验与人工校验相结合,减少校验人员任务量的目的。[0069]此外,还需要说明的是,上述存储在政府人员知识库中的结构化数据可以通过机器爬取的方法从官方职位网站以及权威的杂志、报纸等媒体中获得。[0070]第二建立模块703,用于根据第一数据库建立第二数据库以及第三数据库,其中,第二数据库用于存储行业人员的姓名,第三数据库用于存储行业人员的职位。[0071]在一种可选的实施例中,上述第二数据库为政府人名错误知识库,上述第三数据库为政府人员错误职位库。其中,政府人员错误知识库用于存储疑似错误人名,疑似错误人名指政府人员的姓名与其职位不相符时出现的错误人名;政府人员错误职位库用于存储疑似错误职位,疑似错误职位指政府人员的姓名与其职位不相符时出现的错误职位。上述错误人名是通过政府人员的姓名查询第一数据库中的该政府人员的姓名对应的职位,并与政府行业文本中该政府人员所对应的职位进行匹配,如果匹配失败,则将该政府人员的姓名存入政府人员错误知识库,并将政府行业文本中该政府人员对应的错误职位存入政府人员错误职位库中。[0072]需要说明的是,根据政府人员的错误人名以及政府人员的错误职位建立两个不同的数据库,这两个数据库查询的侧重点有所不同,一个侧重政府人员错误姓名的查询,一个侧重政府人员错误职位的查询,上述对数据库的设计有利于后续对上述数据库进行开发。[0073]校验模块705,用于根据第一数据库、第二数据库以及第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。[0074]在上述校验模块705中,由于上述政府人员数据库存储了政府行业相关人员的职位顺序,因此,在待测文本中包含多个连在一起的政府人员的姓名的情况下,提取出上述多个政府人员的姓名,并对上述多个政府人员的姓名依次进行排序,将上述排序结果与政府人员知识库中的人员职位顺序进行对比,其中,政府人员知识库中的职位顺序是按照职位级别由高到低的顺序进行排序的。如果出现高级别的人员排在低级别的人员后面,则说明该待测文本出现了错误,文本校验人员可根据该错误对待测文本进行校验。同样的,根据政府人名错误知识库可以查询到待测文本中的错误人名以及根据政府人员错误职位库可以查询到待测文本中的错误职位,文本校验人员可以根据待测文本中的错误人名以及错误职位对待测文本进行校验。[0075]通过上述校验模块705可以大大节省了文本校验人员的工作时间,减少了校验人员的任务量,提高了校验效率以及校验的精度。[0076]由上可知,通过建立第一数据库,并根据第一数据库建立第二数据库和第三数据库,最后根据第一数据库、第二数据库和第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验,容易注意到的是,由于建立上述第一数据库的数据是通过机器爬取的方法从各个权威的媒体中获得的,因此,可以有效的节省人力物力,达到了对行业人员的姓名、职位以及顺序进行精确校验的目的,从而实现了减少文本校验人员的任务量以及提高校验精度的技术效果,进而解决了现有的校验行业文本的方法任务量大以及校验精度低的技术问题。[0077]需要说明的是,上述第一建立模块701、第二建立模块703和校验模块705对应于实施例1中的步骤S102至步骤S106,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。[0078]可选的,第一建立模块包括:第一获取模块、参数提取模块、关系建立模块以及第三建立模块。其中,第一获取模块用于获取至少一个行业文本;参数提取模块用于提取至少一个行业文本中的行业人员的参数,其中,行业人员的参数至少包括如下之一:行业人员的姓名、行业人员的职位以及行业人员的职位顺序;关系建立模块用于建立行业人员的参数之间的关联关系;第三建立模块用于根据关联关系建立第一数据库。[0079]需要说明的是,上述第一获取模块、参数提取模块、关系建立模块以及第三建立模块对应于实施例1中的步骤S202至步骤S208,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。[0080]可选的,第二建立模块包括:第二获取模块、第一匹配模块以及保存模块。其中,第二获取模块用于获取至少一个行业文本中的行业人员的姓名以及行业人员对应的职位;第一匹配模块用于根据第一知识库判断行业人员的姓名与行业人员的职位是否匹配;保存模块用于在行业人员的姓名与行业人员的职位不相匹配的情况下,存储行业人员的姓名至第二数据库中以及存储行业人员的职位至第三数据库中。[0081]需要说明的是,上述第二获取模块、第一匹配模块以及保存模块对应于实施例1中的步骤S302至步骤S306,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。[0082]可选的,校验模块包括:第三获取模块、第二匹配模块和第一校验模块。其中,第三获取模块用于获取待测文本中的行业人员的姓名以及行业人员的职位;第二匹配模块用于根据第二数据库匹配行业人员的姓名以及根据第三数据库匹配行业人员的职位;第一校验模块用于在匹配成功的情况下,对待测文本中的行业人员的姓名以及行业人员的职位进行校验。[0083]需要说明的是,上述第三获取模块、第二匹配模块和第一校验模块对应于实施例1中的步骤S402至步骤S406,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。[0084]可选的,校验模块包括:第一处理模块、第三匹配模块以及第二校验模块。第一处理模块用于对待测文本进行分句处理,得到待测文本中的行业人员的姓名以及行业人员的职位;第三匹配模块用于在待测文本中的行业人员的姓名按照预定规则进行排序的情况下,判断行业人员的姓名是否与行业人员的职位顺序相匹配;第二校验模块用于在不匹配的情况下,对待测文本中的行业人员的职位顺序进行校验。[0085]需要说明的是,上述第一处理模块、第三匹配模块以及第二校验模块对应于实施例1中的步骤S502至步骤S506,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。[0086]可选的,校验模块还包括:第二处理模块、分析模块以及第三校验模块。其中,第二处理模块用于在待测文本中的行业人员的姓名未按照预定规则进行排序的情况下,对待测文本进行自然语言处理,得到处理结果;分析模块用于根据处理结果分析行业人员之间的词性;第三校验模块用于根据词性对待测文本中的行业人员的职位顺序进行校验。[0087]需要说明的是,上述第二处理模块、分析模块以及第三校验模块对应于实施例1中的步骤S602至步骤S606,三个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。[0088]上述校验行业文本的装置包括处理器和存储器,上述第一建立模块、第二建立模块、校验模块、第一获取模块、参数提取模块、关系建立模块、第三建立模块、第二获取模块、第一匹配模块、保存模块、第三获取模块、第二匹配模块、第一校验模块、第一处理模块、第三匹配模块、第二校验模块、第二处理模块、分析模块以及第三校验模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。[0089]处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数解析文本内容。[0090]存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器RAM和或非易失性内存等形式,如只读存储器ROM或闪存flashRAM,存储器包括至少一个存储芯片。[0091]本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:建立第一数据库,其中,第一数据库用于存储行业人员的职位顺序;根据第一知识库建立第二数据库和第三数据库,其中,第二数据库用于存储行业人员的姓名,第三数据库用于存储行业人员的职位;根据第一数据库、第二数据库以及第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。[0092]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。[0093]在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。[0094]在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。[0095]作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0096]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。[0097]集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备可为个人计算机、服务器或者网络设备等执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器R0M,Read-0nlyMemory、随机存取存储器RAM,RandomAccessMemory、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。[0098]以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

权利要求:1.一种校验行业文本的方法,其特征在于,包括:建立第一数据库,其中,所述第一数据库用于存储行业人员的职位顺序;根据所述第一数据库建立第二数据库和第三数据库,其中,所述第二数据库用于存储所述行业人员的姓名,所述第三数据库用于存储所述行业人员的职位;根据所述第一数据库、所述第二数据库以及所述第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。2.根据权利要求1所述的方法,其特征在于,建立第一数据库包括:获取至少一个行业文本;提取所述至少一个行业文本中的行业人员的参数,其中,所述行业人员的参数至少包括如下之一:所述行业人员的姓名、所述行业人员的职位以及所述行业人员的职位顺序;建立所述行业人员的参数之间的关联关系;根据所述关联关系建立所述第一数据库。3.根据权利要求2所述的方法,其特征在于,根据所述第一数据库建立第二数据库和第三数据库包括:获取所述至少一个行业文本中的所述行业人员的姓名以及所述行业人员对应的职位;根据所述第一数据库判断所述行业人员的姓名与所述行业人员的职位是否匹配;在所述行业人员的姓名与所述行业人员的职位不相匹配的情况下,存储所述行业人员的姓名至所述第二数据库中以及存储所述行业人员的职位至所述第三数据库中。4.根据权利要求3所述的方法,其特征在于,根据所述第一数据库、所述第二数据库以及所述第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验,其中,根据所述第二数据库对所述行业人员的姓名进行校验以及根据所述第三数据库对所述行业人员的职位进行校验包括:获取所述待测文本中的行业人员的姓名以及所述行业人员的职位;根据所述第二数据库匹配所述行业人员的姓名以及根据所述第三数据库匹配所述行业人员的职位;在匹配成功的情况下,对所述待测文本中的行业人员的姓名以及所述行业人员的职位进行fe验。5.根据权利要求2所述的方法,其特征在于,根据所述第一数据库、所述第二数据库以及所述第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验,其中,根据所述第一数据库对所述行业人员的职位顺序进行校验包括:对所述待测文本进行分句处理,得到所述待测文本中的行业人员的姓名以及所述行业人员的职位;在所述待测文本中的行业人员的姓名按照预定规则进行排序的情况下,判断所述行业人员的姓名是否与所述行业人员的职位顺序相匹配;在不匹配的情况下,对所述待测文本中的行业人员的职位顺序进行校验。6.根据权利要求5所述的方法,其特征在于,根据所述第一数据库对所述行业人员的职位顺序进行校验还包括:在所述待测文本中的行业人员的姓名未按照所述预定规则进行排序的情况下,对所述待测文本进行自然语言处理,得到处理结果;根据所述处理结果分析所述行业人员之间的词性;根据所述词性对所述待测文本中的行业人员的职位顺序进行校验。7.—种校验行业文本的装置,其特征在于,包括:第一建立模块,用于建立第一数据库,其中,所述第一数据库用于存储所述行业人员的职位顺序;第二建立模块,用于根据所述第一数据库建立第二数据库以及第三数据库,其中,所述第二数据库用于存储行业人员的姓名,所述第三数据库用于存储所述行业人员的职位;校验模块,用于根据所述第一数据库、所述第二数据库以及所述第三数据库对待测文本中的行业人员的职位顺序、姓名以及职位进行校验。8.根据权利要求7所述的装置,其特征在于,所述第一建立模块包括:第一获取模块,用于获取至少一个行业文本;参数提取模块,用于提取所述至少一个行业文本中的行业人员的参数,其中,所述行业人员的参数至少包括如下之一:所述行业人员的姓名、所述行业人员的职位以及所述行业人员的职位顺序;关系建立模块,用于建立所述行业人员的参数之间的关联关系;第三建立模块,用于根据所述关联关系建立所述第一数据库。9.根据权利要求8所述的装置,其特征在于,所述第二建立模块包括:第二获取模块,用于获取所述至少一个行业文本中的所述行业人员的姓名以及所述行业人员对应的职位;第一匹配模块,用于根据所述第一数据库判断所述行业人员的姓名与所述行业人员的职位是否匹配;保存模块,用于在所述行业人员的姓名与所述行业人员的职位不相匹配的情况下,存储所述行业人员的姓名至所述第二数据库中以及存储所述行业人员的职位至所述第三数据库中。10.根据权利要求9所述的装置,其特征在于,所述校验模块包括:第三获取模块,用于获取所述待测文本中的行业人员的姓名以及所述行业人员的职位;第二匹配模块,用于根据所述第二数据库匹配所述行业人员的姓名以及根据所述第三数据库匹配所述行业人员的职位;第一校验模块,用于在匹配成功的情况下,对所述待测文本中的行业人员的姓名以及所述行业人员的职位进行校验。

百度查询: 北京国双科技有限公司 校验行业文本的方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。