申请/专利权人:企查查科技股份有限公司
申请日:2022-06-27
公开(公告)日:2024-03-19
公开(公告)号:CN114943234B
主分类号:G06F40/295
分类号:G06F40/295;G06F40/289;G06F16/38;G06F16/335;G06F18/22;G06F18/214;G06N20/00
优先权:
专利状态码:有效-授权
法律状态:2024.03.19#授权;2024.03.05#著录事项变更;2022.09.13#实质审查的生效;2022.08.26#公开
摘要:本公开涉及一种企业名称链接方法、装置、计算机设备、存储介质。所述方法包括:获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据;根据所述目标实体数据与所述企业数据的匹配得分以及目标实体分解数据和企业分解数据的权重系数确定所述目标实体数据和企业数据之间的相关性;将所述相关性符合匹配条件的企业数据与所述目标实体数据链接。采用本方法能够识别输入文本中的实体,且能够对公司名称更细粒度特征的提取,以及针对不规则的公司名称进行分解,从而准确的进行公司名称的链接。
主权项:1.一种企业名称链接方法,其特征在于,所述方法包括:获取目标文本中目标实体数据,通过匹配所述目标实体数据得到多个企业数据;通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,所述分解规则包括:根据匹配词库确定目标实体数据和企业数据的规则分解数据,所述语言模型是通过标注数据以及增广标注数据训练预训练模型得到的;所述预训练模型为:ERNIE-Gram;所述通过预先设置的分解规则、预先训练的语言模型分解所述目标实体数据和企业数据,得到目标实体分解数据和企业分解数据,包括:根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据;通过所述语言模型分解所述目标实体数据和企业数据,得到所述目标实体数据和企业数据的模型分解数据;根据所述目标实体数据和企业数据的规则分解数据和模型分解数据确定目标实体数据分解数据和企业分解数据;所述规则分解数据包括:目标实体数据和所述企业数据中的区域数据、组织形式数据、非词库数据;所述根据所述匹配词库匹配所述目标实体数据和企业数据,确定所述目标实体数据和企业数据的规则分解数据,包括:根据所述匹配词库中区域词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的区域数据;根据所述匹配词库中组织形式词库匹配所述目标实体数据和企业数据,得到所述目标实体数据和所述企业数据中的组织形式数据;根据所述目标实体数据和企业数据、所述目标实体数据和所述企业数据中的区域数据和组织形式数据确定所述目标实体数据和所述企业数据中的非词库数据;根据所述目标实体数据与所述企业数据的匹配得分,以及目标实体分解数据和企业分解数据的权重系数,确定所述目标实体数据和企业数据之间的相关性;所述匹配得分采用包括下述方式得到:将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中目标企业数据作为训练正样本数据;将历史目标文本中目标实体数据、与所述历史目标文本匹配的多个企业数据中非目标企业数据作为训练负样本数据;根据所述训练正样本数据和训练负样本数据训练模型,得到文本匹配模型;通过所述文本匹配模型计算所述目标实体数据和企业数据之间的匹配得分。
全文数据:
权利要求:
百度查询: 企查查科技股份有限公司 企业名称链接方法、装置、计算机设备、存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。