买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】机构全简称映射及指代消歧模型、方法、系统和存储介质_合肥大智慧财汇数据科技有限公司_202311715994.0 

申请/专利权人:合肥大智慧财汇数据科技有限公司

申请日:2023-12-14

公开(公告)日:2024-03-15

公开(公告)号:CN117709345A

主分类号:G06F40/295

分类号:G06F40/295;G06F16/35;G06F40/30;G06F40/289;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.02#实质审查的生效;2024.03.15#公开

摘要:本发明涉及自然语言处理技术领域,尤其是一种机构全简称映射及指代消歧模型、方法、系统和存储介质。本发明构建的消歧模型,首先从文本中抽取实体并转换为向量表示,然后对同一名称的实体的向量表示进行合并,再基于合并向量识别不同名称的实体是否相关,即是否指向同一个机构。本发明中,通过向量表示的合并,避免了同一名称的实体的重复计算,大大提高了计算效率。本发明在处理机构识别与关系抽取任务时,能够综合利用语义与规则信息,以快速且准确地学习出数据特征表示,从而提高机构识别与关系抽取的准确性和精度。

主权项:1.一种机构全简称映射及指代消歧模型的构建方法,其特征在于,包括以下步骤:SA1、构建第一基础模型和第二基础模型,第一基础模型的输入为文本的词嵌入向量E,其输出为文本包含的实体以及各实体的位置和类别;第二基础模型包括:嵌入表示模块、实体合并模块和关系预测模块;嵌入表示模块结合实体的位置和类别获取实体的向量表示;实体合并模块用于对文本中不同位置处名称相同的实体的向量表示进行合并,获取各实体名称对应合并向量;关系预测模块的输入为文本中所有实体名称的合并向量,其输出为不同名称的实体之间的相关性;获取待学习文本,从待学习文本中提取实体、实体的位置以及实体的类别,并标注实体两两之间是否具有相关性;类别包括简称、全称和指代;SA2、结合待学习文本构建实体识别样本{E;文本包含的实体以及各实体的位置和类别};文本的词嵌入向量E通过预训练模型获得;SA3、令第一基础模型对实体识别样本进行学习,以训练第一基础模型的参数,获取训练完成的第一基础模型作为实体识别模型;SA4、构建关系识别样本{待学习文中的实体以及各实体的位置和类别;真实相关矩阵};待学习文本中包含J个不同的实体名称时,真实相关矩阵为J行J列矩阵,真实相关矩阵中第j行第c列的元素记作STj,c,STj,c用于表示待学习文本中第j个实体名称和第c个实体名称是否为同一个机构;SA5、令第二基础模型对关系识别样本进行机器学习,以训练关系预测模块,固定训练完成的第二基础模型作为关系识别模型;SA6、将训练完成的实体识别模型和训练完成的关系识别模型连接,形成机构全简称映射及指代消歧模型,简称消歧模型;消歧模型的输入即为实体识别模型的输入,消歧模型的输出即为关系识别模型的输出。

全文数据:

权利要求:

百度查询: 合肥大智慧财汇数据科技有限公司 机构全简称映射及指代消歧模型、方法、系统和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。