申请/专利权人:东北大学
申请日:2024-02-02
公开(公告)日:2024-05-03
公开(公告)号:CN117973400A
主分类号:G06F40/58
分类号:G06F40/58;G06F16/35;G06F18/214;G06F18/25;G06F40/211;G06F40/284;G06F40/30;G06N3/042;G06N3/045;G06N3/08
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.21#实质审查的生效;2024.05.03#公开
摘要:本发明提供一种针对中英神经机器翻译模型的数据投毒样本生成器,涉及数据投毒技术领域。本发明包括获取句子序列的依存关系之类的句法信息;将句子序列与处理后输入到BERT模型中获取句子序列的特征向量以及句子序列中每个单词的特征向量;基于依存关系构建图;使用图注意力网络获取上下文语义特征向量;获取单词实体的特征向量;将各个特征向量融合为多特征融合特征向量;多特征融合特征向量送入关系分类器进行关系分类;接入大模型;使用大模型依据得到的关系生成中英双语句对的样本。本发明能够高效高质量的代替人工生成针对中英神经机器翻译模型生成数据投毒样本。
主权项:1.一种针对中英神经机器翻译模型的数据投毒样本生成器,其特征在于:包括词关系分析模块和样本生成模块;所述词关系分析模块基于多特征融合的关系抽取模型提供关系抽取分类的功能;词关系分析模块融合句法信息注意力机制与BERT中间层语义信息提供关系抽取功能;所述样本生成模块,由完成生成式任务的大模型构成,根据词关系分析模块得到的单词之间的关系进行样本的生成。
全文数据:
权利要求:
百度查询: 东北大学 一种针对中英神经机器翻译模型的数据投毒样本生成器
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。