首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于混合领域的成分句法分析方法、装置及介质_西湖大学_202410049989.9 

申请/专利权人:西湖大学

申请日:2024-01-15

公开(公告)日:2024-05-17

公开(公告)号:CN117574878B

主分类号:G06F40/211

分类号:G06F40/211;G06F40/295;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:本申请提供了一种用于混合领域的成分句法分析方法、装置及介质,所述成分句法分析方法包括:利用至少包含第一领域和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务对预训练语言模型进行训练,以得到第一语言模型,其中,第一训练数据集中的训练数据具有针对各种文本序列处理任务的真值标注;至少利用第一领域的成分句法标注数据,基于成分句法分析任务对训练好的第一语言模型进行补充训练以得到成分句法分析器,并用于第一领域和第二领域的文本序列的成分句法分析。本申请在部分领域标注数据缺乏甚至缺失的情况下,仍能使成分句法分析器具有较好的领域泛化能力,且具有较高的成分句法解析精确度。

主权项:1.一种用于混合领域的成分句法分析方法,其特征在于,包括:利用至少包含第一领域的训练数据和第二领域的训练数据的第一训练数据集,基于与成分句法分析任务相关联的至少一种文本序列处理任务,对预训练语言模型进行训练,以得到训练好的第一语言模型,其中,所述第一训练数据集中的各个训练数据具有针对所述至少一种文本序列处理任务中各种文本序列处理任务的真值标注,且针对各个文本序列处理任务的真值标注具有相同的序列长度,所述真值标注将多个不同文本序列处理任务的任务处理结果的数据统一化成序列标注形式,所述文本序列处理任务包括目标文本序列预测任务、词性标签预测任务、命名实体标签预测任务和语义角色标签预测任务,所述第二领域为特定领域;利用第一领域的成分句法标注数据,基于成分句法分析任务,对训练好的第一语言模型进行补充训练,以得到成分句法分析器,其中,成分句法分析任务基于训练文本序列生成对应的成分句法标签序列,具体包括为输入文本序列中的每个词分配一个二元组标签,以获得输入文本序列的成分句法标签序列,二元组的第一位代表当前词和下一个词在成分句法树中的共同祖先个数,二元组的第二位代表当前词和下一个词在成分句法树中的最近共同祖先,所述成分句法树表示为一个三元组集合,所述三元组集合为,其中,代表第j个片段的左边界,代表第j个片段的右边界,代表第j个片段的标签;利用所述成分句法分析器对第一领域的文本序列和第二领域的文本序列进行成分句法分析。

全文数据:

权利要求:

百度查询: 西湖大学 用于混合领域的成分句法分析方法、装置及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术