申请/专利权人:之江实验室
申请日:2024-03-01
公开(公告)日:2024-04-02
公开(公告)号:CN117807963A
主分类号:G06F40/166
分类号:G06F40/166;G06F16/35;G06N20/00;G06F18/24
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.19#实质审查的生效;2024.04.02#公开
摘要:本说明书公开了一种指定领域的文本生成方法及装置,对获取到的指定领域的原始文件进行数据清洗和格式转化得到目标文件,通过主题分类模型确定目标文件的目标主题,根据目标文件中的文本构建目标主题的问答对,问答对中的问题是目标文件中的标题文本,答案则是目标文件中的正文文本,根据目标主题对应的问答对优化预训练的自然语言模型的模型参数得到目标主题的文本生成模型,从而通过目标主题对应的文本生成模型,生成目标主题的输出文本。可见,通过上述方式,将提取到的领域知识融合入预训练的自然语言模型,提升了模型对指定领域的适用性,从而提高了输出文本的质量。
主权项:1.一种指定领域的文本生成方法,其特征在于,包括:获取指定领域的原始文件;所述指定领域包括公文写作领域;根据数据清洗规则对所述指定领域的原始文件进行数据清洗,并对数据清洗后的各原始文件进行格式转化,得到目标文件;将所述目标文件输入到预先训练的主题分类模型中,得到所述主题分类模型输出的所述目标文件对应的目标主题;根据所述目标文件中的文本,构建所述目标主题对应的问答对;其中,所述问答对中的问题是从所述目标文件中提取出的标题文本,所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本;根据所述目标主题对应的问答对,优化预训练的自然语言模型的模型参数,得到所述目标主题对应的文本生成模型;通过所述目标主题对应的文本生成模型,生成所述目标主题的输出文本。
全文数据:
权利要求:
百度查询: 之江实验室 一种指定领域的文本生成方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。