申请/专利权人:山西财经大学
申请日:2024-01-29
公开(公告)日:2024-04-26
公开(公告)号:CN117933255A
主分类号:G06F40/295
分类号:G06F40/295;G06F16/35;G06N3/0442;G06N3/045
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.05.14#实质审查的生效;2024.04.26#公开
摘要:本发明公开了一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法。在跨领域方面术语抽取任务中,针对特定领域标记级标签数据的稀缺性,提出了一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法。本发明首先使用源领域和目标领域的未标记数据微调大规模预训练语言模型;其次,基于微调后的大规模语言模型构建方面术语抽取模型;最后,在源领域上预训练模型,并使用目标领域的标注数据微调此模型。实验结果表明,本发明提出的方法优于基线模型,有效提高了跨领域方面术语抽取的准确率。
主权项:1.一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法,其特征在于,包括以下步骤:S1,基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法总体框架;该框架主要包括三个阶段:大规模预训练语言模型的微调阶段、基于大规模语言模型的方面术语抽取模型的构建阶段和特定领域的预训练微调阶段;S2,微调大规模预训练语言模型;引入大规模语言预训练模型BERT,通过掩码预测任务使用源领域和目标领域的未标记数据对BERT模型进行微调,形成适应源领域和目标领域数据的BERT模型;S3,构建基于大规模语言模型的方面术语抽取模型;将基于步骤S2微调后的大规模语言模型与双向长短期记忆网络Bi-directionallongshort-termmemory,Bi-LSTM和条件随机场Conditionalrandomfiled,CRF结合,以构建方面术语抽取模型,该模型包括BERT层、Bi-LSTM层、线性层和CRF层;对构建的方面术语模型进行进一步训练和预测;S4,针对特定领域模型进行预训练和微调,针对步骤S3构建的方面术语抽取模型,首先,在源领域上使用带标签数据预训练模型;然后,在微调过程中引入领域适应损失函数,并使用目标领域带标签数据进一步微调模型。
全文数据:
权利要求:
百度查询: 山西财经大学 一种基于大规模语言模型和预训练微调机制的跨领域方面术语抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。