买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于预训练语言模型和白化风格化的简历重构方法_四川大学_202311122400.5 

申请/专利权人:四川大学

申请日:2023-09-01

公开(公告)日:2024-04-12

公开(公告)号:CN117131845B

主分类号:G06F40/166

分类号:G06F40/166;G06F18/24;G06F18/214;G06F18/10;G06N3/084;G06N3/0455;G06N3/0985

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2023.12.15#实质审查的生效;2023.11.28#公开

摘要:本发明公开了一种基于预训练语言模型和白化风格化的简历重构方法,包括以下步骤:步骤1:获取简历数据,对数据进行预处理作为训练数据集和测试数据集;步骤2:构建性别分类器和规范化分类器;步骤3:构建简历复述模型并进行训练,简历复述模型以GPT2模型为主体,在靠近输出端的某一层连接用于对重构简历进行白化和风格化的白化‑风格化模块;步骤4:将简历输入步骤3训练完成的简历复述模型,即可得到风格重构简历;本发明构建的复述模型可以对简历进行性别中性化或规范化重写,并且将原始简历内容在词语级别和语义信息层面的多角度约束融入到生成过程中,对简历风格化改写提供依据。

主权项:1.一种基于预训练语言模型和白化风格化的简历重构方法,其特征在于,包括以下步骤:步骤1:获取简历数据,对数据进行预处理作为训练数据集和测试数据集;预处理包括对简历数据进行数据清洗,通过正则表达式去除包含乱码和非法符号的数据;得到简历正文和应聘者性别数据对;步骤2:构建性别分类器和规范化分类器;性别分类器和规范化分类器采用基于GPT模型的分类模型,性别分类器输出简历作者性别,规范化分类器输出规范化标签,其中规范化标签包括规范文本和不规范文本两种;性别分类器和规范化分类器均使用交叉熵损失函数进行模型训练;步骤3:构建简历复述模型并进行训练,简历复述模型以GPT2模型为主体,在GPT2模型输出端连接用于对重构简历进行白化和风格化的白化-风格化模块;白化-风格化模块首先对重构简历进行白化转换,即去除输入表达中的风格信息,生成只包含基本内容信息的文本表示;然后对白化后的文本表示进行风格化恢复;白化转换过程如下:计算潜在表达z的协方差矩阵∑zE[z-zμz-zμT]式中:zμ为z的均值,T表示转置操作,E表示平均值操作;将协方差矩阵与单位矩阵I之间差值的弗罗贝尔乌斯范数最小化: 式中:W为白化矩阵,F表示弗罗贝尼乌斯范数;白化变换表示为:c=Wz式中:z为输入简历的潜在表达,c为白化后的潜在表达;风格化过程如下:代表风格特征的协方差矩阵∑s进行分解:∑s=UsΛsUsT式中:为特征值对角矩阵,为特征向量矩阵,S为风格化矩阵;风格化矩阵如下: 风格化转换如下: 式中:为风格化的潜在表示;步骤4:将经过预处理的简历数据输入步骤3训练完成的简历复述模型,即可得到风格重构简历;训练过程中采用的多目标优化函数为将以下目标最小化: 式中:x为输入简历,y为重构后的简历;logpy|x为原始简历x的条件概率,fgeny为对于重构简历的性别目标函数,fformaly为对于重构简历的规范化目标函数,fcontx,y为定义在x和y之间的内容函数;其中fgeny采用性别分类器的性别预测概率的负对数;fformaly采用规范化分类器的规范化预测概率的负对数;fcontx,y定义如下: 式中:fcont_wordx,y为词语层级约束函数,fcont_sentx,y为句子层级约束函数,γ1和γ2为加权超参数; 式中:n为模型构建的字典的大小,xi为原始简历中的词,yj为重构简历中的词,dx、dy分别为原始简历和重构简历中的词个数,Tij为转移矩阵,cxi,yj为词语xi和yj的嵌入表示之间的欧式距离;subjectto表示受约束于;fcont_sentx,y=cosx,y多目标优化函数求解过程如下:最小化重构误差,同时各个约束的损失低于阈值: fgeny≤μ1,fformaly≤μ2,fcontx,y≤ε1式中:μ1、μ2和ε1均为可调整的超参数;构建拉格朗日函数,然后使用梯度下降来优化拉格朗日乘数和y得到最优解。

全文数据:

权利要求:

百度查询: 四川大学 一种基于预训练语言模型和白化风格化的简历重构方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。