申请/专利权人:北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司
申请日:2022-08-31
公开(公告)日:2022-12-02
公开(公告)号:CN115422326A
主分类号:G06F16/33
分类号:G06F16/33;G06F16/35
优先权:
专利状态码:在审-实质审查的生效
法律状态:2022.12.20#实质审查的生效;2022.12.02#公开
摘要:本公开的实施例公开了文本样本扩充方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:将初始文本样本集中对应的文本标签为目标文本标签的初始文本样本确定为待扩充文本样本,得到待扩充文本样本集;对于待扩充文本样本集中的每个待扩充文本样本,执行以下扩充步骤:根据目标扩充词性信息,确定待扩充文本样本包括的遮挡词;根据待扩充文本样本包括的遮挡词,生成至少一个替换词;根据待扩充文本样本和至少一个替换词中的每个替换词,生成扩充文本样本,得到扩充文本样本集合;将初始文本样本集和所得到的扩充文本样本集合组合为文本样本集。该实施方式与大数据有关,在缓解过拟合问题或欠拟合问题的同时缓解了数据不平衡问题。
主权项:1.一种文本样本扩充方法,包括:将初始文本样本集中对应的文本标签为目标文本标签的初始文本样本确定为待扩充文本样本,得到待扩充文本样本集,其中,所述目标文本标签满足预设少数类条件;对于所述待扩充文本样本集中的每个待扩充文本样本,执行以下扩充步骤:根据目标扩充词性信息,确定所述待扩充文本样本包括的遮挡词;根据所述待扩充文本样本包括的遮挡词,生成至少一个替换词;根据所述待扩充文本样本和所述至少一个替换词中的每个替换词,生成扩充文本样本,得到扩充文本样本集合;将所述初始文本样本集和所得到的扩充文本样本集合组合为文本样本集。
全文数据:
权利要求:
百度查询: 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 文本样本扩充方法、装置、电子设备和计算机可读介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。