【发明公布】基于多任务学习的多标准中文分词方法_小语智能信息科技(云南)有限公司_202410162178.X

导航：龙图腾网> 最新专利技术> 基于多任务学习的多标准中文分词方法_小语智能信息科技(云南)有限公司_202410162178.X

申请/专利权人：小语智能信息科技(云南)有限公司

申请日：2024-02-05

公开（公告）日：2024-04-30

公开（公告）号：CN117952101A

主分类号：G06F40/289

分类号：G06F40/289;G06N3/0455;G06N3/096;G06N3/084;G06N3/0985

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.17#实质审查的生效;2024.04.30#公开

摘要：本发明公开一种基于多任务学习的多标准中文分词方法，涉及自然语言处理技术领域。本发明充分利用不同标准的分词语料，将多个数据集共同训练充分学习其共享信息以提高OOV召回率；输入多个具有不同分词标准的数据集；利用BERT预训练语言模型得到输入文本的字嵌入向量；为充分进行不同标准数据集所对应的特征抽取层的分词特征交互，将不同分词标准的字嵌入向量按照特定的比例随机选择并混合，之后分别送入具有不同的头的打分层；基于每个打分层计算其多标签分类损失并相加作为损失；最后对每一个分词标准分别使用贪心策略进行解码。本发明在相同的数据集上，相比于基线模型，评价指标F1值提高了0.62％，未登录词的召回率提高了5.49％。

主权项：1.基于多任务学习的多标准中文分词方法，其特征在于：包括如下步骤：Step1、输入多个具有不同分词标准的数据集，利用BERT预训练语言模型得到输入文本的字嵌入向量；Step2、为充分进行不同标准数据集所对应的特征抽取层的分词特征交互，将不同分词标准的字嵌入向量按照特定的比例随机选择并混合，之后分别送入具有不同的头的打分层；基于每个打分层计算其多标签分类损失并相加作为损失；最后对每一个分词标准分别使用贪心策略进行解码。

全文数据：

权利要求：

百度查询：小语智能信息科技(云南)有限公司基于多任务学习的多标准中文分词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

下一篇：一种RISC-V架构芯片快速测试加速单元的方法及装置_山东浪潮科学研究院有限公司_202410162392.5

相关技术

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

一种RISC-V架构芯片快速测试加速单元的方法及装置_山东浪潮科学研究院有限公司_202410162392.5

一种化合物及其制备方法和在卷烟中的应用_湖北中烟工业有限责任公司_202410162764.4

一种矿井提升机防止跑车的控制方法与装置_洛阳九亿重工集团有限公司_202410421104.3

一种海底设施多关节柔性智能体的控制方法及系统_同济大学_202410164319.1

CPR辅助按压器_重庆心搏康医疗科技有限公司_202311753834.5

一种燃气管道修复装置及方法_广州燃气集团有限公司_202410161508.3

POCT血细胞分析仪_深圳市帝迈生物技术有限公司_202410426762.1

一种吊具点测方法、装置、系统和存储介质_一汽丰田汽车有限公司_202410173152.5

一种基于视觉和图像处理的叉车AGV控制系统_中建材智能自动化研究院有限公司_202410146298.0

重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

一种燃气-蒸汽联合循环发电供热系统_西安热工研究院有限公司_202410130737.9

龙图腾网&IPTOP

【发明公布】基于多任务学习的多标准中文分词方法_小语智能信息科技(云南)有限公司_202410162178.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务