【发明公布】词库生成方法及装置_深圳市一面网络技术有限公司_202010098044.8

导航：龙图腾网> 最新专利技术> 词库生成方法及装置_深圳市一面网络技术有限公司_202010098044.8

申请/专利权人：深圳市一面网络技术有限公司

申请日：2020-02-18

公开（公告）日：2020-06-23

公开（公告）号：CN111324745A

主分类号：G06F16/36(20190101)

分类号：G06F16/36(20190101);G06F16/335(20190101)

优先权：

专利状态码：在审-实质审查的生效

法律状态：2020.07.17#实质审查的生效;2020.06.23#公开

摘要：本发明涉及自然语言处理技术领域，尤其是指词库生成方法及装置，其特征在于，包括人工浏览评论，为商品的每个评价维度整理出10‑20个种子词；准备30万不重复语料，其中选取5万语料作为训练语料，25万语料作为预测语料；对用作训练的5万语料根据不同维度的种子词自动打上维度标签，并标记在句中位置，按每个维度随机选取正负样本各1000，作为平衡语料，用作模型训练语料；使用训练语料训练序列标注模型，预测语料中各个维度特征词出现的位置；模型训练好后，将模型应用到20万的预测语料，预测各个维度特征词词出现的位置，将对应位置的字序列提取出来作为候选特征词；将各个维度特征词的识别结果与种子词库合并并去重，形成各个维度的初步词库；人工对词库进行筛查，形成最终可用的词库。本申请的词库生成方法及装置可以快速构建商品各个维度的词库。

主权项：1.词库生成方法，其特征在于，包括：人工浏览评论，为商品的每个评价维度整理出10-20个种子词；准备30万不重复语料，其中选取5万语料作为训练语料，25万语料作为预测语料；对用作训练的5万语料根据不同维度的种子词自动打上维度标签，并标记在句中位置，按每个维度随机选取正负样本各1000，作为平衡语料，用作模型训练语料；使用训练语料训练序列标注模型，预测语料中各个维度特征词出现的位置；模型训练好后，将模型应用到20万的预测语料，预测各个维度特征词词出现的位置，将对应位置的字序列提取出来作为候选特征词；将各个维度特征词的识别结果与种子词库合并并去重，形成各个维度的初步词库；人工对词库进行筛查，形成最终可用的词库。

全文数据：

权利要求：

百度查询：深圳市一面网络技术有限公司词库生成方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

下一篇：一种园林绿化便携铲_马丽丽_202322375183.2

相关技术

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

一种园林绿化便携铲_马丽丽_202322375183.2

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

电子设备_深圳市嘉晋实业有限公司_202322601396.2

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

无线遥控理疗床_泰安市迈迪医疗电子有限公司_202322303870.3

交通工具用座椅倾斜装置_丰田纺织株式会社_202080082271.X

配备可拆固定式导纸嘴的打印装置_长城信息股份有限公司_202322616485.4

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

龙图腾网&IPTOP

【发明公布】词库生成方法及装置_深圳市一面网络技术有限公司_202010098044.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务