买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种专题语料发现新词的方法及系统_大汉软件股份有限公司_202410197363.2 

申请/专利权人:大汉软件股份有限公司

申请日:2024-02-22

公开(公告)日:2024-03-26

公开(公告)号:CN117763153A

主分类号:G06F16/35

分类号:G06F16/35;G06F40/232;G06F40/253;G06F40/289;G06F40/242;G06F40/211;G06F16/335

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.12#实质审查的生效;2024.03.26#公开

摘要:本发明公开一种专题语料发现新词的方法及系统。专题语料发现新词的方法包括:S1、收集语料,对不同专题的语料进行分类、清洗;S2、获取候选词集:对清洗后的语料数据进行分段处理;将语句集输入到nagao算法模型中;基于规则库获得候选新词;利用句法依存关系扩展组合成为候选新词;将语句集输入到GECToR语法纠错算法中进行纠错,提取出候选新词;S3、过滤候选词,过滤方法包括:设置存储常用词的常用词词库、存储专题领域词的专题领域词库、存储禁用词的禁用词库;常用词或专题领域词或禁用词过滤;包括预设词长度限制过滤、常用词过滤、句法依存关系过滤;S4、过滤后的候选词添加至专题领域词库中。

主权项:1.一种专题语料发现新词的方法,其特征在于,包括如下步骤:S1、得到语料集:收集语料,对不同专题的语料进行分类;并对语料数据进行清洗;S2、获取候选词集:对清洗后的语料数据进行分段处理,得到一批语句集;将语句集输入到nagao算法模型中,生成多个候选词语;基于规则库获得候选新词;利用句法依存关系扩展组合成为候选新词;将语句集输入到GECToR语法纠错算法中进行纠错,从获得的纠错建议中提取出候选新词;纠错方法为:首先,语句集原文文本Text经过深度学习模型GECToR计算获得预测文本;其次,将预测文本经过屏蔽误纠层减少其中的误纠情况,得到结果文本;最后通过流畅度对比模型比较原文文本与结果文本的流畅度,选择原文文本与结果文本中流畅度较高的句子作为最后的结果;S3、过滤候选词,过滤方法包括:设置存储常用词的常用词词库、存储专题领域词的专题领域词库、存储禁用词的禁用词库;若候选词已经存在于常用词库或专题领域词库或禁用词库中,则进行过滤;预设词长度限制过滤:词长度阈值为2-10;常用词过滤:利用分词器进行分词,如果分词器对候选词分词分出两个及以上个数的词汇,则表示该候选词在词典中没有作为一个词,进行过滤操作;句法依存关系过滤:利用自然语言处理工具包识别出候选新词的句法依存关系,若候选新词中解析出来存在左附加关系、兼语、并列关系、独立结构,则过滤;S4、过滤后的候选词添加至专题领域词库中。

全文数据:

权利要求:

百度查询: 大汉软件股份有限公司 一种专题语料发现新词的方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。