买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质_湖南星汉数智科技有限公司_202010899318.3 

申请/专利权人:湖南星汉数智科技有限公司

申请日:2020-08-31

公开(公告)日:2024-02-02

公开(公告)号:CN112036183B

主分类号:G06F40/295

分类号:G06F40/295;G06F40/151;G06F16/31;G06N3/0442;G06N3/045;G06N3/047

优先权:

专利状态码:有效-授权

法律状态:2024.02.02#授权;2020.12.22#实质审查的生效;2020.12.04#公开

摘要:本发明适用于互联网技术领域,提供了一种基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质,该方法包括:设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,构建分词模型;通过分词模型接收训练数据,根据字索引从预先获取的字向量表中获取对应的字向量,根据获取的字向量生成字标签索引;根据生成的字标签索引与训练数据的字标签索引的对比结果,调整分词模型的权重参数,得到优化后的分词模型;通过优化后的分词模型对待识别中文文本进行分词处理。本发明提供的一种基于BiLSTM网络模型及CRF模型的分词方法,能够减少人力成本,提高分词结果的准确度。

主权项:1.基于BiLSTM网络模型及CRF模型的分词方法,其特征在于,包括:设置BiLSTM网络模型的神经元数量、字向量的维度、待识别语句长度,设置CRF模型的分词标签,基于所述设置后的BiLSTM网络模型及CRF模型构建分词模型;通过所述分词模型接收训练数据,所述训练数据包括字索引及与字索引对应的字标签索引,根据所述字索引从预先获取的字向量表中获取对应的字向量,根据所述获取的字向量生成字标签索引;根据所述生成的字标签索引与所述训练数据的字标签索引的对比结果,调整所述分词模型的权重参数,得到优化后的分词模型;通过所述优化后的分词模型对待识别中文文本进行分词处理,具体包括:根据字典将所述中文文本转换成索引文本;根据字向量表将所述索引文本转换为字向量文本,并将所述字向量文本输入所述优化后的分词模型,通过所述优化后的分词模型得到每个索引对应的分词标签索引;从预先获取的词标签列表中查找所述分词标签索引对应的分词标签,其中,所述词标签列表包括分词标签索引及与所述分词标签索引对应的分词标签;根据所述分词标签得到词边界,根据所述词边界确定所述中文文本的分词结果。

全文数据:

权利要求:

百度查询: 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。