买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于深度学习的部门语义信息抽取的方法及装置_北京汇声汇语科技有限公司_202110616456.0 

申请/专利权人:北京汇声汇语科技有限公司

申请日:2021-06-02

公开(公告)日:2024-03-08

公开(公告)号:CN113268576B

主分类号:G06F16/332

分类号:G06F16/332;G06F16/33;G06F40/126;G06F40/194;G06F40/30;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.08#授权;2021.09.03#实质审查的生效;2021.08.17#公开

摘要:本发明涉及语言信息处理技术领域,特别是指一种基于深度学习的部门语义信息抽取的方法及装置,方法包括:对获取的用户问句数据进行预处理,得到预处理数据;将所述预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;基于所述数据标注结果抽取所述用户问句数据中的部门语义信息。采用本发明,可以提高部门信息抽取的准确率。

主权项:1.一种基于深度学习的部门语义信息抽取的方法,其特征在于,所述方法包括:对获取的用户问句数据进行预处理,得到预处理数据;将所述预处理数据输入预先训练好的BERT字编码模型中,得到字向量数据;将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果;基于所述数据标注结果抽取所述用户问句数据中的部门语义信息;其中,所述对获取的用户问句数据进行预处理,得到预处理数据,包括:去除所述用户问句数据中的非文本信息,将所述用户问句数据中的英文字符转化为小写字符,得到统一格式数据;将所述统一格式数据进行单个字拆分,得到文本序列,按照BIO标记规则对文本序列中的每个字进行标注,每个字标注的BIO标签由边界标签和类别标签两部分组成,边界标签由BIO来表示元素在部门语义信息中的位置信息,B表示元素在部门语义信息的开头,I表示元素在部门语义信息的中间或结尾部分,O表示元素非部门语义信息,类别标签即为部门语义信息对应的类别;其中,所述位置注意力机制BiLSTM模型包括BiLSTM编码模块、基于位置感知的语义角色影响计算模块以及CRF层;所述将所述字向量数据输入预先训练好的位置注意力机制BiLSTM模型中,得到数据标注结果,包括:将所述字向量数据输入所述BiLSTM编码模块,得到编码结果向量;将所述字向量数据输入所述基于位置感知的语义角色影响计算模块,得到位置影响向量;将所述编码结果向量与所述位置影响向量结合,得到基于位置感知影响的语义角色编码向量;将所述语义角色编码向量输入所述CRF层,得到数据标注结果;其中,所述将所述字向量数据输入所述基于位置感知的语义角色影响计算模块,得到位置影响向量,包括:基于所述字向量数据与预设的部门语义信息库词的相似度对比,确定所述字向量数据中的至少一个核心词;通过下述公式1,计算所述字向量数据中每个核心词的影响矩阵K,其中,所述影响矩阵K中每列元素表示距离核心词特定距离对应的影响矢量;Ki,u~NKernelu,σ……1其中,Ki,u表示第i维中距离核心词为u时的影响,其符合期望值是Kernelu、标准差是σ的正态分布,即Ki,u~NKernelu,σ,其中,Kernelu是高斯核函数,用来模拟基于位置感知的影响传播,即通过下述公式2,计算位置影响向量;Srj=KCj……2其中,Srj表示核心词在位置j处的累计影响向量,Cj计算出现在某段距离中核心词的数量,即Cj=∑q∈Q[j-u∈posq]+[j+u∈posq],Q是所述字向量数据中核心词的数量,q为Q中的一个核心词,posq是q在句子中的位置集合,[*]是判断符号,如果满足条件则为1,否则为0;其中,所述数据标注结果包括分别含有标签B-ORG、I-ORG和O的用户问句数据,其中,所述B-ORG标签表示对应的字位于BIO序列的开始位置,所述I-ORG标签表示对应的字位于所述BIO序列的中间位置或者结束位置,所述O标签表示对应的字非部门词;基于所述数据标注结果抽取所述用户问句数据中的部门语义信息,包括:确定所述B-ORG标签对应的字,以及所有I-ORG标签对应的字,将所述B-ORG标签对应的字以及所有I-ORG标签对应的字按顺序提取并组成词语,得到所述用户问句数据中的部门语义信息。

全文数据:

权利要求:

百度查询: 北京汇声汇语科技有限公司 一种基于深度学习的部门语义信息抽取的方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。