买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于通话文本词向量的终端诈骗电话识别方法_国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司_202010542362.9 

申请/专利权人:国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司

申请日:2020-06-15

公开(公告)日:2023-03-14

公开(公告)号:CN111669757B

主分类号:H04W12/12

分类号:H04W12/12;G06F40/211;G06F40/284;G06F40/30;G06N3/04

优先权:

专利状态码:有效-授权

法律状态:2023.03.14#授权;2020.10.13#实质审查的生效;2020.09.15#公开

摘要:一种基于通话文本词向量的终端诈骗电话识别方法,包括:用户在终端App中标记来话,当标记为诈骗类别时,经用户授权同意后转化为文本,由用户检视和脱敏,并在用户授权后上传服务器保存为文本样本;对文本样本进行分词和词性标注,获得分词的句法依存标签和词组合向量,再将词组合向量、词性标注和句法依存标签拼合构成分词的内容向量,计算分词所属的情景要素标签,以获得文本样本的语义向量;构建诈骗分类识别模型,使用服务器中文本样本作为训练样本,然后将训练好的模型从服务器端推送给App;App接收新的待识别通话后,根据模型获得其所属的涉诈类别,并提示用户。本发明属于信息技术领域,能基于通话文本准确识别诈骗电话。

主权项:1.一种基于通话文本词向量的终端诈骗电话识别方法,其特征在于,包括有:步骤一、用户在手机终端App中标记来话,对于用户标记为诈骗类别的来话,经用户授权同意后提取通话并转化为文本,然后将转化后的文本交由用户检视和脱敏,最后经用户授权同意后,将用户检视和脱敏后的文本上传至服务器保存为文本样本;步骤二、对服务器中的每个文本样本进行分词和词性标注,获得每个分词的句法依存标签,然后计算文本样本中每个分词的词向量、字向量、拼音向量和笔画向量,以据此构成文本样本中每个分词的词组合向量,再将每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本样本对应的语义向量;步骤三、构建诈骗分类识别模型,诈骗分类识别模型的输入是文本对应的语义向量,输出是文本所属的涉诈类别,使用服务器中用户自行上传的文本样本作为训练样本对诈骗分类识别模型进行训练,然后将训练好的模型从服务器端推送给用户的手机终端App进行模型更新;步骤四、用户的手机终端App接收到新的待识别通话后,提取其内容文本进行分词,并生成文本中所有分词的词性标注、句法依存标签、词组合向量,然后根据手机终端App内的诈骗分类识别模型,获得待识别通话号码所属的涉诈类别,并通过App消息提示用户,步骤二中,将文本样本中每个分词的词组合向量、词性标注和句法依存标签拼合构成每个分词的内容向量,并根据每个分词的内容向量计算得到每个分词所属的情景要素标签,最后对文本样本中所有分词的内容向量和情景要素标签进行平均化,从而获得文本对应的语义向量,进一步包括有:步骤A1、设置多个情景要素;步骤A2、将文本样本中每个分词的词组合向量、词性标注和句法依存标签输入LSTM模型进行编码,并得到每个分词对应的内容向量;步骤A3、使用Self-Attention,根据每个分词的词组合向量,计算每个分词相对于其他分词的加权影响力因子;步骤A4、将步骤A2获得的每个分词的内容向量和步骤A3获得的每个分词的加权影响力因子拼合成每个分词的新内容向量,然后将每个分词的新内容向量输入至CNN模型,CNN模型的输出是每个分词对应的情景要素;步骤A5、将文本样本中每个分词的新内容向量和情景要素输入LSTM模型进行编码,并将文本样本中所有分词对应的LSTM模型的输出结果拼合成向量矩阵,取向量矩阵第二维度的平均值作为文本样本的语义向量。

全文数据:

权利要求:

百度查询: 国家计算机网络与信息安全管理中心;杭州东信北邮信息技术有限公司 一种基于通话文本词向量的终端诈骗电话识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。