首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】文本标签确定方法、装置、终端及可读存储介质_腾讯科技(深圳)有限公司_202011065821.5 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2020-09-30

公开(公告)日:2024-04-30

公开(公告)号:CN112131350B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/9535;G06F16/783;G06F40/30;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2022.10.25#实质审查的生效;2020.12.25#公开

摘要:本申请是关于一种文本标签确定方法、装置、终端及可读存储介质,属于标签挖掘领域。所述方法包括:对目标文本进行分词处理,得到分词集合,所述分词集合中包括所述目标文本分词得到的分词词汇,所述目标文本为待确定标签的文本;根据所述分词词汇的上下文关系,确定所述目标文本的第一候选标签;根据所述分词词汇在所述目标文本中的第一频率参数,和所述分词词汇在文本集合中的第二频率参数,确定所述目标文本的第二候选标签;根据所述第一候选标签和所述第二候选标签确定所述目标文本的标签。本申请解决了标签确定过程中未考虑词汇在上下文语义环境,导致的标签确定的准确度不高的问题,提高了获取标签的准确度。

主权项:1.一种文本标签确定方法,其特征在于,所述方法包括:对目标文本进行分词处理,得到分词集合,所述分词集合中包括所述目标文本分词得到的分词词汇,所述目标文本为待确定标签的文本;对所述分词词汇进行特征提取,得到所述分词词汇的词汇向量;对所述词汇向量结合上下文词汇向量进行特征分析,得到所述词汇向量对应的第一概率、第二概率以及第三概率,所述第一概率表示所述分词词汇属于标签实体的概率,所述第二概率表示所述分词词汇不属于所述标签实体的概率,所述第三概率表示所述分词词汇属于标签实体内对应实体的概率;其中,若所述分词词汇为实体,则所述第一概率高;若所述分词词汇为非实体,则所述第二概率高;若所述分词词汇为实体且其前一分词词汇为实体,则所述第三概率高;将所述第一概率、所述第二概率以及所述第三概率输入至条件随机场,得到所述分词词汇对应的预测标签,所述预测标签指示所述第一概率、所述第二概率和所述第三概率中的其中之一;滤除所述预测标签指示所述第二概率的分词词汇;根据所述预测标签指示所述第一概率的分词词汇以及所述预测标签指示所述第三概率的分词词汇,确定所述目标文本的第一候选标签;根据所述分词词汇在所述目标文本中的第一频率参数,和所述分词词汇在文本集合中的第二频率参数,确定所述目标文本的第二候选标签;根据所述第一候选标签和所述第二候选标签确定所述目标文本的标签。

全文数据:

权利要求:

百度查询: 腾讯科技(深圳)有限公司 文本标签确定方法、装置、终端及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。