买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于聚类句子的方法和装置_北京百度网讯科技有限公司_201910255951.6 

申请/专利权人:北京百度网讯科技有限公司

申请日:2019-04-01

公开(公告)日:2024-04-09

公开(公告)号:CN111858916B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2020.11.17#实质审查的生效;2020.10.30#公开

摘要:本申请实施例公开了用于聚类句子的方法和装置。该方法的一具体实施方式包括:将待聚类句子集合中的每个句子对应的语义向量组成的集合确定为语义向量集合;对于语义向量集合中的每个语义向量,执行以下密度计算操作;对于语义向量集合中的每个语义向量,执行以下聚类划分操作;对于所建立的每个聚类,将划分到该聚类中的各个语义向量中密度最大的语义向量确定为该聚类的聚类中心语义向量;将所确定的各聚类中心语义向量对应的待聚类句子确定为聚类中心句子集合。该实施方式提高了句子聚类的准确率。

主权项:1.一种用于聚类句子的方法,包括:将待聚类句子集合中的每个句子对应的语义向量组成的集合确定为语义向量集合;对于所述语义向量集合中的每个语义向量,执行以下密度计算操作:确定该语义向量的近邻语义向量集合,其中,该语义向量的近邻语义向量集合是由所述语义向量集合中除该语义向量之外的各个语义向量中与该语义向量的距离最近的预设数目个语义向量组成的;以及基于该语义向量的近邻语义向量集合中各近邻语义向量与该语义向量之间的距离确定该语义向量的密度;对于所述语义向量集合中的每个语义向量,执行以下聚类划分操作:确定最大密度语义向量的密度是否大于该语义向量的密度,其中,所述最大密度语义向量是该语义向量的近邻语义向量集合中密度最大的近邻语义向量;响应于确定大于,将该语义向量划分到所述最大密度语义向量所属的聚类;响应于确定不大于,新建聚类,以及将该语义向量划分到所新建的聚类;对于所建立的每个聚类,将划分到该聚类中的各个语义向量中密度最大的语义向量确定为该聚类的聚类中心语义向量;将所确定的各聚类中心语义向量对应的待聚类句子确定为聚类中心句子集合。

全文数据:

权利要求:

百度查询: 北京百度网讯科技有限公司 用于聚类句子的方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。