买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于动态聚类和可视化的上下文语义序列比较方法_浙江浙里信征信有限公司;天道金科股份有限公司_202310445169.7 

申请/专利权人:浙江浙里信征信有限公司;天道金科股份有限公司

申请日:2023-04-20

公开(公告)日:2024-04-30

公开(公告)号:CN116521858B

主分类号:G06F16/34

分类号:G06F16/34;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2023.08.18#实质审查的生效;2023.08.01#公开

摘要:本发明公开了一种基于动态聚类和可视化的上下文语义序列比较方法,其中提供的ContextWing系统,支持对两个数据流之间不断演变的上下文序列模式进行两两比较。计算模型部分能够生成动态主题和序列模式,计算公众关注度和成对相关性。系统中还包含一种新颖的多层双边翼隐喻设计,能够直观地展示不同上下文融合的序列模式,以揭示两个序列在时间和语义方面的异同。交互式工具则支持选择中心词及其上下文关键词,以迭代地生成模式以进行重点探索。另外,系统还支持静态和流式设置分析,支持更广泛的应用场景。

主权项:1.一种基于动态聚类和可视化的上下文语义序列比较方法,其特征在于,对于实时流数据,基于BERTopic和KMeans++的动态聚类方法对连续更新的推文进行动态聚类后,再对动态流进行可视化分析,可视化分析具体包括步骤;S1,根据用户选定的中心词,通过计算推文中每个单词与所述中心词的相似度来提取所述中心词的上下文关键词;并计算所述上下文关键词和所述中心词的公众关注度用于计算所述中心词与所述上下文关键词之间的距离,以通过来量化针对后续选定的上下文关键词集合中的每个上下文关键词在后续构建的语义序列模式视图中的羽毛层的层次的水平位置;S2,计算所述上下文关键词与两个关键实体之间的关联度并可视化,与所述上下文关键词计算共现频率的实体定义为所述关键实体;经过关联度计算后,将与所述中心词具有关联度且排名前n的所述上下文关键词形成为上下文关键词集合;S3,根据所述公众关注度所述中心词及其上下文关键词集合,通过迭代搜索方法,生成语义序列模式并可视化;步骤S1中,计算所述中心词的所述上下文关键词的公众关注度的方法包括步骤:S11,计算所述公众关注度计算方法通过如下公式1表达: 公式1中,k表示用户或系统选定的所述中心词;c表示所述上下文关键词;n表示数据集中的推文总数;uic,k是一个包含条件,表示第i条推文是否包含c和k,如果是,则uic,k=1,否则为0;uic,-k表示第i条推文是否包含c但不包含k,如果是,则uic,-k=1,否则为0;ηi表示第i条推文是否被转发,如果是,则ηi=1,否则为0;ri表示第i条推文被转发的数量;S12,根据的值进行可视化。

全文数据:

权利要求:

百度查询: 浙江浙里信征信有限公司;天道金科股份有限公司 基于动态聚类和可视化的上下文语义序列比较方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。