买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种社交平台的早期争议性消息检测方法及系统_中国科学院计算技术研究所_202010382894.0 

申请/专利权人:中国科学院计算技术研究所

申请日:2020-05-08

公开(公告)日:2023-09-12

公开(公告)号:CN111694955B

主分类号:G06F16/35

分类号:G06F16/35;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2023.09.12#授权;2020.10.20#实质审查的生效;2020.09.22#公开

摘要:本发明提出一种社交平台的早期争议性消息检测方法及系统,包括:收集社交平台中关于预设话题下的所有消息,并根据每一条消息的评论信息为每一条消息的争议性进行标记,提取标记后消息的多维度争议性特征作为训练数据,以该训练数据训练梯度提升树模型,得到争议性消息检测模型;从该社交平台获取待发表的消息作为待检测消息,并将该待检测消息的多维度争议性特征输入至该争议性消息检测模型,得到该待检测消息的争议性消息检测结果。本发明可得到社交平台中待审核发表消息的争议性。

主权项:1.一种社交平台的早期争议性消息检测方法,其特征在于,包括:步骤1、收集社交平台中关于预设话题下的所有消息,并根据每一条消息的评论信息为每一条消息的争议性进行标记,提取标记后消息的多维度争议性特征作为训练数据,以该训练数据训练梯度提升树模型,得到争议性消息检测模型;步骤2、从该社交平台获取待发表的消息作为待检测消息,并将该待检测消息的多维度争议性特征输入至该争议性消息检测模型,得到该待检测消息的争议性消息检测结果;其中该步骤1包括:步骤11、收集发布预设时间段内的热门话题,利用网络爬虫收集热门话题下的所有消息及评论,根据每一个消息的评论中包含观点的争议性,为每一个消息标签标记标签,对每一条消息提取多维度争议性特征,结合每一条消息的标签,得到训练梯度提升树模型的训练数据;该标签内容为其对应消息是否属于争议性消息,若消息的评论中同时包含支持观点以及反对观点,并且支持观点和反对观点比例相同,则该消息为争议性消息,否则为非争议性消息;该多维度争议性特征包括:发表消息的用户的微博数,和或发表信息的用户的粉丝数,和或发表信息的用户的关注数,和或信息的字符数,和或信息的词数,和或信息的逗号数目,和或信息的感叹号数目,和或信息的句号数目,和或信息的问号数目,和或信息的省略号数目,和或信息中感叹号数目占该消息字符数的比例,和或信息中句号数目占该消息字符数的比例,和或信息中问号数目占该消息字符数的比例,和或信息中省略号数目占该消息字符数的比例,和或信息的平均词长,和或信息的最长感叹号数,和或信息的最长问号数,和或信息的最长逗号数,和或信息的最长句号数,和或信息的最长省略号数,和或信息的代词数,和或信息的量词数目,和或信息的阿拉伯数字数目,和或信息的否定词数目,及占该消息词数的比例,和或信息的强程度词数目,及占该消息词数的比例,和或信息的弱程度词数目及占该消息词数的比例,和或信息的不确定程度词数及占该消息词数的比例,和或信息的转折词数及占该消息词数的比例,和或信息的第一、二、三人称代词的数目及占该消息所有词数的比例,和或信息的人名、地名、组织机构名的数目及占该消息所有词数的比例,和或信息的情感极性及情感值。

全文数据:

权利要求:

百度查询: 中国科学院计算技术研究所 一种社交平台的早期争议性消息检测方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。