【发明授权】基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法_南京邮电大学;南京邮电大学盐城大数据研究院有限公司_201910327490.9

申请/专利权人：南京邮电大学;南京邮电大学盐城大数据研究院有限公司

申请日：2019-04-23

公开（公告）日：2023-07-14

公开（公告）号：CN110162651B

主分类号：G06F16/58

分类号：G06F16/58;G06F16/33;G06F40/253;G06F40/295;G06F18/241

优先权：

专利状态码：有效-授权

法律状态：2023.07.14#授权;2019.09.17#实质审查的生效;2019.08.23#公开

摘要：本发明揭示了一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。系统包括新闻报道采集模块、文本事件树构建模块、图片实体抽取模块、关联关系库构建模块、待测信息读取模块、图文关系判断模块以及最大似然判断模块。方法包括新闻报道采集步骤、文本事件树构建步骤、图片实体抽取步骤、关联关系库构建步骤、待测信息读取步骤、图文关系判断步骤以及最大似然判断步骤。本发明能够让用户迅速地判断出新闻内容中图文的一致性，帮助用户筛选掉一批不实的新闻报道和一群不负责任的新闻媒体。本发明不仅有效地提高了鉴别操作的效率，同时也充分地保证了鉴别结果的准确性。

主权项：1.一种基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，包括：新闻报道采集模块，用于采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；文本事件树构建模块，用于构建新闻报道文本内容语义的事件树；所述文本事件树构建模块包括：文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块；所述文本实体抽取子模块具体包括，文本实体抽取第一单元，从历史新闻报道数据库中读取文本信息，文本实体抽取第二单元，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，文本实体抽取第三单元，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，文本实体抽取第四单元，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；所述文本关系抽取子模块具体包括，文本关系抽取第一单元，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二单元，若否则跳过后续单元，直接执行文本关系抽取第五单元，文本关系抽取第二单元，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，文本关系抽取第三单元，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，文本关系抽取第四单元，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，文本关系抽取第五单元，忽略该句子，不做关系抽取处理；所述文本事件树生成子模块具体包括，文本事件树生成第一单元，读取数组形式的三元组文本信息，文本事件树生成第二单元，通过树库形成树形结构，文本事件树生成第三单元，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据；图片实体抽取模块，用于识别出与新闻报道图片内容相关度最高的实体；关联关系库构建模块，用于在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；待测信息读取模块，用于读取待检测的含有图片的新闻报道；图文关系判断模块，用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则启动最大似然判断模块；最大似然判断模块，用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。

全文数据：基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法技术领域本发明涉及一种鉴别系统及鉴别方法，具体涉及一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，属于新闻媒体智能领域。背景技术随着互联网的日益普及、媒体行业的不断发展，现如今，各类媒体平台的数量与日俱增，诸多自媒体也不断涌现。与这样的行业发展现状相对应的是，为了吸引更多的关注度与点击量，很多媒体人一味地追求新闻报道地时效性、而忽视了新闻报道中最根本的准确性。很多媒体人在进行新闻报道时，不是去现场采集第一手的新闻资料，而是直接对网络上已有的报道进行统合，直接盗用他人的图片，插入的图片和报道事件毫无关联，甚至在很多新闻中，图片中人物的都不是报道内容主题人物。在传统方式中，对于新闻内容图文不符的鉴别需要以人工的方式来完成，即人为地对所报道新闻的文本内容与图片内容搜集大量相关资料，进行全面分析、匹配鉴别，毫无疑问，这样的操作需要耗费大量的时间和人力，并且无法保证鉴别结果的有效性。语义内容摘要指的是对文本、图片以及其他语言载体中的内容所进行的简明而核心的梗概，它可以帮助用户迅速了解内容中的关键部分，是当前信息爆炸时代的重要工具之一。可以预见，如果将语义内容摘要技术应用于新闻报道中，那么就能够迅速地判断出新闻本文内容与图片内容的主题，进而对其的图文一致性进行判断。综上所述，如何在现有技术的基础上提出基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，以解决目前人工鉴别导致效率低下、正确率不高的问题，也就成为了本领域内技术人员共同的研究目标。发明内容鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。一种基于语义内容摘要的新闻内容图文不符鉴别系统，包括：新闻报道采集模块，用于采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；文本事件树构建模块，用于构建新闻报道文本内容语义的事件树；图片实体抽取模块，用于识别出与新闻报道图片内容相关度最高的实体；关联关系库构建模块，用于在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；待测信息读取模块，用于读取待检测的含有图片的新闻报道；图文关系判断模块，用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则启动最大似然判断模块；最大似然判断模块，用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。优选地，所述文本事件树构建模块包括：文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块；所述文本实体抽取子模块具体包括，文本实体抽取第一单元，从历史新闻报道数据库中读取文本信息，文本实体抽取第二单元，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，文本实体抽取第三单元，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，文本实体抽取第四单元，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；所述文本关系抽取子模块具体包括，文本关系抽取第一单元，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二单元，若否则跳过后续单元，直接执行文本关系抽取第五单元，文本关系抽取第二单元，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，文本关系抽取第三单元，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，文本关系抽取第四单元，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，文本关系抽取第五单元，忽略该句子，不做关系抽取处理；所述文本事件树生成子模块具体包括，文本事件树生成第一单元，读取数组形式的三元组文本信息，文本事件树生成第二单元，通过树库形成树形结构，文本事件树生成第三单元，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。优选地，所述图片实体抽取模块具体包括：图片实体抽取第一单元，从历史新闻报道数据库中读取图片信息，图片实体抽取第二单元，使用图像目标检测模型识别图片中的多个实体，图片实体抽取第三单元，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。一种基于语义内容摘要的新闻内容图文不符鉴别方法，包括如下步骤：S1、新闻报道采集步骤，采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；S2、文本事件树构建步骤，构建新闻报道文本内容语义的事件树；S3、图片实体抽取步骤，识别出与新闻报道图片内容相关度最高的实体；S4、关联关系库构建步骤，在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；S5、待测信息读取步骤，读取待检测的含有图片的新闻报道；S6、图文关系判断步骤，计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则进入最大似然判断步骤；S7、最大似然判断步骤，求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。优选地，S2所述文本事件树构建步骤包括：S21、文本实体抽取子步骤，具体包括，S211、文本实体抽取第一步骤，从历史新闻报道数据库中读取文本信息，S212、文本实体抽取第二步骤，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，S213、文本实体抽取第三步骤，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，S214、文本实体抽取第四步骤，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；S22、所述文本关系抽取子步骤，具体包括，S221、文本关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二步骤，若否则跳过后续步骤，直接执行文本关系抽取第五步骤，S222、文本关系抽取第二步骤，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，S223、文本关系抽取第三步骤，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，S224、文本关系抽取第四步骤，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，S225、文本关系抽取第五步骤，忽略该句子，不做关系抽取处理；S23、文本事件树生成子步骤，具体包括，S231、文本事件树生成第一步骤，读取数组形式的三元组文本信息，S232、文本事件树生成第二步骤，通过树库形成树形结构，S233、文本事件树生成第三步骤，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。优选地，S3所述图片实体抽取步骤具体包括：S31、图片实体抽取第一步骤，从历史新闻报道数据库中读取图片信息，S32、图片实体抽取第二步骤，使用图像目标检测模型识别图片中的多个实体，S33、图片实体抽取第三步骤，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。与现有技术相比，本发明的优点主要体现在以下几个方面：本发明的基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，能够让用户迅速地判断出新闻内容中图文的一致性，帮助用户筛选掉一批不实的新闻报道和一群不负责任的新闻媒体。本发明不仅有效地提高了鉴别操作的效率、缩短了鉴别所需的时间、节约了人力资源，同时也充分地保证了鉴别过程的标准化、提高了鉴别结果的准确性。同时，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于图文信息鉴别方面的其他相关技术方案中，具有十分广阔的应用前景。以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。附图说明图1为本发明中系统的整体结构示意图；图2为本发明中文本事件树构建模块的结构示意图；图3为本发明中文本实体抽取子模块的结构示意图；图4为本发明中文本关系抽取子模块的结构示意图；图5为本发明中文本事件树生成子模块的结构示意图；图6为本发明中图片实体抽取模块的结构示意图。具体实施方式本发明针对现有操作中人工鉴别的情况，提出了一种基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法。如图1所示，本发明的一种基于语义内容摘要的新闻内容图文不符鉴别系统，包括：新闻报道采集模块100，用于采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中。文本事件树构建模块200，用于构建新闻报道文本内容语义的事件树。图片实体抽取模块300，用于识别出与新闻报道图片内容相关度最高的实体。关联关系库构建模块400，用于在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体。待测信息读取模块500，用于读取待检测的含有图片的新闻报道。图文关系判断模块600，用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则启动最大似然判断模块。最大似然判断模块700，用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。如图2所示，所述文本事件树构建模块200包括：文本实体抽取子模块210、文本关系抽取子模块220以及文本事件树生成子模块230，具体而言如下。如图3所示，所述文本实体抽取子模块210具体包括:文本实体抽取第一单元211，从历史新闻报道数据库中读取文本信息。文本实体抽取第二单元212，对于读取的文本信息，使用句号、分号等符号将其划分成若干短句，来表示这些句子的开始和结束。文本实体抽取第三单元213，对于划分好的文本信息，使用人工智能自然语言处理领域的命名实体识别模型进行实体的抽取，所述命名实体识别模型可以是HMM+CRF、LSTM+CRF等。文本实体抽取第四单元214，对于抽取出的实体，并不是所有的实体对于系统都是有用的，故先对一个大型的新闻报道文本内容数据集进行类似于TF-IDF的算法权重训练，得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。如图4所示，所述文本关系抽取子模块220通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息，具体包括:文本关系抽取第一单元221，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二单元，若否则跳过后续单元，直接执行文本关系抽取第五单元。文本关系抽取第二单元222，对于每一个划分出来的句子，使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注。文本关系抽取第三单元223，句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系。文本关系抽取第四单元224，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系。文本关系抽取第五单元225，忽略该句子，不做关系抽取处理。如图5所示，所述文本事件树生成子模块230用于将抽取出的三元组关系信息保存到树形结构中，生成事件树，具体包括:文本事件树生成第一单元231，读取数组形式的三元组文本信息。文本事件树生成第二单元232，树形结构有很多种，如二叉树、n叉树，句法树等，不局限于使用一种树的形式，可以通过树库treelib、Anytree等形成树形结构。文本事件树生成第三单元233，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。如图6所示，所述图片实体抽取模块300具体包括：图片实体抽取第一单元310，从历史新闻报道数据库中读取图片信息。图片实体抽取第二单元320，使用图像目标检测模型识别图片中的多个实体，所述图像目标检测模型包括FasterRCNN、Yolo和Yolo2、SSD、MaskRCNN等。图片实体抽取第三单元330，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。本发明还揭示了一种基于语义内容摘要的新闻内容图文不符鉴别方法，总体而言，本发明的方法包括下列步骤：步骤一、采集原创性历史新闻事件，筛选出含有图片信息的新闻报道。步骤二、构建新闻报道文本内容语义的事件树，事件树包括事件实体和关系。步骤三、对新闻图片内容进行分析，抽取图片中的实体对象。步骤四、构建历史新闻事件的图片实体和文本语义实体关联关系库。步骤五、对待检测的含有图片的新闻报道执行步骤二和步骤三。步骤六、计算新闻报道中的图片实体是否被包含在文本语义的事件树内，如果是，则输出图文相符，如果不是，则执行步骤七。步骤七、求当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，如果最大似然高于某个阈值，则输出图文相符，如果小于某个阈值，则输出图文不符。具体而言，本发明的方法包括如下步骤：S1、新闻报道采集步骤，采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中。S2、文本事件树构建步骤，构建新闻报道文本内容语义的事件树。S3、图片实体抽取步骤，识别出与新闻报道图片内容相关度最高的实体。S4、关联关系库构建步骤，在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体。S5、待测信息读取步骤，读取待检测的含有图片的新闻报道。S6、图文关系判断步骤，计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则进入最大似然判断步骤。S7、最大似然判断步骤，求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。S2所述文本事件树构建步骤包括：S21、文本实体抽取子步骤，具体包括，S211、文本实体抽取第一步骤，从历史新闻报道数据库中读取文本信息。S212、文本实体抽取第二步骤，对于读取的文本信息，使用句号、分号等符号将其划分成若干短句，来表示这些句子的开始和结束。S213、文本实体抽取第三步骤，对于划分好的文本信息，使用人工智能自然语言处理领域的命名实体识别模型进行实体的抽取，所述命名实体识别模型可以是HMM+CRF、LSTM+CRF等。S214、文本实体抽取第四步骤，对于抽取出的实体，并不是所有的实体对于系统都是有用的，故先对一个大型的新闻报道文本内容数据集进行类似于TF-IDF的算法权重训练，得到每一个词的权重。该单元用于对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。S22、所述文本关系抽取子步骤，通过寻找句子的主谓宾来抽取两个实体关系之间的动作三元组信息，具体包括，S221、文本关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二步骤，若否则跳过后续步骤，直接执行文本关系抽取第五步骤。S222、文本关系抽取第二步骤，对于每一个划分出来的句子，使用standford、LTP、FuDanNLP等工具对句子中的每个单词进行词性的标注。S223、文本关系抽取第三步骤，句子中存在主谓关系、动宾关系、定中关系、状中结构等许多复杂句式，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，同样也可以使用standford、LTP、FuDanNLP等工具划分出句子的依存关系。S224、文本关系抽取第四步骤，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系。S225、文本关系抽取第五步骤，忽略该句子，不做关系抽取处理。S23、文本事件树生成子步骤，用于将抽取出的三元组关系信息保存到树形结构中，生成事件树，具体包括，S231、文本事件树生成第一步骤，读取数组形式的三元组文本信息。S232、文本事件树生成第二步骤，树形结构有很多种，如二叉树、n叉树，句法树等，不局限于使用一种树的形式，可以通过树库treelib、Anytree等形成树形结构。S233、文本事件树生成第三步骤，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。S3所述图片实体抽取步骤具体包括：S31、图片实体抽取第一步骤，从历史新闻报道数据库中读取图片信息。S32、图片实体抽取第二步骤，使用图像目标检测模型识别图片中的多个实体，所述图像目标检测模型包括FasterRCNN、Yolo和Yolo2、SSD、MaskRCNN等。S33、图片实体抽取第三步骤，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。本发明的基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法，能够让用户迅速地判断出新闻内容中图文的一致性，帮助用户筛选掉一批不实的新闻报道和一群不负责任的新闻媒体。本发明不仅有效地提高了鉴别操作的效率、缩短了鉴别所需的时间、节约了人力资源，同时也充分地保证了鉴别过程的标准化、提高了鉴别结果的准确性。同时，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于图文信息鉴别方面的其他相关技术方案中，具有十分广阔的应用前景。对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

权利要求：1.一种基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，包括：新闻报道采集模块，用于采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；文本事件树构建模块，用于构建新闻报道文本内容语义的事件树；图片实体抽取模块，用于识别出与新闻报道图片内容相关度最高的实体；关联关系库构建模块，用于在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；待测信息读取模块，用于读取待检测的含有图片的新闻报道；图文关系判断模块，用于计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则启动最大似然判断模块；最大似然判断模块，用于求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。2.根据权利要求1所述的基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，所述文本事件树构建模块包括：文本实体抽取子模块、文本关系抽取子模块以及文本事件树生成子模块；所述文本实体抽取子模块具体包括，文本实体抽取第一单元，从历史新闻报道数据库中读取文本信息，文本实体抽取第二单元，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，文本实体抽取第三单元，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，文本实体抽取第四单元，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；所述文本关系抽取子模块具体包括，文本关系抽取第一单元，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二单元，若否则跳过后续单元，直接执行文本关系抽取第五单元，文本关系抽取第二单元，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，文本关系抽取第三单元，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，文本关系抽取第四单元，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，文本关系抽取第五单元，忽略该句子，不做关系抽取处理；所述文本事件树生成子模块具体包括，文本事件树生成第一单元，读取数组形式的三元组文本信息，文本事件树生成第二单元，通过树库形成树形结构，文本事件树生成第三单元，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。3.根据权利要求1所述的基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，所述图片实体抽取模块具体包括：图片实体抽取第一单元，从历史新闻报道数据库中读取图片信息，图片实体抽取第二单元，使用图像目标检测模型识别图片中的多个实体，图片实体抽取第三单元，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。4.一种基于语义内容摘要的新闻内容图文不符鉴别方法，其特征在于，包括如下步骤：S1、新闻报道采集步骤，采集原创性历史新闻事件，筛选出含有图片信息的新闻报道、并将其输入到历史新闻报道数据库中；S2、文本事件树构建步骤，构建新闻报道文本内容语义的事件树；S3、图片实体抽取步骤，识别出与新闻报道图片内容相关度最高的实体；S4、关联关系库构建步骤，在历史新闻报道数据库中查找是否有图片中实体存在的标签，若存在则直接将实体关联到对应的文本事件树中的实体；S5、待测信息读取步骤，读取待检测的含有图片的新闻报道；S6、图文关系判断步骤，计算新闻报道中的图片实体是否被包含在新闻报道文本内容语义的事件树内，若是则输出图文相符，若否则进入最大似然判断步骤；S7、最大似然判断步骤，求解当前新闻报道中的图片实体与文本实体的关联关系与历史新闻事件之间的最大似然，若最大似然高于阈值，则输出图文相符，若最大似然小于阈值，则输出图文不符。5.根据权利要求4所述的基于语义内容摘要的新闻内容图文不符鉴别方法，其特征在于，S2所述文本事件树构建步骤包括：S21、文本实体抽取子步骤，具体包括，S211、文本实体抽取第一步骤，从历史新闻报道数据库中读取文本信息，S212、文本实体抽取第二步骤，对于读取的文本信息，使用符号将其划分成若干短句，来表示这些句子的开始和结束，S213、文本实体抽取第三步骤，对于划分好的文本信息，使用命名实体识别模型进行实体的抽取，S214、文本实体抽取第四步骤，对抽取出来的实体进行权重的判断，若抽取出的实体权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体；S22、所述文本关系抽取子步骤，具体包括，S221、文本关系抽取第一步骤，判断一句话中是否包含两个以上的实体，若是则执行文本关系抽取第二步骤，若否则跳过后续步骤，直接执行文本关系抽取第五步骤，S222、文本关系抽取第二步骤，对于每一个划分出来的句子，对句子中的每个单词进行词性的标注，S223、文本关系抽取第三步骤，通过生成依存句法树来实现每一个句子中的主谓宾关系结构的抽取，划分出句子的依存关系，S224、文本关系抽取第四步骤，对于生成的依存树，通过对其进行剪枝，抽取出每一个句子的主谓宾三元组关系，S225、文本关系抽取第五步骤，忽略该句子，不做关系抽取处理；S23、文本事件树生成子步骤，具体包括，S231、文本事件树生成第一步骤，读取数组形式的三元组文本信息，S232、文本事件树生成第二步骤，通过树库形成树形结构，S233、文本事件树生成第三步骤，将生成的事件树通过递归的方式将树的节点内容存入到数据库中，需要使用时直接读取树形结构数据。6.根据权利要求3所述的基于语义内容摘要的新闻内容图文不符鉴别系统，其特征在于，S3所述图片实体抽取步骤具体包括：S31、图片实体抽取第一步骤，从历史新闻报道数据库中读取图片信息，S32、图片实体抽取第二步骤，使用图像目标检测模型识别图片中的多个实体，S33、图片实体抽取第三步骤，筛选对系统有用的实体，将图片实体的出现频率和置信概率作为其权重，若抽取出的实体的权重值大于等于预设值，则保留抽取出的实体，若抽取出的实体的权重值小于预设值，则不保留抽取出的实体。

百度查询：南京邮电大学;南京邮电大学盐城大数据研究院有限公司基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

下一篇：一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

相关技术

一种降低冷轧轧制力的方法_首钢智新迁安电磁材料有限公司_202111360250.2

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

基于无监督学习的多视角显著性估计方法_西北工业大学_202011250827.X

一种即时检验抗凝药物监测系统_北京倍肯恒业科技发展股份有限公司_202310581047.0

一种多功能模块化农村生活污水处理设备及处理方法_江苏大学_202211232661.8

一种处理DMS红外光反射导致亮斑的系统_钧捷智能(深圳)有限公司_202310101483.3

一种防止带钢在精轧卷取中发生追尾的方法_首钢京唐钢铁联合有限责任公司_202210031884.1

泌尿道菌群检测在女性泌尿道结石诊断中的应用_广东省科学院微生物研究所(广东省微生物分析检测中心)_202111500822.2

基于数字镜像的变电站自动化设备状态诊断方法和系统_北京四方继保工程技术有限公司_202210022507.1

一种用于开槽埋管的冷冻施工辅助设备及方法_长江生态环保集团有限公司_202310118173.2

一种产丙酸的工程益生菌的构建与应用_天津大学_202310196065.7

不符相关技术

一种核电厂质量缺陷报告与生产不符合项精准匹配方法_中核核电运行管理有限公司_202210348306.0

一种应用于核电厂生产不符合项的精准匹配方法_中核核电运行管理有限公司_202210329288.1

基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法_南京邮电大学_201910327490.9

一种用于不符合要求的大粒径物料循环加工装置_济南乐华表面处理有限公司_202223129349.4

基于测深不符值角相关性的多波束测深系统误差改正方法_中国人民解放军91053部队_202211478706.X

描绘测地参考基准面不符合区域、机场和飞行计划要素的系统和方法_霍尼韦尔国际公司_201711012643.8

与不符合公差链中的尺寸公差相关的风险管理_空中客车运营简化股份公司_202110985786.7

用于与不符合ISO的静脉注射容器一起使用的静脉注射长钉_康尔福盛303公司_202080019021.1

基于人车关联分析的准驾不符违法行为预警方法_公安部交通管理科学研究所_201910813206.9

构造用于结束不符合期望的热事件的电池组_大众汽车股份公司_202010849492.7

内容相关技术

多平台网络内容的人工智能治理网络内容方法_华南师范大学_202410026596.6

内容质量评分方法及相关装置_深圳希施玛数据科技有限公司_202410413080.7

自动化智能内容生成_微软技术许可有限责任公司_202180091208.7

基于内容理解的遥感影像统筹推荐方法_北京数慧时空信息技术有限公司_202210992027.8

对内容样本进行聚类的方法和装置_腾讯科技(深圳)有限公司_202010824726.2

基于数据内容的用户行为风险分析_上海凯馨信息科技有限公司_202410220983.3

内容分类方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202110687914.X

用于预览显示内容的方法及相关产品_楚天龙股份有限公司_202410175167.5

用于下混合音频内容的响度调整_杜比实验室特许公司_202410171725.0

生成小说内容的方法、装置、设备和存储介质_北京字跳网络技术有限公司_202410218729.X

新闻相关技术

浏览器中的推荐新闻显示方法、装置、设备及存储介质_腾讯科技(武汉)有限公司_201810803100.6

一种新闻推荐方法、系统及设备_联奕科技股份有限公司_202311205814.4

基于协同过滤和概率语言术语集的新闻推荐方法及系统_海南大学_202311094314.8

基于新闻内容的视频推荐方法、装置、设备和存储介质_中国人民解放军国防科技大学_202410228267.X

新闻主体判定的方法、装置、计算机设备和存储介质_平安科技(深圳)有限公司_201811089343.4

基于正则匹配和Bloom filter的增量新闻URL提取方法_江西数易科技有限公司_202210158871.0

新闻筛选的方法、装置、计算机设备和存储介质_平安科技(深圳)有限公司_201811089853.1

一种图文新闻的视觉自动生成方法及系统_中国传媒大学_202010392691.X

基于融合新闻素材的数字水印签名校验方法、装置和设备_中国人民解放军国防科技大学_202410363275.5

一种适用于同时检测恶意评论和虚假新闻的机器学习方法_北京远禾科技有限公司_202311235587.X

龙图腾网&IPTOP

【发明授权】基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法_南京邮电大学;南京邮电大学盐城大数据研究院有限公司_201910327490.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务