【发明授权】基于Bert模型的互联网负面信息监控方法_北京工业大学_202110257490.3

导航：龙图腾网> 最新专利技术> 基于Bert模型的互联网负面信息监控方法_北京工业大学_202110257490.3

申请/专利权人：北京工业大学

申请日：2021-03-09

公开（公告）日：2024-04-16

公开（公告）号：CN113065348B

主分类号：G06F40/284

分类号：G06F40/284;G06F18/2431;G06F16/951;G06N3/0455

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2021.07.20#实质审查的生效;2021.07.02#公开

摘要：本发明公开了基于Bert模型的互联网负面信息监控方法，利用爬虫技术获取贴吧，论坛，微博等数据，完成数据预处理。搭建Bert环境，完成Bert模型特征抽取。初步判断由于测试集与训练集语料在领域主题上比较接近，基于训练集所得到的词向量用在测试集上语境恰好合适。训练集和测试集数据取自同一个时间范围，测试集上应该也没有太多未编码的超纲新词。word2vec+LSTM模型的效果同样也不错。从模型预测执行效率看，Bert模型特征提取方法需要搭建Bertasservice服务器环境，还需要通过Webservices调用获得网页文本净荷的编码，增加了交互步骤和复杂度，此为该方法的一个短处所在。

主权项：1.基于Bert模型的互联网负面信息监控方法，其特征在于：该方法包括如下步骤，步骤1：根据提供的赌博类网站列表，得到近千个中文内容页面为主的黑名单网站样本；从网站中选取中文页面网站，再从中进行抽样，得到白名单网站样本；利用爬虫工具将黑白样本网站的首页HTML内容爬取下来；使用Python环境下的beautifulsoup网页分析工具包，将HTML标签、JavaScript脚本与实际网页题材内容无关的信息过滤掉，仅保留中文字符和标点作为文本净荷；步骤2：搭建Bert环境，要求Bertasservice运行环境要求为：Python＝3.5，Tensorflow＝1.10；部署Bertasservice的服务器端和客户端工具；安装完成后，启动Bertasservice服务；步骤3：客户端调用Bertasservice方法，将一个网页文本净荷作为一个句子单位；服务端接收到文本句子之后对句子进行定长编码，并返回客户端，通过这种方式实现黑白样本的文本序列特征抽取；Bertasservice句子编码定长默认768维；步骤4：样本中随机选择比例80％作为模型训练集，剩余部分作为独立测试集；步骤5：在Python环境下，选择XGboost集成分类算法，以上述768维的句子编码作为输入特征，针对训练集数据进行分类模型训练；步骤6：设计对照组实验，对照组分别为TF-IDF模型方法和word2vec+LSTM模型方法；步骤7：采用Python环境下的jieba分词工具，对网页文本净荷进行分词；利用gensim工具包中封装的TF-IDF算法，提取网页文本净荷TF-IDF统计特征，词典做了适当截断以避免特征的高维问题；将该统计特征作为分类器输入，使用xgboost集成分类算法进行分类模型构建；步骤8：对网页文本净荷进行分词；word2vec词向量embedding学习以及LSTM神经网络搭建。

全文数据：

权利要求：

百度查询：北京工业大学基于Bert模型的互联网负面信息监控方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种处理安全漏洞的方法及装置、系统、计算机程序产品_上海商米科技集团股份有限公司_202410155802.3

下一篇：为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

相关技术

一种处理安全漏洞的方法及装置、系统、计算机程序产品_上海商米科技集团股份有限公司_202410155802.3

为放大器操作进行的平台资源的选择_超威半导体公司_202280065509.7

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

热解油提质为BTEX的两级催化方法_沙特阿拉伯石油公司_202280065181.9

一种预制叠合板浇筑模具的组合防松动装置_江西中煤建设集团有限公司_202410324859.1

基于渐进学习的无对比剂CT血管造影重构方法及系统_中国人民解放军总医院第一医学中心_202410128554.3

无机人造石脱模剂及其制备方法和无机人造石的制备方法_深圳市润丰新材料科技有限公司_202410151462.7

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

设备控制方法、装置、配电设备及存储介质_深圳市正浩创新科技股份有限公司_202410171534.4

一种数控龙门铣床_河北大恒重型机械有限公司_202410333473.7

全氟异丁腈的合成方法_天津市长芦化工新材料有限公司_202410424719.1

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

龙图腾网&IPTOP

【发明授权】基于Bert模型的互联网负面信息监控方法_北京工业大学_202110257490.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务