【发明授权】一种实时文本数据流去重系统及方法_中国电子科技集团公司第三十研究所_202410288617.1

申请/专利权人：中国电子科技集团公司第三十研究所

申请日：2024-03-14

公开（公告）日：2024-05-17

公开（公告）号：CN117892727B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/216;G06F9/54;G06F16/903

优先权：

专利状态码：有效-授权

法律状态：2024.05.17#授权;2024.05.03#实质审查的生效;2024.04.16#公开

摘要：本发明公开了一种实时文本数据流去重系统及方法，涉及数据去重领域，其中去重系统包括：数据输入端，所述数据输入端由用于接收与发送文本数据流的消息队列组成；数据处理端，所述数据处理端由流处理引擎组成，能够按不同语种对文本数据进行预处理，并基于改进Ksentence进行文本标识计算，最后形成输出数据流；数据输出端，所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中；并以此提出了一种去重方法；本发明，侧重于对海量性、实时性的文本进行去重，适用于在线实时场景。

主权项：1.一种实时文本数据流去重方法，其特征在于，基于一种实时文本数据流去重系统，包括：步骤S1：面向多语种的文本预处理；对输入的文本数据按不同语种进行清洗以及预处理；步骤S2：基于改进Ksentence的文本标识计算；选择分词后长度大于K的词进行拼接，并利用simhash计算哈希值，得到文本唯一标识值key；步骤S3：基于标识的文本存储策略；通过将key值作为流数据输出数据库的主键的组成部分，利用数据库的主键更新策略，实现文本实时去重；所述步骤S1，包括：步骤S11：从kafka实时消息队列中获取文本数据；步骤S12：使用正则表达式对文本数据进行正则清洗，特殊符号用空格进行替换，并去除16进制编码与base64编码；步骤S13：对经步骤S12处理后得到的字符串，按语种进行切割，得到语种字符串数组；步骤S14：对中英文进行处理；步骤S15：返回处理后的语种字符串数组；所述步骤S13，包括：记录每个空格的位置得到数组，循环数组中的空格位置，并判断空格与空格之间字符串的语种类型，将相同语种的字符串用分号进行拼接，得到若干语种字符串；不同语种字符串共同组成一个语种字符串数组，且数组长度为语种的个数；所述步骤S14，包括：若存在中文，则使用jieba对中文使用空格进行分词，并去除停用词；若存在英文，则还原英文词性，去除停用词；若为其余语种，则不做任何处理；所述步骤S2，包括：步骤S21：获取语种字符串数组；步骤S22：按；进行分割，取长度大于K的字符串；步骤S23：按语种顺序将选择的字符串按空格拼接；步骤S24：计算拼接后的字符串的唯一标识值；所述步骤S22，包括：对数组中的每一个元素，若该元素为中文，在用分号将字符串分割成列表后，保留列表中长度大于K的字符串；若该元素不为中文，在用分号将字符串分割成列表后，保留列表中长度大于M的字符串；所述步骤S23，包括：按语种类型的升序进行排序，将步骤S22中保留的字符串用空格进行拼接，形成新的字符串；步骤S24，包括：计算新的字符串的simhash值，并将该值作为新的字符串对应文本的唯一标识值key；所述一种实时文本数据流去重系统，包括：数据输入端，所述数据输入端由用于接收与发送文本数据流的消息队列组成；数据处理端，所述数据处理端由流处理引擎组成，能够按不同语种对文本数据进行预处理，并基于改进Ksentence进行文本标识计算，最后形成输出数据流；数据输出端，所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中。

全文数据：

权利要求：

百度查询：中国电子科技集团公司第三十研究所一种实时文本数据流去重系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种电子元器件封装检测一体机_合肥中航天成电子科技有限公司_202410575548.2

下一篇：基于综合能源系统隐私保护的分布式经济调度方法_三峡大学_202410360135.2

相关技术

一种电子元器件封装检测一体机_合肥中航天成电子科技有限公司_202410575548.2

基于综合能源系统隐私保护的分布式经济调度方法_三峡大学_202410360135.2

焦化废水处理设备_河北协同水处理技术有限公司_202410304587.9

一种电压驱动型器件多电平驱动电路及其控制方法_华北电力大学_202410274782.1

一种锥底立筒仓通风与破拱装置_扬州大学_202410462851.1

一种预制装配式轻钢结构房屋_山东经典装配式建筑科技有限公司_202410430247.0

一种快速锻造液压机_江苏拢研机械有限公司_202410351730.X

一种改善皮肤微生态的奶粉及其制备方法_内蒙古伊利实业集团股份有限公司_202410416092.5

机器人派送物品的处理方法、装置及存储介质_上海擎朗智能科技有限公司_202410305857.8

一种基于等离子体增强原子层沉积的超薄氧化铟薄膜晶体管及其制备方法_山东大学_202410248285.4

一种土壤修复用土壤修复剂喷洒装置_唐臣燕_202410301878.2

一种自封式预制灌浆封堵防溢塞_中铁二局集团有限公司_202410274073.3

文本相关技术

文本识别模型训练方法和装置、文本识别方法和装置_北京沃东天骏信息技术有限公司_202211521567.4

语音文本转换方法及装置_中译语通科技股份有限公司_202311369694.1

一种基于代码文本内容的代码保护方法及编译器文本锁_麒麟软件有限公司_202410308936.4

字号检测方法、文本处理方法及装置_抖音视界有限公司_202211567759.9

一种文本匹配方法及装置_上海销氪信息科技有限公司_202110856494.3

一种对话文本的分类及装置_中国移动通信有限公司研究院_202211562098.0

基于LLM的文本翻译方法、装置及程序产品_不鸣科技(杭州)有限公司_202410263623.1

文本对话方法、装置、电子设备及存储介质_中国平安人寿保险股份有限公司_202011563001.9

一种在线人工文本标记系统及方法_孙炜_202010469009.2

用于识别语音和文本的设备和方法_三星电子株式会社_201911106621.7

系统相关技术

系统信息传输方法、设备及系统_华为技术有限公司_202010291741.5

储能系统和微电网系统_宁德时代新能源科技股份有限公司_202322652243.0

上料系统及配料系统_深圳市曼恩斯特科技股份有限公司_202410490433.3

血栓清除系统及辅助回收系统_上海微创医疗器械(集团)有限公司_202321987308.0

结算系统_东芝泰格有限公司_202311038722.1

导管系统_美敦力爱尔兰制造无限公司_202280071933.2

检测系统_清软微视(杭州)科技有限公司_202410140543.7

电梯系统_东芝电梯株式会社_202311598777.8

运动系统_迪尼斯玛有限公司_202080056360.7

气化系统_国家能源集团宁夏煤业有限责任公司_202323033534.8

数据流相关技术

用于多模态通信中的数据流协调的方法和装置_交互数字专利控股公司_202280071512.X

基于FPGA的测试图像数据流处理方法、装置及PG设备_北京镁伽科技有限公司_202111567202.0

数据流推送单元、处理单元及相关装置和方法_平头哥(上海)半导体技术有限公司_202410131852.8

一种基于数据流的三维网格大模型数据压缩算法_湖南创信伟立科技股份有限公司_202410145263.5

一种基于跨合约数据流分析的智能合约测试用例生成方法_南京工业大学_202410216212.7

一种数据流合并方法、装置、设备和计算机存储介质_深圳前海微众银行股份有限公司_202110713304.2

一种针对图像中二进制数据流的恢复方法_中科南京人工智能创新研究院_202410291133.2

一种流图程序生成方法和采用该方法的粗粒度数据流装置_中国科学院计算技术研究所_202410156325.2

流数据处理方法及相关设备_华为技术有限公司_202280072068.3

一种基于主从握手通信协议的数据流量控制方法及系统_西安航空学院_202410301399.0

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种实时文本数据流去重系统及方法_中国电子科技集团公司第三十研究所_202410288617.1

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务