【发明公布】一种基于文本聚类的配电网运检数据筛选方法_国网信息通信产业集团有限公司;西安交通大学_202311849293.6

申请/专利权人：国网信息通信产业集团有限公司;西安交通大学

申请日：2023-12-29

公开（公告）日：2024-03-22

公开（公告）号：CN117743582A

主分类号：G06F16/35

分类号：G06F16/35;G06F18/23;G06Q50/06;G06F40/30

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.09#实质审查的生效;2024.03.22#公开

摘要：本发明公开了一种基于文本聚类的配电网运检数据筛选方法，该方法通过应用自然语言处理和机器学习中的文本聚类算法，采用改进的TF‑IDF方法生成语义特征向量，基于层次聚类思想构建聚类特征树，实现配电网运检文本数据的聚类分组，从而对大量配电网运检数据进行快速有效的筛选，为配电网运行状态监测提供支持。

主权项：1.一种基于文本聚类的配电网运检数据筛选方法，其特征在于：步骤如下：步骤1：采集配电网运维过程中记录的文本数据作为数据集；步骤2：对配电网文本数据进行统一的预处理，过滤无用信息，提取配电网文本内容；步骤3：计算预处理后的配电网文本数据中词语的词频与逆文件频率指数：对于单一配电网文本，计算每个词在该配电网文本中的词频与逆文件频率指数；TF表示某个词语在某一文本中出现的频率，简称词频；由于配电网文本长短会影响TF值的大小，所以计算TF数值时需要标准化处理，具体公式为：式中：tfi,j是第i个词语在第j个配电网文本的词频，ni,j是第i个词语在第j个配电网文本中出现的次数，∑knk,j是第j个配电网文本包含的总词数；为了防止低频词语被过度惩罚，通过添加对数平滑项来改进TF的值：TFi,j＝logtfi,j+1IDF是逆文件频率指数，用于衡量词语在整个配电网文本数据集的普遍程度与重要程度；某个词语的逆文件频率指数的计算公式如下：其中，|D|是总的配电网文本个数，|{j:ti∈dj}|是含有词语ti的配电网文本个数，|D|+1是为了防止计算结果出现零值；当文本集合里的所有文本均计算完TF与IDF值，该步骤结束；步骤4：为每个配电网文本中的特征词即词语赋予权重系数：词语在配电网文本中的贡献度与它在单个配电网文本中出现的频率和在整个配电网文本数据集中出现的频率均有关系，该权重系数w的计算表达式为：w＝TF×IDF考虑到特征词类间分布和类内分布的影响，引入类间离散度因子CIatj和类内离散度因子CIitj,ck；CIatj＝2arctanStjπCIitj,ck＝2arctanstj,ckπ其中，Stj是特征词tj在各类别配电网文本之间的词频的分布标准差，stj,ck是指特征词tj在类别ck的词频与类别ck中实际包含该特征词的配电网文本的词频之差；故改进的特征权重Wtj,di,ck计算式为：对于每个配电网文本，根据步骤3中计算得到的TF与IDF值，获得每个词语的特征权重值，所有特征权重值构成的向量矩阵即为该条配电网文本对应的特征向量；步骤5：从所有配电网文本数据对应的特征向量构成的集合中读取第一个样本点，构造初始聚类特征三元组，聚类特征三元组中包含了配电网文本的主要类别信息；聚类特征CF表示为：CF＝N,LS,SS其中，N表示的是聚类特征包含的样本点的数目，LS表示的是样本特征向量各维度元素的和，SS表示样本特征向量各维度元素的平方和；设某一个簇包含N个样本点，写作ck＝{o1,o2,...,oN}，则对应的聚类特征计算公式为：簇的质心om、簇的半径R、簇连通平均距离d都能够通过聚类特征CF计算出来；其中，N1、N2分别表示两个簇包含的样本点数，LS1、LS2分别表示两个簇的样本特征向量各维度元素的和，SS1、SS2分别表示两个簇的样本特征向量各维度元素的平方和；步骤6：从配电网文本特征向量集合中依次读取新的样本点，构建聚类特征树：聚类特征树包含根节点、内部节点、叶子节点三类节点，每个节点都由多个聚类特征所构成；需要预先设定的约束参数有：枝平衡因子B指单个内部节点中可以存储的聚类特征数目阈值；叶平衡因子L指单个叶子节点中可以存储的聚类特征数目阈值；空间阈值T指的是能将样本点划入某一个聚类特征组的临界距离；以根节点为起点，每插入一个新的样本点，计算新样本点与已有的聚类特征CF的空间距离，当该距离在空间阈值T以内时，新样本点会被该聚类特征CF吸收；反之，新插入的样本点会作为一个新的聚类特征CF存在；步骤7：若当前聚类特征CF所在的叶子节点的聚类特征CF个数大于叶平衡因子L，则需将该叶子节点一分为二；具体的方法是将原叶子节点中间距最远的两个聚类特征CF选出来，分别作为两个新的叶子节点的初始聚类特征CF；而对于其他聚类特征CF的分配，则通过计算某聚类特征CF与两个新叶子节点的距离，选择较近的叶子节点来吸收该聚类特征CF；分裂结束后，原来的叶子节点也应消失；同理，内部节点的分裂也是这一过程；重复步骤6-7，直至配电网文本特征向量集合中所有样本点已被插入聚类特征CF，则构造了完整的配电网文本数据聚类特征树；步骤8：配电网文本数据聚类特征树的叶子节点包含的每个聚类特征CF可视作一个最小的簇，将步骤7最终得到的每一个簇心点作为该类别的起始点，再重新分配其他所有样本点，使其与最近的中心点形成簇，并标上簇标签；为防止噪声干扰，剔除特征不明显、包含样本点少的簇，输出样本集合所对应的簇标签矩阵；步骤9：利用排序算法把簇标签相同的一类配电网文本聚在一起，则实现了配电网文本数据的自动组织与整理，能快速根据类别完成配电网运检文本数据的筛选。

全文数据：

权利要求：

百度查询：国网信息通信产业集团有限公司;西安交通大学一种基于文本聚类的配电网运检数据筛选方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

下一篇：一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

相关技术

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种新型立式磷石膏废料破碎机_湖北旭特建材科技有限公司_202322371565.8

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

一种农牧业通电线卷绕装置_山东恒通智能新材料有限公司_202322431480.4

检相关技术

一种分体式无菌快检装置_浙江泰林医疗器械有限公司_202322285029.6

扭簧热处理前的角度规范检具_广东恒力精密工业有限公司_202322498393.0

采用HPLC法的血液检体测定用的检体稀释液及糖化血红蛋白的测定方法_株式会社力森诺科_202011227969.4

一种用于视觉引导抓手的光电传感器标定检具_爱孚迪(上海)制造系统工程有限公司_202322444639.6

一种前保险杠检具快速设计方法_江苏科技大学_201911086458.2

一种便于汽车亮饰条检具快速吸紧或释放产品的机构_宁波宏协承汽车部件有限公司_202322325582.8

一种磁检装置及磁检方法_广东微容电子科技有限公司_202310133925.2

焊接支架检具_上海曲姜汽车科技有限公司_202322099939.5

用于氦检箱体的残氦清理系统、清理方法及氦检方法_上海诺信汽车零部件有限公司_202410066235.4

保险杠壳体的检具_江苏鑫雷克斯汽车科技有限公司_202322721974.6

运相关技术

一种大规模数据中心智能运维巡检方法_龙坤(无锡)智慧科技有限公司_202311371654.0

一种便捷的装配式钢筋笼吊运装置_上海智平基础工程有限公司_202322596601.0

一种面向通讯设备运维的维修效率智能评估系统_深圳百沃彰世科技有限公司_202311447772.5

一种探掘支运一体机_中国铁建重工集团股份有限公司_202110720478.1

一种基于物联网的废旧润滑油智能收运车及方法_安洁行方流体管理技术有限公司_201810511497.1

一种极端气候条件下输电线路安全投运评估方法_国网新疆电力有限公司电力科学研究院_202011136283.4

运卷小车_泸州鑫阳钒钛钢铁有限公司_202322267206.8

鲜玉米升运装置_潍柴雷沃智慧农业科技股份有限公司_202322443360.6

一种用于建筑施工的狭小空间吊运装置及其吊运方法_辽宁城建集团有限公司_202410067463.3

配网运检运维数字化管理平台_广东景呈电力设备有限公司_202311807752.4

数据相关技术

多接入数据连接上的数据分组引导_联想(新加坡)私人有限公司_201880092121.X

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

数据存储方法及装置_恒生电子股份有限公司_202311433168.7

数据标注方法及装置_深圳市优必选科技股份有限公司_202010604308.2

数据存储方法、数据读取方法、电子设备和存储介质_北京壁仞科技开发有限公司_202410218124.0

产品全生命周期评价的数据收集方法及数据收集系统_北京中创绿发科技有限责任公司_202110549695.9

融合试题数据和解答数据的多知识点标注方法和系统_华中师范大学_202011282980.0

一种面向在线水质、水动力监测数据的滚动数据清洗方法_同济大学_202310700773.X

存储数据的方法和装置、以及读取数据的方法和装置_北京百度网讯科技有限公司_202011282377.2

一种数据关系捕获及大数据关系树构建方法_中通服创立信息科技有限责任公司_202111142241.6

龙图腾网&IPTOP

【发明公布】一种基于文本聚类的配电网运检数据筛选方法_国网信息通信产业集团有限公司;西安交通大学_202311849293.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务