买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于文本聚类的配电网运检数据筛选方法_国网信息通信产业集团有限公司;西安交通大学_202311849293.6 

申请/专利权人:国网信息通信产业集团有限公司;西安交通大学

申请日:2023-12-29

公开(公告)日:2024-03-22

公开(公告)号:CN117743582A

主分类号:G06F16/35

分类号:G06F16/35;G06F18/23;G06Q50/06;G06F40/30

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明公开了一种基于文本聚类的配电网运检数据筛选方法,该方法通过应用自然语言处理和机器学习中的文本聚类算法,采用改进的TF‑IDF方法生成语义特征向量,基于层次聚类思想构建聚类特征树,实现配电网运检文本数据的聚类分组,从而对大量配电网运检数据进行快速有效的筛选,为配电网运行状态监测提供支持。

主权项:1.一种基于文本聚类的配电网运检数据筛选方法,其特征在于:步骤如下:步骤1:采集配电网运维过程中记录的文本数据作为数据集;步骤2:对配电网文本数据进行统一的预处理,过滤无用信息,提取配电网文本内容;步骤3:计算预处理后的配电网文本数据中词语的词频与逆文件频率指数:对于单一配电网文本,计算每个词在该配电网文本中的词频与逆文件频率指数;TF表示某个词语在某一文本中出现的频率,简称词频;由于配电网文本长短会影响TF值的大小,所以计算TF数值时需要标准化处理,具体公式为: 式中:tfi,j是第i个词语在第j个配电网文本的词频,ni,j是第i个词语在第j个配电网文本中出现的次数,∑knk,j是第j个配电网文本包含的总词数;为了防止低频词语被过度惩罚,通过添加对数平滑项来改进TF的值:TFi,j=logtfi,j+1IDF是逆文件频率指数,用于衡量词语在整个配电网文本数据集的普遍程度与重要程度;某个词语的逆文件频率指数的计算公式如下: 其中,|D|是总的配电网文本个数,|{j:ti∈dj}|是含有词语ti的配电网文本个数,|D|+1是为了防止计算结果出现零值;当文本集合里的所有文本均计算完TF与IDF值,该步骤结束;步骤4:为每个配电网文本中的特征词即词语赋予权重系数:词语在配电网文本中的贡献度与它在单个配电网文本中出现的频率和在整个配电网文本数据集中出现的频率均有关系,该权重系数w的计算表达式为:w=TF×IDF考虑到特征词类间分布和类内分布的影响,引入类间离散度因子CIatj和类内离散度因子CIitj,ck;CIatj=2arctanStjπCIitj,ck=2arctanstj,ckπ其中,Stj是特征词tj在各类别配电网文本之间的词频的分布标准差,stj,ck是指特征词tj在类别ck的词频与类别ck中实际包含该特征词的配电网文本的词频之差;故改进的特征权重Wtj,di,ck计算式为: 对于每个配电网文本,根据步骤3中计算得到的TF与IDF值,获得每个词语的特征权重值,所有特征权重值构成的向量矩阵即为该条配电网文本对应的特征向量;步骤5:从所有配电网文本数据对应的特征向量构成的集合中读取第一个样本点,构造初始聚类特征三元组,聚类特征三元组中包含了配电网文本的主要类别信息;聚类特征CF表示为:CF=N,LS,SS其中,N表示的是聚类特征包含的样本点的数目,LS表示的是样本特征向量各维度元素的和,SS表示样本特征向量各维度元素的平方和;设某一个簇包含N个样本点,写作ck={o1,o2,...,oN},则对应的聚类特征计算公式为: 簇的质心om、簇的半径R、簇连通平均距离d都能够通过聚类特征CF计算出来; 其中,N1、N2分别表示两个簇包含的样本点数,LS1、LS2分别表示两个簇的样本特征向量各维度元素的和,SS1、SS2分别表示两个簇的样本特征向量各维度元素的平方和;步骤6:从配电网文本特征向量集合中依次读取新的样本点,构建聚类特征树:聚类特征树包含根节点、内部节点、叶子节点三类节点,每个节点都由多个聚类特征所构成;需要预先设定的约束参数有:枝平衡因子B指单个内部节点中可以存储的聚类特征数目阈值;叶平衡因子L指单个叶子节点中可以存储的聚类特征数目阈值;空间阈值T指的是能将样本点划入某一个聚类特征组的临界距离;以根节点为起点,每插入一个新的样本点,计算新样本点与已有的聚类特征CF的空间距离,当该距离在空间阈值T以内时,新样本点会被该聚类特征CF吸收;反之,新插入的样本点会作为一个新的聚类特征CF存在;步骤7:若当前聚类特征CF所在的叶子节点的聚类特征CF个数大于叶平衡因子L,则需将该叶子节点一分为二;具体的方法是将原叶子节点中间距最远的两个聚类特征CF选出来,分别作为两个新的叶子节点的初始聚类特征CF;而对于其他聚类特征CF的分配,则通过计算某聚类特征CF与两个新叶子节点的距离,选择较近的叶子节点来吸收该聚类特征CF;分裂结束后,原来的叶子节点也应消失;同理,内部节点的分裂也是这一过程;重复步骤6-7,直至配电网文本特征向量集合中所有样本点已被插入聚类特征CF,则构造了完整的配电网文本数据聚类特征树;步骤8:配电网文本数据聚类特征树的叶子节点包含的每个聚类特征CF可视作一个最小的簇,将步骤7最终得到的每一个簇心点作为该类别的起始点,再重新分配其他所有样本点,使其与最近的中心点形成簇,并标上簇标签;为防止噪声干扰,剔除特征不明显、包含样本点少的簇,输出样本集合所对应的簇标签矩阵;步骤9:利用排序算法把簇标签相同的一类配电网文本聚在一起,则实现了配电网文本数据的自动组织与整理,能快速根据类别完成配电网运检文本数据的筛选。

全文数据:

权利要求:

百度查询: 国网信息通信产业集团有限公司;西安交通大学 一种基于文本聚类的配电网运检数据筛选方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。