买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于卡方检验的疑似窃电主题因素确定方法_国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司福州供电公司;中国电力科学研究院有限公司;国网计量中心有限公司_201711200339.6 

申请/专利权人:国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司福州供电公司;中国电力科学研究院有限公司;国网计量中心有限公司

申请日:2017-11-20

公开(公告)日:2024-03-26

公开(公告)号:CN108022179B

主分类号:G06F17/00

分类号:G06F17/00;G06Q50/06

优先权:

专利状态码:有效-授权

法律状态:2024.03.26#授权;2019.02.15#实质审查的生效;2018.05.11#公开

摘要:本发明公开了一种基于卡方检验的疑似窃电主题因素确定方法,其将需要确定关联因素和分类变量视为分类变量,对其使用卡方检验的方式验证因素的关联程度,剔除了同结果关联度过低的因素、保留了多个高相关性因素中同结果关联性最强的,并综合考虑了组合因素的关联情况,建立了基于高关联度因素的疑似窃电分析模型,降低了用电检查人员排查窃电因素的工作量。

主权项:1.一种基于卡方检验的疑似窃电主题因素确定方法,其特征在于,其步骤如下:(1)选取的2000窃电用户及其在窃电期间的相关用电数据、2000非窃电用户及其一段时间的相关用电数据,共同组成样本;在样本中选取了55条数据作为初始相关因素,该初始相关因素即为疑似因素;采用卡方检验,计算每一个疑似因素与是否窃电这个结果的关联度,即计算各初始相关因素与结果的卡方值,计算公式为:,其中A为实际值四格表中四个值,T为理论值四格表中四个值,随后通过查询卡方检验临界概率表,得到相关概率,取大于阈值的因素为相关因素;(2)去除相关性大的关联因素,采用皮尔森系数计算各相关因素之间的相关性,计算公式为:,如果两个因素的相关性大于设定的阈值,则去除两个因素中相关概率小的一个;(3)确定组合关联因素,从无关因素中,按照最大组合阈值进行组合,再次采用卡方检验验证每一对组合因素和结果的关联度,若关联概率大于给定阈值,则将此组合因素加入相关因素队列;(4)由步骤(2)与(3)得出的相关因素即为疑似窃电主题因素。

全文数据:一种基于卡方检验的疑似窃电主题因素确定方法技术领域[0001]本发明涉及一种疑似窃电主题模型构建方法,特别是一种基于卡方检验的疑似窃电主题因素确定方法。背景技术[0002]近年来,窃电问题所表现出的窃电手段高科技、窃电过程隐蔽化、窃电行为频繁化等特点给电网企业识别窃电用户造成了困难,因此亟需要有效的手段和方法来帮助电网企业精准地识别窃电用户,传统的确定窃电嫌疑户的方法时效性差、准确率低,与当今电网的快速发展不匹配。发明内容[0003]本发明的目的在于克服现有技术的不足之处,而提供一种通过用户行为数据进行分析,发现窃电用户的特征因素,提高用电检查的精准度,降低用电检查人员针对大量疑似窃电关联因素进行排查的工作压力。[0004]—种基于卡方检验的疑似窃电主题因素确定方法,(1采用卡方检验,计算各初始因素与结果的卡方值,计算公式为其中A为实际值四格表中四个值,T为理论值四格表中四个值,随后通过查询卡方检验临界概率表,得到相关概率,取大于阈值的因素为相关因素;[0005]⑵去除相关件女的关滕闵素,采用皮尔森系数计算各相关因素之间的相关性,计算公式为:如果两个因素的相关性大于设定的阈值,则去除两个因素中相关概率小的一个,其中关联度因素一般可在0.8-0.9之间依据实际因素数量取值;[0006]3确定组合关联因素,从无关因素中,按照最大组合阈值进行组合,再次采用卡方检验验证每一对组合因素和结果的关联度,若关联概率大于给定阈值,则将此组合因素加入相关因素队列;[0007]⑷由步骤⑵与⑶得出的相关因素即为疑似窃电主题因素。[0008]本发明将卡方检验运用到挑选影响用户窃电行为的因素中,具有良好的适应性,卡方检验用来比较两个及两个以上样本和分类变量的关联性具有很高的优越性。同时为了保持因素之间的独立性,采用皮尔森系数计算因素之间的相关性,剔除相关性大的因素。考虑到组合因素可能和结果相关,利用卡方检验计算组合因素与结果的相关性,相关概率大的组合因素也认定为相关因素。[0009]所述的阈值可优先选取相关概率为0.8,当相关概率超过0.8的因素数量大于总因素数量的90%或小于30%时,应以0.01为步长逐次提升或降低相关概率阈值,直到相关概率超过0.8的因素数量小于总因素数量的90%或大于30%为止。[0010]综上所述的,本发明相比现有技术如下优点:[0011]本发明将需要确定的关联因素和分类变量视为分类变量,对其使用卡方检验的方式验证因素的关联程度,剔除了同结果关联度过低的因素、保留了多个高相关性因素中同结果关联性最强的,并综合考虑了组合因素的关联情况,建立了基于高关联度因素的疑似窃电分析模型,降低了用电检查人员排查窃电因素的工作量。附图说明[0012]图1是本发明的基于卡方检验的疑似窃电主题因素确定方法流程图。具体实施方式[0013]下面结合实施例对本发明进行更详细的描述。[0014]实施例1[0015]—种基于卡方检验的疑似窃电主题因素确定方法,(1采用卡方检验,计算各初始因素与结果的卡方值,计算公式为:其中A为实际值四格表中四个值,T为理论值四格表中四个值,随后通过查询卡方检验临界概率表,得到相关概率,取大于阈值的因素为相关因素;[0016]2去除相关性大的关联因素,采用皮尔森系数计算各相关因素之间的相关性,计算公式为如果两个因素的相关性大于设定的阈值,则去除两个因素中相关概率小的一个;[0017]3确定组合关联因素,从无关因素中,按照最大组合阈值进行组合,再次采用卡方检验验证每一对组合因素和结果的关联度,若关联概率大于给定阈值,则将此组合因素加入相关因素队列;[0018]⑷由步骤⑵与⑶得出的相关因素即为疑似窃电主题因素。[0019]所述的阈值可优先选取相关概率为0.8,当相关概率超过0.8的因素数量大于总因素数量的90%或小于30%时,应以0.01为步长逐次提升或降低相关概率阈值,直到相关概率超过0.8的因素数量小于总因素数量的90%或大于30%为止。[0020]其中关联度因素一般可在0.8-0.9之间依据实际因素数量取值。[0021]如图1:首先选取初始相关因素,然后利用卡方检验计算因素和结果之间的关联性,将关联性大的加入相关因素队列,然后采用皮尔森系数计算因素之间的关联性,去掉相关性大的因素;然后计算组合因素与结果的相关性,将相关性大的组合因素加入相关因素队列,最终得到所有的高相关度因素。[0022]下面以具体实验说明本发明的有益效果:实验数据以国网某电力公司选取的2000窃电用户及其在窃电期间的相关用电数据、2000非窃电用户及其一段时间的相关用电数据,共同组成样本。选取了55条数据作为初始相关因素,利用卡方检验计算每一个疑似因素与是否窃电这个结果的关联度,得到22条相关因素;随后采用皮尔森系数计算因素之间的相关性,若大于阈值,去除两者中关联概率小的因素;在去除的33条数据中计算组合因素与结果之间的关联概率,得到1对组合相关因素。大幅度降低了排查的困难。由此,窃电主题模型构建完成。[0023]本实施例未述部分与现有技术相同。

权利要求:1.一种基于卡方检验的疑似窃电主题因素确定方法,其特征在于,其步骤如下:(1采用卡方检验,计算各初始因素与结果的卡方值,计算公式为:,其中A为实际值四格表中四个值,T为理论值四格表中四个值,随后通过查询卡方检验临界概率表,得到相关概率,取大于阈值的因素为相关因素;2去除相关性大的关联因素,采用皮尔森系数计算各相关因素之间的相关性,计算公式为:,如果两个因素的相关性大于设定的阈值,则去除两个因素中相关概率小的一个;3确定组合关联因素,从无关因素中,按照最大组合阈值进行组合,再次采用卡方检验验证每一对组合因素和结果的关联度,若关联概率大于给定阈值,则将此组合因素加入相关因素队列;⑷由步骤⑵与⑶得出的相关因素即为疑似窃电主题因素。2.根据权利要求1所述的基于卡方检验的疑似窃电主题因素确定方法,其特征在于,其中关联度因素一般可在〇.8-0.9之间依据实际因素数量取值。3.根据权利要求1所述的基于卡方检验的疑似窃电主题因素确定方法,其特征在于,所述的阈值可优先选取相关概率为0.8,当相关概率超过0.8的因素数量大于总因素数量的90%或小于30%时,应以0.01为步长逐次提升或降低相关概率阈值,直到相关概率超过0.8的因素数量小于总因素数量的90%或大于30%为止。

百度查询: 国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司福州供电公司;中国电力科学研究院有限公司;国网计量中心有限公司 一种基于卡方检验的疑似窃电主题因素确定方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术