买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于水电站设备台账的数据挖掘方法_中国长江电力股份有限公司_202311641873.6 

申请/专利权人:中国长江电力股份有限公司

申请日:2023-11-30

公开(公告)日:2024-02-13

公开(公告)号:CN117556816A

主分类号:G06F40/289

分类号:G06F40/289;G06F40/216;G06F40/242;G06N7/01

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.01#实质审查的生效;2024.02.13#公开

摘要:本发明公开了一种基于水电站设备台账的数据挖掘方法,首先建立基于动态更新的水电站设备台账词典和隐马尔可夫模型结合的中文分词流程,并对水电站设备台账文本数据进行特征分析,然后构建水电站设备台账文本词典,执行基于隐马尔可夫模型的水电站台账文本分词流程;最后建立基于准确率、召回率和综合评价指标的评价体系算法并对模型进行验证;本方案解决了现有技术需要人工处理、耗时耗力、难以信息化管理、设备台账中蕴含重要信息未被充分应用的问题,具有可对水电站文本类台账进行预处理,便于后期实现水电站文本类台账数据的自动化、信息化和智能化管理,从而提高水电站历史运维数据的利用价值,为后续智能水电站的发展奠定坚实基础的特点。

主权项:1.一种基于水电站设备台账的数据挖掘方法,其特征在于,包括以下步骤:S1,建立基于动态更新的水电站设备台账词典和隐马尔可夫模型结合的中文分词流程;S2,水电站设备台账文本数据的特征分析;S3,水电站设备台账文本词典的构建;S4,执行基于隐马尔可夫模型的水电站台账文本分词流程:S401,隐马尔可夫模型的建立:基于中文分词隐马尔可夫模型有两个假设,第一是齐次马尔科夫假设,某个时刻的状态值只依赖前一个状态值,即认为某个字的词位类别只依赖上一个字的词位类别: 第二是观测独立性假设,即某个时刻的观测值只与这个时刻的隐藏状态有关,即某个字仅与它标注的词位类别相关: 隐马尔可夫模型是一个五元组,包括三个概率矩阵和两个序列,形式化表示为:HMM={S,O,A,B,π};其中,{A,B,π}是隐马尔可夫模型的参数,A={aij},aij=pXt+1=qi|Xt=qi表示状态转移概率矩阵;B={bik},bik=pOt=vk|Xt=qi表示观测状态的概率矩阵;π={πi},πi=pX1=qi表示初始状态概率矩阵;S={q1,…,qN}表示可观测的状态序列组合,O={V1,…,VM}表示隐藏的状态序列组合;观测状态序列指待分词的水电站台账文本,一个字对应一个观测值,一条文本对应一个可观测的状态序列;隐藏序列指状态序列中每个状态的词位类别{B,M,E,S},观测序列为B代表词语开始的位置,M代表词语中间的位置,E代表词语结尾的位置,S代表单独成词的字;隐马尔可夫模型通过语料库进行训练,得到模型的参数{A,B,π};隐马尔可夫模型的观测序列为待分词的水电站台账文本,求解隐马尔可夫模型的隐藏序列,即词位类别的标注问题通过维特比算法解决;S402,基于维特比算法的隐马尔可夫中文分词模型求解:针对水电站台账文本的分词,待切分的设备台账文本已给定,隐马尔可夫中文分词的模型参数λ通过训练成熟的预料库得到,通过维特比算法求解设备台账文本中的每一个字对应的词位类别;Viterbi算法从初始状态开始,求解流程如下:初始状态为i的概率是: 第t时刻状态i的概率是: 其中,aji表示的状态i到j的转移概率,表示在t时刻观测状态oi的观测概率;HMM到达t时刻时,状态i的概率最大路径的前一个状态it-1是: 观测xn的状态in最优状态是: 最大概率路径回溯,确定最优状态,对于t=n-1,n-2,…,1得:i*t=ψt+1i*t+1;求得最后的分词序列为:I*=i*1,i*2,…,i*t;通过维特比算法求解过程得到基于HMM模型参数最大概率隐藏序列,即水电站台账文本中的词语位置标注序列,依据词语位置标注,标注为B…E是一个词语,S为单字,得到水电站台账分词序列;S5,建立基于准确率、召回率和综合评价指标的评价体系算法;S6,使用模型进行验证。

全文数据:

权利要求:

百度查询: 中国长江电力股份有限公司 一种基于水电站设备台账的数据挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。