买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于特征领域知识自动获取的数值特征发现方法及系统_湖南大学_202210989620.7 

申请/专利权人:湖南大学

申请日:2022-08-18

公开(公告)日:2022-12-02

公开(公告)号:CN115080752B

主分类号:G06F16/35

分类号:G06F16/35;G06N5/02;G06F16/951;G06F40/284;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2022.12.02#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本发明公开一种基于特征领域知识自动获取的数值特征发现方法及系统,包括:获取预测数据所属领域相关的公开信息;构建相关的文本信息库;对文本信息库进行文本挖掘与文本特征聚类;在文本挖掘的信息引导下获取预测数据所属领域的相关数据特征构建多元溯源数据库;对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;结果预测。本发明提供的数值特征发现方法无需领域前置知识,可以应用于电力负荷、新能源负荷、金融股票市场、交通流量等多个领域的波动预测或分类,能够发现大量各领域中隐含的主导特征,显著提高预测的准确率;并可根据该领域内信息的增长而实时更新。

主权项:1.一种基于特征领域知识自动获取的数值特征发现方法,其特征在于,具体包括如下步骤:S1、获取预测数据所属领域相关的公开信息,预测数据包括:电力负荷、新能源负荷、交通流量;其所属领域对应为:电力负荷领域、新能源负荷领域、交通流量领域;所述相关的公开信息包括该预测数据所属领域相关的综述性文章、调查报告、新闻、开放论坛以及其相关评论;获取预测数据所属领域相关的公开信息的方法具体包括:在遵守ROBOT协议的前提下通过爬虫方式,获取该领域最新的文本信息;S2、将步骤S1获取的公开信息集中存储构建预测数据所属领域相关的文本信息库;S3、对构建的文本信息库进行文本挖掘与文本特征聚类,将离散的定性知识聚集,得到预测数据所属领域相关的特征词,并通过聚类进行初步分类;步骤S3中采用如下公式所示的DCW算法对该领域的相关文本信息库进行文本挖掘: 其中:表示相关的文本信息库中单词word1,word2之间的相似性,通过词向量夹角的余弦值来表现;表示相关文本信息库中单词word1,word2之间的独立性,通过文本点互信息PMI表示;word1为该领域的波动词,word2为遍历文章后的每一个单词;S4、在文本挖掘的信息引导下构建预测数据所属领域的相关数据特征组成的多元溯源数据库,多元溯源数据库包含文本引导特征、领域暨定特征、传统特征发现领域基于经验所选择的特征;S5、对多元溯源数据库进行初步评价筛选,根据需要选择数据集特征数量,构建多元溯源数据集;通过LV-KB方法对多源溯源数据库进行初步评价筛选,具体如下:首先,利用方差阈值过滤方法进行特征初选,该方法具体是通过方差阈值估计器计算每一项特征在所有样本中重复元素所占的比例,若重复元素占比超过一定阈值则去除该项特征;然后,通过SelectKBest方法进行进一步特征提取,具体是选取单变量线性回归函数作为得分函数;由单变量线性回归函数计算每个特征与标签之间的相关性;最后、根据得分排序情况进行,由高到低根据数量需要进行特征选择;S6、采用机器学习算法或深度学习算法对多元溯源数据集动态学习并进行结果预测;具体对应进行电力负荷、新能源负荷、交通流量的预测或分类。

全文数据:

权利要求:

百度查询: 湖南大学 基于特征领域知识自动获取的数值特征发现方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。