北京中科金财科技股份有限公司常新月获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科金财科技股份有限公司申请的专利一种人工智能模型训练数据集构建方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119830044B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510310225.5,技术领域涉及:G06F18/23;该发明授权一种人工智能模型训练数据集构建方法及系统是由常新月设计研发完成,并于2025-03-17向国家知识产权局提交的专利申请。
本一种人工智能模型训练数据集构建方法及系统在说明书摘要公布了:本发明公开一种人工智能模型训练数据集构建方法及系统,涉及涉及人工智能模型训练技术领域,所述方法包括:为构建系统预设多个数据源,并将不同数据源获取到的数据进行分布式存储;为分布式存储架构创建一个均衡提取模型集群,并对创建好的均衡提取模型集群进行协同训练;利用训练好的模型集群提取出分布均衡的存储数据,整理为原始数据集;对原始数据集中的数据进行采样,得到高质量训练样本;将得到的高质量训练样本整理成训练数据集后进行持久化,待人工智能模型训练时取用。该方法构建出的训练数据集能够充分反映现实世界的数据分布,使模型学习到正确的特征和规律,从而提高模型的准确性。
本发明授权一种人工智能模型训练数据集构建方法及系统在权利要求书中公布了:1.一种人工智能模型训练数据集构建方法,其特征在于,包括:Step1、为构建系统预设多个数据源,并将不同数据源获取到的数据进行分布式存储;Step2、为分布式存储架构创建一个均衡提取模型集群,并对创建好的均衡提取模型集群进行协同训练,具体分为以下子步骤:中央服务器将初始化后的均衡提取模型下发到各个存储节点本地;均衡提取模型用于提取出各存储节点中满足预期分布状态的数据样本,其数学表达式为:,其中Y为均衡提取模型的输出,S为均衡提取模型已提取出的数据样本组成的集合,S集在初始状态下只有一项数据,即从存储数据集X集中选出的任一项数据,后续均衡提取模型每输出一次就会更新一次S集合,是X集去除S集中所有元素后剩余的任一项数据,是S集中的任一项数据,是S集的大小,即当前提取出的样本数量,是预期数据分布集P中的任一项数据,预期数据分布集P用于描述针对某个数据源而言,用户预期分布状态下的数据样本组成的集合,是P集的大小,即P集中的样本数量,是对的贡献参数,表示对的贡献参数,h为带宽参数,用于控制模型的平滑程度;各个存储节点分别使用各自的本地数据训练其本地的均衡提取模型,并在训练完成后上传提取出的数据样本,以及本地的模型参数给中央服务器;中央服务器对所有数据样本的分布特征进行全局验证,若验证通过则停止训练,若不通过则融合所有本地模型参数生成一组新的模型参数,下发给各存储节点;若存储节点上传的所有数据样本集与预期的全局数据分布集数据分布状态一致则验证通过,给各存储节点下发停止训练指令;否则验证不通过,使用公式:,依次计算各项模型参数融合后的值,并下发融合后新模型参数给各存储节点,其中为融合后的模型参数,表示第j个存储节点上传的数据样本集与全局数据分布集之间的数据分布距离,j取值1~m,m为存储节点的总数量,表示第k个存储节点上传的数据样本集与全局数据分布集之间的数据分布距离,k取值1~m,表示第j个存储节点上传的本地模型参数;各存储节点使用接收到的新模型参数更新本地的均衡提取模型,并进行新的一轮训练;Step3、利用训练好的模型集群提取出分布均衡的存储数据,整理为原始数据集;Step4、对原始数据集中的数据进行采样,得到高质量训练样本;Step5、将得到的高质量训练样本整理成训练数据集后进行持久化,待人工智能模型训练时取用。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科金财科技股份有限公司,其通讯地址为:100085 北京市海淀区学清路9号汇智大厦11层2单元1201B室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。