Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 安徽飞数信息科技有限公司王培养获国家专利权

安徽飞数信息科技有限公司王培养获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉安徽飞数信息科技有限公司申请的专利训练数据集的构建方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119782830B

龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510288650.9,技术领域涉及:G06F18/214;该发明授权训练数据集的构建方法、装置、电子设备及存储介质是由王培养;朱鑫宇;谭昶设计研发完成,并于2025-03-12向国家知识产权局提交的专利申请。

训练数据集的构建方法、装置、电子设备及存储介质在说明书摘要公布了:本发明提供一种训练数据集的构建方法、装置、电子设备及存储介质,属于人工智能技术领域,包括:对采集的第一数据集预处理得到第二数据集,包括将非文本类型的数据转换为文本类型的数据;获取第二数据集中的各数据的综合分类评分;基于第二数据集中的各数据的综合分类评分,从第二数据集中筛选出目标训练数据集。本发明提供的训练数据集的构建方法、装置、电子设备及存储介质,通过引入自适应领域评估函数来计算每个数据的综合分类评分,可根据各场景及领域需求动态评估并筛选数据,从而在拓宽数据来源、降低清洗成本、统一质量标准及提升专业领域数据纯度等方面有明显的技术提升效果。

本发明授权训练数据集的构建方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种训练数据集的构建方法,其特征在于,包括:采集第一数据集;对所述第一数据集进行预处理得到第二数据集,所述预处理包括将所述第一数据集中的非文本类型的数据转换为文本类型的数据;获取所述第二数据集中的各数据分类为目标领域内数据的综合分类评分,所述目标领域为待训练的垂类大模型所属的领域;基于所述第二数据集中的各数据的所述综合分类评分,从所述第二数据集中筛选出目标训练数据集;针对所述第二数据集中的任一数据,所述获取所述第二数据集中的各数据分类为目标领域内数据的综合分类评分,包括:将所述任一数据输入至文本分类模型,获取所述文本分类模型输出的所述任一数据分类为目标领域内数据的分类概率;构建所述目标领域相关的关键词集,并对所述任一数据进行分词操作获取到词汇集合,以确定所述词汇集合与所述关键词集的匹配评分;根据由所述分类概率确定的分类得分与所述匹配评分的加权组合,确定所述任一数据的所述综合分类评分;其中,所述基于所述第二数据集中的各数据的所述综合分类评分,从所述第二数据集中筛选出目标训练数据集,包括:从所述第二数据集中剔除所述综合分类评分小于第三预设阈值的数据,获取所述目标训练数据集;所述文本分类模型是利用标注有分类概率标签的多个垂直领域内数据样本进行预训练后得到的,还包括:获取每个样本数据训练后所述文本分类模型的模型性能指标,以及基于每个样本数据训练得到的综合分类评分测试值;利用热力图和混淆矩阵对所有所述样本数据的模型性能指标和综合分类评分测试值进行分析;根据分析结果确定每个所述垂直领域所对应的权重组合和所述第三预设阈值的取值,所述权重组合为所述分类概率与所述匹配评分之间的权重分配关系。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽飞数信息科技有限公司,其通讯地址为:230000 安徽省合肥市高新区香蒲路668号大数据产业园B2栋9楼B03室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。