【发明授权】用于大语言模型的数据知识提取方法_卓世智星(成都)科技有限公司_202410186621.7

导航：龙图腾网> 最新专利技术> 用于大语言模型的数据知识提取方法_卓世智星(成都)科技有限公司_202410186621.7

申请/专利权人：卓世智星(成都)科技有限公司

申请日：2024-02-20

公开（公告）日：2024-04-30

公开（公告）号：CN117743838B

主分类号：G06F18/2135

分类号：G06F18/2135;G06F18/22;G06F40/216;G06F40/284;G06F18/10;G06N5/022

优先权：

专利状态码：有效-授权

法律状态：2024.04.30#授权;2024.04.09#实质审查的生效;2024.03.22#公开

摘要：本发明涉及自然语言数据处理技术领域，具体涉及用于大语言模型的数据知识提取方法，该方法首先基于自然语言处理方法根据英文文本数据进行分析得到分词高维向量；根据噪声数据与整体数据之间的相似度较低的特征，通过分析分词高维向量之间的相似度整体偏离情况，将噪声高维向量筛除，得到参考高维向量；根据参考高维向量对应的数值分布复杂性以及参考高维向量之间的关联性，筛选出主成分分析向量和最优k值；使得结合最优k值后根据主成分分析高维向量通过PCA降维方法进行数据降维的效果更好，也即根据降维后的摘要信息向量对英文文本数据知识提取的效果更好。

主权项：1.用于大语言模型的数据知识提取方法，其特征在于，所述方法包括：对用于知识提取的英文文本数据通过分词方法以及词向量生成方法处理后，通过关键词提取方法得到至少两个分词高维向量；根据每个分词高维向量与其余分词高维向量之间的相似度整体偏离情况，得到每个分词高维向量的噪声存在概率；根据所述噪声存在概率在所有分词高维向量中筛除噪声高维向量，得到至少两个参考高维向量；根据每个参考高维向量对应数值序列的数值分布复杂性，以及每个参考高维向量与其余参考高维向量之间的关联性，得到每个参考高维向量的分析重要性；根据所述分析重要性筛选出主成分分析高维向量；根据所述主成分分析高维向量结合主成分分析方法进行数据降维，得到降维后的摘要信息向量；根据所述摘要信息向量进行英文文本数据知识提取；所述噪声存在概率的获取方法包括：任选两个分词高维向量作为一个高维向量二元组，获取所有的高维向量二元组；将每个高维向量二元组中的两个分词高维向量之间的余弦相似度，作为每个高维向量二元组的参考相似度；将所有高维向量二元组的参考相似度的均值，作为向量整体相似度；依次将每个分词高维向量，作为目标分词高维向量；在所有分词高维向量中，将目标分词高维向量之外的其他分词高维向量，作为目标分词高维向量的对比高维向量；将目标分词高维向量与每个对比高维向量之间的余弦相似度，作为目标分词高维向量的每个对比高维向量的对比相似度；将目标分词高维向量的对应的所有对比高维向量的对比相似度的均值，作为目标分词高维向量的向量局部相似度；将目标分词高维向量的向量局部相似度与所述向量整体相似度之间的差异，作为目标分词高维向量的向量偏离程度；将目标分词高维向量中所有元素值的方差，作为目标分词高维向量的数值离散程度；根据所述向量偏离程度和所述数值离散程度，得到目标分词高维向量的噪声存在概率，所述向量偏离程度和所述数值离散程度均与所述噪声存在概率呈正相关关系；所述根据所述向量偏离程度和所述数值离散程度，得到目标分词高维向量的噪声存在概率的方法包括：将所述向量偏离程度和所述数值离散程度的乘积的归一化值，作为目标分词高维向量的噪声存在概率。

全文数据：

权利要求：

百度查询：卓世智星(成都)科技有限公司用于大语言模型的数据知识提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电池模组和电池包_浙江晶科储能有限公司_202410338036.4

下一篇：一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

相关技术

电池模组和电池包_浙江晶科储能有限公司_202410338036.4

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

一种热升华水性油墨及其制备方法_广东睿智环保科技股份有限公司_202410410854.0

锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

混合动力自动手动变速器_伊顿康明斯自动传输技术有限责任公司_202280063792.X

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

数据标注方法、电子设备和计算机可读存储介质_浙江大华技术股份有限公司_202311671122.9

保护开关设备和方法_西门子股份公司_202280065501.0

一种负极活性材料及应用其的锂离子电池_中创新航科技集团股份有限公司_202410315953.0

一种双频段相控阵雷达智能抗干扰方法_成都金武科技有限公司_202410410853.6

一种新型射灯天线_摩比天线技术(深圳)有限公司_202410125372.0

数据相关技术

数据存储方法、数据处理方法、数据存储器、数据处理器_北京壁仞科技开发有限公司_202410251377.8

数据分发系统及数据分发方法_京东方科技集团股份有限公司_202080002860.2

基于大数据的销售数据智能分析系统_徐州欧意尔服饰有限公司_202410155636.7

基于数据库的双向数据挖掘方法_数通十方(深圳)数字科技有限公司_202410046482.8

空间大数据分区重复数据的剪枝方法_大连海事大学_202111188239.2

数据统一_微软技术许可有限责任公司_202280065303.4

自动数据生成_脸萌有限公司_202311488225.1

三维数据编码方法、三维数据解码方法、三维数据编码装置、以及三维数据解码装置_松下电器(美国)知识产权公司_201980083201.3

点云数据发送设备、点云数据发送方法、点云数据接收设备以及点云数据接收方法_LG电子株式会社_202280064897.7

多级数据沿袭视图_微软技术许可有限责任公司_202080022647.8

知识相关技术

试题知识点的提取方法_广州云蝶科技有限公司_202010850830.9

知识问答方法、装置、电子设备及存储介质_北京奇艺世纪科技有限公司_202410242138.6

疾病知识检索与诊疗决策辅助系统_北京大学_202410178658.5

用于为在线课程建立知识库的方法_罗伯特·博世有限公司_202180101405.2

一种知识图谱构建系统_上海工程技术大学_202410237349.0

基于随机敏感度的知识迁移方法_华南理工大学_202210202516.9

交管知识检索方法、装置、系统、设备及存储介质_杭州海康威视数字技术股份有限公司_202311848626.3

一种基于机器学习和知识推理的决策融合方法_中国海洋大学_201910540848.6

一种知识图谱的实体对齐方法、装置、存储介质及设备_合肥讯飞数码科技有限公司_202410197991.0

一种结合知识图谱的大模型微调训练方法_北银金融科技有限责任公司_202311563858.4

模型相关技术

模型渲染方法、装置、设备_北京完美赤金科技有限公司_202010888002.4

基于元模型的数据模型版本管理方法、装置、设备及介质_中国工商银行股份有限公司_202410200029.8

基于黑箱模型与灰箱模型切换的冷却塔运行控制方法_博锐尚格科技股份有限公司_202111647709.7

基于条件扩散模型的细胞荧光图像生成方法、模型及应用_南方医科大学_202410129759.3

机器学习模型运用管理系统以及机器学习模型运用管理方法_川崎重工业株式会社_202080017363.X

去反光模型的训练方法、去反光模型和去反光方法_荣耀终端有限公司_202311752567.X

验证设计版图检测模型功能的方法、验证模型及测试系统_深圳晶源信息技术有限公司_202311550268.8

图像检测方法、模型及装置_联想(北京)有限公司_202410140089.5

通过物理接触细化虚拟网格模型_微软技术许可有限责任公司_201980048643.4

模型防窃取方法、装置及介质_浙江中烟工业有限责任公司_202410164111.X

龙图腾网&IPTOP

【发明授权】用于大语言模型的数据知识提取方法_卓世智星(成都)科技有限公司_202410186621.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务