买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法_北京蓝标一成科技有限公司_201710887053.3 

申请/专利权人:北京蓝标一成科技有限公司

申请日:2017-09-22

公开(公告)日:2023-04-21

公开(公告)号:CN110010202B

主分类号:G16B40/00

分类号:G16B40/00;G16H20/90

优先权:

专利状态码:有效-授权

法律状态:2023.04.21#授权;2019.08.06#实质审查的生效;2019.07.12#公开

摘要:本发明涉及一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法,所述判断方法的建立过程为,S1:采集与基因测序结论一致的流苏石斛样本,测定每个样本的总长;S2:对样本总长变量进行正态性检验;S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;该置信区间便能够作为鉴别未知样本纯净度的标准范围。根据实际采集的数据建立的判断标准为:均值的95%置信区间和标准差的95%置信区间分别为:50.0149,66.6251和15.7102,27.9898,被测流苏石斛样本只需要与该区间对比便可。本发明能够通过流苏石斛形态学相关的特征来鉴别其品种的纯净度,从而可以简单的判断人工种植的流苏石斛其价值大小或是否存在;其鉴别的准确率高,具有重要的现实意义。

主权项:1.一种判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述建立方法包括以下步骤:S1:标准数据采集:采集与基因测序结论一致的流苏石斛样本,测定每个样本的总长,得到总长变量的测量数值;S2:正态性检验:对样本总长变量进行正态性检验;S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;若步骤S2中流苏石斛的总长变量正态性检验结果为不服从正态分布,则如果样本容量超出30,该样本按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;上述得到的均值的95%置信区间和标准差的95%置信区间作为鉴别未知样本纯种相近度的标准范围,所述正态性检验包括直观图像分析和假设检验,所述直观图像分析的方法为:①绘制正态分布的经验分布函数曲线和概率密度曲线;②根据步骤S1中得到的总长变量的测量数值,绘制流苏石斛的真实经验分布函数和真实概率密度函数图;③将真实经验分布函数图与正态分布的经验分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态分布的概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布;若真实经验分布函数图和正态分布的经验分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则流苏石斛样本总长符合正态分布,若偏差明显很大且形状明显不一致,则待检测流苏石斛样本总长不符合正态分布,所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种。

全文数据:一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法技术领域本发明涉及医药领域和生物学领域,具体涉及一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法,即流苏石斛形态学特征与基因测序结论关联性的建立方法以及被测流苏石斛品种纯净度的鉴别方法等。背景技术石斛是一种常用的滋补中药,主要为石斛属植物。石斛属植物是兰科植物中最大的一个属,包括流苏石斛、铁皮石斛、金钗石斛、密花石斛、鼓槌石斛等多个品种。在全球范围内,约有1100多种石斛,其中在我国发现的有近百种。石斛的药用历史悠久,早在《神农本草经》中就被列为滋补上品,长久以来,随着时代的发展,石斛一直被人们视为珍贵的中草药,具有十分重要的滋补功效。在临床上,石斛被用于治疗多种疾病,具有增强免疫力、抗氧化、降血糖和抑制癌症等药理功效。包括流苏石斛在内的石斛在中医药和保健领域具有极其重要的价值。然而,由于人为长期无节制采挖及不合理利用石斛,其野生资源日趋减少,人工种植情况逐渐增多,甚至成为了主要供给流苏石斛的来源。然而,长期人工种植也为流苏石斛带来了以假乱真、以次充好的现象,这是因为,①人工种植改变了野生流苏石斛的生长环境;②大量的施用各种类型的肥料、病变、施撒农药、新的疾病种类的出现等等人为的施加在流苏石斛上;③而且由于石斛品种较多,其品种间的杂交使得其近缘的种存在性状交叉现象;④其他不可控或不可测的因素,综上原因导致了有些人工种植的流苏石斛其药用成分发生了改变,甚至重要的药用成分消失,相应地,这些药用成分发生改变或消失的流苏石斛其基因序列也与原始野生的基因序列存在实质性的区别。而一旦这些流苏石斛的药用价值减弱或消失,而本领域还在不自知的继续应用,则其后果非常严重,而当人们不自知的情况下导致流苏石斛从医药领域消失,则其后果更为严重。本申请人通过长期、极大工作量的研究发现,某些流苏石斛形态学相关特征与其基因测序结论有着非常密切的关系,基因测序结论就是具有传统药用营养价值的标准流苏石斛的基因测序结果,野生的流苏石斛基本均与基因测序结论一致。也就是说可以通过流苏石斛形态学上的特征来判断其与基因测序结论的关联度,关联度越高其品种的纯净度越高,其越容易保持传统的药用、保健功效,纯净度越低,即其与基因测序结论的实质性差别越大,其药用功效减小或消失的可能性越大。基因测序结论反映的是样品的品种,为了鉴别品种的纯净度,在基因测序结论的基础上如何高效地通过对形态学相关特征的测量,即可判断样品品种的纯净度,是我们实际应用时必须考虑的问题。发明内容鉴于现有技术中存在的上述问题,本发明的主要目的在于解决现有技术的缺陷,本发明提供一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法。本发明的目的主要通过以下技术方案来实现。一种判断或检测流苏石斛纯种相近度的方法的建立方法,该建立方法包括以下步骤:S1:标准数据采集:采集与基因测序结论一致全部满足流苏石斛的形态学描述的流苏石斛样本,样本容量为n,测定每个样本的总长,得到总长变量的测量数值;S2:正态性检验:对样本总长变量进行正态性检验;S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;若步骤S2中流苏石斛的总长变量正态性检验结果为不服从正态分布,则如果样本容量超出30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。进一步地,步骤S1得到总长变量的测量数值后,根据该总长变量的测量数值计算总长变量的基本统计量,所述基本统计量包括平均水平和离散程度,然后根据基本统计量确定数据有误异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据。进一步地,所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;所述基本统计量还包括根据总长变量的测量数值制作直方图和或盒形图将数据可视化,使其更方便确定有误异常值。进一步地,所述正态性检验包括直观图像分析和假设检验中的至少一种。进一步地,所述正态性检验包括直观图像分析和假设检验。进一步地,所述直观图像分析的方法如下:①根据正态经验分布函数绘制流苏石斛的正态经验分布函数曲线;根据正态概率密度函数绘制流苏石斛的正态概率密度曲线;当μ=0,σ=1时均值为0,标准差为1,正态分布就成为标准正态分布:②根据步骤S1中得到的总长变量的测量数值,并根据公式为的经验分布函数绘制真实经验分布函数;根据步骤S1中得到的总长变量的测量数值,并根据公式为的概率密度函数绘制真实概率密度函数图;③将真实经验分布函数图与正态分布的经验分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布;若真实经验分布函数图和正态分布的经验分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测流苏石斛样本总长符合正态分布,若偏差明显很大且形状明显不一致,则待检测流苏石斛样本总长不符合正态分布。进一步地,所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种。进一步地,所述假设检验为Lilliefors检验,所述Lilliefors检验统计量T=sup|F*x-Sx|,式中,T为Liffiefors检验统计量,F*x是均值为0,标准差为1的正态分布累积分布函数,Sx是的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。一种流苏石斛纯种相近度的判断标准,所述标准的建立包括以下步骤:1:采集与基因测序结论一致的野生流苏石斛样本69个,测定每个样本的总长,测定结果如下:流苏石斛的总长变化范围在27.00mm~94.00mm,平均水平在37.00mm~58.32mm,计算后得到的结果为:均值:58.32mm,中位数:58.00mm,众数:37.00mm,总长波动的标准差为20.12mm,平均绝对离差:16.89mm,变异系数:0.35;2:直观图像分析正态分布:根据步骤S1中的数据绘制经验分布函数图和概率密度函数图,将真实经验分布函数图与正态经验分布函数曲线进行对比的结果为:二者的曲线基本一致;将真实概率密度函数图与正态概率密度曲线进行对比的结果为:二者的曲线的形状大致相同;通过对以上图形的直观分析可知,流苏石斛总长样本数据很有可能符合正态分布;3:Lilliefors检验:原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布;通过步骤S1中的数据得到的检验结果为:统计量临界值P值显著性水平α是否接受原假设0.15140.17300.14050.05是统计量的值为0.1514,小于临界值0.1730;P值等于0.1405,大于显著性水平α=0.05,所以接受原假设,则可确认流苏石斛样本数据服从正态分布;4:则按照正态分布总体计算公式计算流苏石斛总长样本数据的均值95%置信区间和标准差95%置信区间,分别为:均值均值的95%置信区间标准差标准差的95%置信区间58.320050.0149,66.625120.119915.7102,27.9898上述均值的95%置信区间和标准差的95%置信区间分别为:50.0149,66.6251和15.7102,27.9898,该区间便为判断流苏石斛纯种相近度的标准区间,即该区间便为鉴别流苏石斛品种纯净度的标准区间。一种流苏石斛纯种相近度的判断方法,所述方法为:A.采集待检测流苏石斛样本总长数据,排除样本中由于测量误差或记录误差造成导致的异常值;B.计算步骤A中的待检测流苏石斛样本总长数据的均值95%置信区间和标准差95%置信区间,若二者均在以上标准区间内[即均值的95%置信区间和标准差的95%置信区间分别为:50.0149,66.6251和15.7102,27.9898],则待检测流苏石斛的纯种的相近度高,即待检测流苏石斛的纯净度高;若待检测流苏石斛的样本总长数据的均值95%置信区间和标准差95%置信区间中至少有一个不在标准区间内,则待检测流苏石斛的纯种的相近度低,即待检测流苏石斛的纯净度低。本发明至少具有以下有益效果:本发明的方法将流苏石斛的形态学特征与流苏石斛基因测序结论建立了连接,通过形态学特征便可获知其基因纯净度。即能够通过流苏石斛的总长数据来鉴别被测流苏石斛的品种纯净度;该方法能够非常简单、简洁的判断人工种植的流苏石斛的价值大小,甚至是是否存在价值。本发明建立了判断纯净度的标准,通过均值的95%置信区间和标准差的95%置信区间能够判断被测流苏石斛的纯种相近度,该方法简单且精确,在本申请人大量的研究中获知,本发明方法能够以90%以上的准确率判断流苏石斛样品纯净度,具有重要的应用价值。通过本发明方法可基本判断某一批流苏石斛的药用价值,通过形态学特征来反应其本质特征,对整个医药界和植物界具有深远的意义。此外,本发明还可能开辟了一种更新的、更精确的形态学归类理念或思路。附图说明图1为本发明实施例所述的直方图的结构示意图;图2为本发明实施例所述的盒形图的结构示意图;图3为本发明实施例所述的经验分布函数曲线的结构示意图;图4为本发明实施例所述的概率密度曲线的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1一种判断流苏石斛纯种相近度的方法的建立,所述建立方法包括以下步骤:S1:标准数据采集:采集全部满足流苏石斛的形态学描述的流苏石斛样本,即采集与基因测序结论一致的流苏石斛样本,样本容量为n,测定每个样本的总长,得到总长变量的测量数值;S2:数据的确认:根据该总长变量的测量数值计算总长变量的基本统计量,所述基本统计量包括平均水平和离散程度,所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数;并根据相应地数据制作直方图和盒形图将数据可视化,能够更清楚明了的观察、分析、判断变量分布情况及异常值。然后确定数据有误异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么应该保留此数据,如果不是因为误差,那么应该保留此数据。S3:正态性检验:对样本总长变量进行正态性检验;所述正态性检验包括直观图像分析和假设检验中的至少一种,优选两种均采用,能够从主观和客观两方面进行检验。所述直观图像分析的方法为:①根据正态经验分布函数绘制流苏石斛的正态经验分布函数曲线;公式中的x为随机变量,也就是流苏石斛的样本观测值;μ为求得的样本观测值的均值;σ为样本观测值的标准差;e为自然常数,其值约为2.71828;该正态分布的函数曲线是已经给定的,通过计算机也可模拟出正态经验分布曲线,不是根据原始数据求得的,绘制该正态经验分布函数曲线是希望将原始数据的分布函数曲线与正态分布的函数曲线进行比较,来检验原始数据是否服从正态分布。根据正态概率密度函数绘制流苏石斛的正态概率密度曲线,当μ=0,σ=1时均值为0,标准差为1,正态分布就成为标准正态分布:公式中的x为随机变量,也就是石斛的样本观测值;e为自然常数,其值约为2.71828。同样地,正态分布的概率密度函数曲线是已经给定的,通过计算机也可模拟出正态经验分布曲线,不是根据原始数据求得的。绘制该正态概率密度曲线是希望将原始数据的概率密度函数曲线与正态概率密度函数曲线进行比较,来检验原始数据是否服从正态分布。上述的原始数据即为步骤S1中得到的数据。②根据步骤S1中得到的总长变量的测量数值,根据经验分布函数EDF,EmpiricalDistributionFunctions绘制真实经验分布函数;所述经验分布函数公式为:设x1,x2,...,xn是总体的一组样本容量为n的样本测定值,将n个测定值按从小到大的顺序重新排列为对于任意实数xx即为即对于样本的测定值x1,x2,...,xn,定义函数则称Fnx为总体X的经验分布函数。它可以简记为Fnx=1n·*{x1,x2,...,xn},其中*{x1,x2,...,xn}表示x1,x2,...,xn中不大于x的个数。另外一种常见的表示形式为其中,I是示性函数,即因此,求经验分布函数Fnx在一点x处的值,只要求出随机变量x的n个观测值x1,x2,...,xn中小于或等于x的个数,再除以观测次数n即可。由此可见,Fnx就是在n次重复独立实验中事件{X≤x}出现的频率。根据步骤S1中得到的总长变量的测量数值,并根据概率密度函数绘制真实概率密度函数图;所述概率密度函数probabilitydensityfunction,PDF的公式为:如果对于随机变量X的分布函数Fx,存在非负函数fx,使得对于任意实数有则称Xx即为即样本的测定值x1,x2,...,xn为连续型随机变量,其中fx称为X的概率密度函数,简称概率密度。随机数据的概率密度函数表示瞬时幅值落在某指定范围内的概率,因此是幅值的函数。它随所取范围的幅值而变化。概率密度函数具有下列性质:fx≥0;由于该概率密度函数是由分布函数而来,因此概率密度函数的图形可直接根据样本测量数据的每一个数据x1,x2,...,xn计算得到的。③将真实经验分布函数图与正态经验分布函数曲线进行对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态概率密度曲线进行对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布的;若真实经验分布函数图和正态分布的分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则待检测流苏石斛样本总长符合正态分布,若偏差明显很大且形状明显不一致,则待检测流苏石斛样本总长不符合正态分布。通过绘制样本经验分布函数图和样本经验概率密度函数图,并将其与正态分布相应函数图进行对比,直观观察两曲线的差异程度,从而判断样本总长变量是否来自正态分布。假设检验所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种,优选Lilliefors检验。所述Lilliefors检验统计量T=sup|F*x-Sx|,式中,T为Liffiefors检验统计量,F*x是均值为0,标准差为1的正态分布累积分布函数,Sx是的经验分布函数值,在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。通过Lilliefors正态分布假设检验方法能够更客观的判断样本是否来自于一个正态分布总体。S4:标准区间:若步骤S3中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;若步骤S3中流苏石斛的总长变量正态性检验结果为不服从正态分布,考虑到大样本性质,即当样本量比较大时,即一般要求30,则根据中心极限定理可知,该样本仍然能够按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间。上述得到的均值的95%置信区间和标准差的95%置信区间便能够作为鉴别未知样本纯净度的标准范围。实施例2一种流苏石斛纯种相近度的判断标准,主要包括以下步骤:1:采集与基因测序结论一致的野生流苏石斛样本,样本容量为69个,测定每个样本的总长,测定结果如下:流苏石斛的总长变化范围大致在27.00mm~94.00mm,平均水平大致在37.00mm~58.32mm,计算后得到的结果为:均值:58.32mm,中位数:58.00mm,众数:37.00mm,总长波动的标准差为20.12mm,平均绝对离差:16.89mm,变异系数:0.35。并根据上述数据制作直方图和盒形图将数据可视化,如图1和2所示。由盒形图1~2中可知,该样本不存在异常值。2鉴别待测定流苏石斛样本纯净度的标准区间根据所测定的69个样本中每一株的总长的数量值,并根据经验分布函数绘制真实经验分布函数的曲线,如图3中实线所示;经验分布函数的曲线是一条呈跳跃上升的阶梯形曲线。图中光滑曲线是总体X的理论分布函数的图形。根据所测定的69个样本中每一株的总长的数量值,并根据概率密度函数绘制真实概率密度函数曲线,如图4中实线所示。根据流苏石斛的总长的数据,并根据正态经验分布函数的公式绘制流苏石斛的正态经验分布函数曲线,如图3所示。根据流苏石斛的总长的数据,并根据正态概率密度函数的公式绘制标准流苏石斛的正态概率密度函数曲线,如图4所示。图3的纵坐标表示69次重复独立实验中事件{X≤x}出现的累积概率,纵坐标表示的是样本事件小于或等于某个数值的概率之和,通过累积经验分布函数可以在一个统一的角度下描述变量的概率分布,对于正态分布来说,其累积概率分布函数有一条固定的曲线,那么比较样本数据绘制的累积经验分布函数图与正态累积经验分布函数图的差异,即可直观地看出样本数据是否符合正态分布。图4纵坐标表示概率的密度,密度越大在该范围处的概率也就越大。图3和图4的横坐标均表示随机变量的取值范围,即横坐标为流苏石斛总长的数量范围,图3的纵坐标表示样本数据小于或等于某个数值的概率累积之和,图4的纵坐标表示概率的密度,密度越大在该范围处的概率也就越大。根据所绘制的经验分布函数图和概率密度函数图,从直观的角度来观察总长样本数据的分布是否服从正态性。经验分布函数曲线可以用来评估分布与数据的拟合度,估计百分位数并比较不同的样本分布。通过图3可以直观地看到流苏石斛总长数据的分布情况。具体地,从图3的经验分布函数图中可以看到,真实经验分布函数曲线与正态经验分布函数曲线并不十分一致;从图4的概率密度函数图中可以看出,真实概率密度曲线的形状与正态概率密度曲线的形状大致相同,都是钟形曲线,但是真实概率密度曲线的峰度值小很多,且厚尾特征明显。通过直观图形只能大体判断其可能符合正态分布,但并不能完全确定样本数据的分布特征,所以要通过接下来的假设检验来进行判断。由于实际生活中,很多数据都满足正态分布的特征,所以我们可先通过上述方法来判断原始数据的真实分布与正态分布比较情况,对于明显符合正态分布的数据,可不采用假设检验。接下来,通过假设检验的方法判断样本是否确实来自于一个正态分布总体。采用Lilliefors检验方法来进行验证,原假设为H0:数据服从正态分布;备择假设H1:数据不服从正态分布。根据所采集的流苏石斛样本中的总长的数据计算检验统计量和P值,检验结果如表1所示。表1Lilliefors检验结果统计量临界值P值显著性水平α是否接受原假设0.15140.17300.14050.05是表1中的临界值并非主观给定的,而是通过检验方法和样本量来确定的。P值的作用就是判断是否应该拒绝原假设,如果P值小于显著性水平一般取0.05,那么我们就拒绝原假设,即认为数据不服从正态分布。从表1中的检验结果可以看出,统计量的值为0.1514,小于临界值0.1730;P值等于0.1405,大于显著性水平α=0.05;所以接受原假设,认为流苏石斛总长样本数据服从正态分布。上述P值的计算公式为:当备择假设H1为μ≠μ0时,当备择假设H1为μ>μ0时,p=1-ΦZ0;当备择假设H1为μ<μ0时,p=ΦZ0。其中,ΦZ0是正态分布经验函数,要通过查表得到,μ是计算得到的统计量,μ0是该统计量的假设值,该P值可通过软件直接计算得到,如Matlab软件。根据本实施例采集的待检测流苏石斛的总长数据计算其置信区间等,具体结果如表2所示。表2流苏石斛总长的均值、标准差和置信区间的计算结果均值均值的95%置信区间标准差标准差的95%置信区间58.320050.0149,66.625120.119915.7102,27.9898均值的95%置信区间和标准差的95%置信区间分别为:50.0149,66.6251和15.7102,27.9898,该区间便为判断流苏石斛纯种相近度的标准区间,即该区间便为鉴别流苏石斛品种纯净度的标准区间。实施例3一种流苏石斛纯种相近度的判断方法,所述方法为:A.采集待检测流苏石斛样本总长数据,排除样本中由于测量误差或记录误差造成导致的异常值;B.计算步骤A中的待检测流苏石斛样本总长数据的均值95%置信区间和标准差95%置信区间,若二者均在实施例2得到的标准区间内,则待检测流苏石斛的纯种的相近度高,即待检测流苏石斛的纯净度高;若待检测流苏石斛的样本总长数据的均值95%置信区间和标准差95%置信区间中至少有一个不在实施例2得到的标准区间内,则待检测流苏石斛的纯种的相近度低,即待检测流苏石斛的纯净度低。作为进一步优选的实施方式,步骤A中,可按实施例1或实施例2中所述的直方图和盒形图来辅助判断有无异常值。实施例4本发明人长期从事流苏石斛的形态学特征与品种纯净度的关联的研究,随着研究发现,纯净度低的流苏石斛对于某些形态学特征的影响较大,通过大量的野生流苏石斛和人工种植的样本的数据和样本的总结、对比、研究等,基本得出了:纯净度高即纯种的相近度高的流苏石斛其总长的经验分布函数曲线、概率密度函数曲线等与正态分布函数曲线的偏差和形状基本一致,其均值95%置信区间和标准差95%置信区间均在实施例2得出的标准区间内,而纯净度较低即纯种的相近度低的待测流苏石斛样本其均值95%置信区间和标准差95%置信区间至少有一个不在实施例2得出的标准区间内,标准区间即均值的95%置信区间50.0149,66.6251和标准差的95%置信区间15.7102,27.9898。此外,在过去的几年中,本发明人在全国多个地方进行了无数次的样本采集、计算、对比等,并多次进行基因序列测定,通过大数据对比发现,本发明中的判断方法的准确率在90%以上,即若待测流苏石斛样本的均值95%置信区间和标准差95%置信区间不在标准区间内,则被测流苏石斛与真正的流苏石斛的基因序列相似度均在95%以下,而在上述标准区间内的被测流苏石斛样本,其与真正的流苏石斛的基因序列相似度基本均在95%以上。现随机抽取一些记录在案的被测流苏石斛样本,按实施例3的方法对其均值的95%置信区间和标准差的95%置信区间进行计算,如下表3所示。表3部分案例示意情况表总长在上表中,地点为被测样本所在省,均值95%置信区间和标准差95%置信区间均指被测流苏石斛样本所得到的区间,是否在标准区间内为被测流苏石斛样本的值是否在本发明所得到的均值95%置信区间;相近度为被测流苏石斛样本在区间内的数量与样本容量比值的百分数。对于上述样本,通过实际测定可知,本申请方法的准确率高,具有重要的应用参考价值。具体实施时,本发明需要用到的公式如下:均值:这里的均值为算术平均值mean,计算方法为其中n为石斛的样本量。中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数,如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。当N为奇数时,m0.5=XN+12;当N为偶数时,众数:一般用M0表示,就是一组数据中占比例最多的那个数。标准差:标准差是一组数据平均值分散程度的一种度量,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。计算公式为其中μ为平均值。因为我们大量接触的是样本,所以普遍计算的是样本标准差,样本标准差可以理解为是对所给总体标准差的一个无偏估计,计算公式为其中为样本均值。平均绝对离差:通常记为MADMeanAbsoluteDeviation,计算各观察值与平均值的距离总和,然后取其平均数。计算公式为变异系数:当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数CV,CoefficientofVariation可以做到这一点,其为原始数据标准差与原始数据平均数的比。变异系数的计算公式为置信区间:前面计算的均值和标准差均为参数的点估计值,是用样本算得的一个值去估计未知参数。但是点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,范围通常用区间的形式给出。我们希望确定一个区间,能以比较高的可靠程度相信它包含真参数值,这个可靠程度一般称为置信水平,记作1-α,这里α称为显著水平,是一个很小的正数,通常取α=0.025,0.05,0.1等。当方差σ2已知时,统计量为均值μ的置信区间为:当方差σ2未知时,统计量为均值μ的置信区间为:当均值μ未知时,统计量为标准差σ的置信区间为:Lilliefors检验:假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。假设检验中的正态分布检验包括三类:JB检验、KS检验、Lilliefors检验,用于检验样本是否来自于一个正态分布总体。其中,Liffiefors检验是KS检验的一个改进,KS检验是将样本与标准正态分布均值为0,方差为1进行对比,而Liffiefors检验的目标不是标准正态,而是具有与样本相同均值和方差的正态分布。它适用于小样本、参数未知的正态分布检验,因此对于石斛样本数据的正态性检验来说,Liffiefors检验是最适合的。检验原理及方法如下:①检验假设:H0:数据服从正态分布;H1:数据不服从正态分布。显著性水平α=0.05。②检验统计量:T=sup|F*x-Sx|式中,T为Liffiefors检验统计量,F*x是均值为0,标准差为1的正态分布累积分布函数,Sx是的经验分布函数值。计算Sx时就需要用到样本容量和原始数据值。判断原则:在α的显著性水平下,当检验统计量T超过检验临界值时,拒绝原假设H0;否则,不能拒绝原假设。具体实施时,本申请人通过多年从事基因测序结论与流苏石斛形态学特征研究,得到了流苏石斛总长与其纯净度密切相关,保守而言,其判断的准确率在90%以上在本发明所计算的各个指标中,标准差越大,数据的离散程度越高。标准差的大小没有统一的衡量标准,可以与另一组均值相同的数据进行比较,两者中的标准差越小,说明这组数据的离散程度越小。但是对于均值不同的两组数,比较标准差大小没有意义。可以通过变异系数这个指标来衡量,之前的版本中有计算过,变异系数CV,CoefficientofVariation等于标准差均值*100%。变异系数越小,说明数据离散程度越小,变异系数大于15%的话,则就要考虑数据是否离散程度过大。区间20.8831,23.8163的意思是:如果我们重复取样,每次取样后都构造置信区间,有95%的把握认为构造的置信区间会包含样本均值的真值。如果有一个新的样本值不落在这个区间内,那么我们有95%的可能性认为这个样本值为离群值或者不正常。区间5.2291,7.3361的意思是:如果我们重复取样,每次取样后都构造置信区间,有95%的把握认为构造的置信区间会包含样本标准差的真值。在本发明中,总长是指茎的整个长度。最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

权利要求:1.一种判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述建立方法包括以下步骤:S1:标准数据采集:采集与基因测序结论一致的流苏石斛样本,测定每个样本的总长,得到总长变量的测量数值;S2:正态性检验:对样本总长变量进行正态性检验;S3:标准区间:若步骤S2中所得到的结果为服从正态分布,则按照正态分布总体计算公式得出均值的95%置信区间和标准差的95%置信区间;若步骤S2中流苏石斛的总长变量正态性检验结果为不服从正态分布,则如果样本容量超出30,该样本按照正态总体的公式计算其均值的95%置信区间和标准差的95%置信区间;上述得到的均值的95%置信区间和标准差的95%置信区间作为鉴别未知样本纯种相近度的标准范围。2.根据权利要求1所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:步骤S1得到总长变量的测量数值后,根据该总长变量的测量数值计算总长变量的基本统计量,所述基本统计量包括平均水平和离散程度,然后根据基本统计量确定数据有无异常值,若有异常值则进行排查,如果属于测量误差或记录失误则删除异常点,如果不是因为误差,那么保留此数据。3.根据权利要求2所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述平均水平包括均值、中位数和众数中的至少一种,所述离散程度包括标准差、平均绝对离差和变异系数。4.根据权利要求1所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述正态性检验包括直观图像分析和假设检验中的至少一种。5.根据权利要求4所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述正态性检验包括直观图像分析和假设检验。6.根据权利要求4所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述直观图像分析的方法为:①绘制正态分布的经验分布函数曲线和概率密度曲线;②根据步骤S1中得到的总长变量的测量数值,绘制流苏石斛的真实经验分布函数和真实概率密度函数图;③将真实经验分布函数图与正态分布的经验分布函数曲线对比,通过判断曲线偏差程度的大小来初步判定样本数据是否符合正态分布;将真实概率密度函数图与正态分布的概率密度曲线对比,同样根据偏差程度大小及曲线形状一致性程度,来判定样本数据是否是服从正态分布;若真实经验分布函数图和正态分布的经验分布函数图或者真实经验概率密度函数图和正态分布的概率密度函数图的偏差小且形状一致,则流苏石斛样本总长符合正态分布,若偏差明显很大且形状明显不一致,则待检测流苏石斛样本总长不符合正态分布。7.根据权利要求4所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:所述假设检验包括JB检验、KS检验和Lilliefors检验中的任意一种。8.一种权利要求1所述的判断流苏石斛纯种相近度的方法的建立方法,其特征在于:得到的均值的95%置信区间和标准差的95%置信区间作为鉴别未知样本纯种相近度的标准范围为:50.0149,66.6251和15.7102,27.9898。9.一种流苏石斛纯种相近度的判断方法,其特征在于:所述方法为:A.采集待检测流苏石斛样本总长数据,排除样本中由于测量误差或记录误差造成导致的异常值;B.计算步骤A中的待检测流苏石斛样本总长数据的均值95%置信区间和标准差95%置信区间,若二者均在标准区间内,则待检测流苏石斛的纯种的相近度高,即待检测流苏石斛的纯净度高;若待检测流苏石斛的样本总长数据的均值95%置信区间和标准差95%置信区间中至少有一个不在的标准区间内,则待检测流苏石斛的纯种的相近度低,即待检测流苏石斛的纯净度低;所述标准区间为权利要求1所述的建立方法得到的标准范围。10.权利要求9所述的一种流苏石斛纯种相近度的判断方法,其特征在于,所述的标准区间为均值的95%置信区间和标准差的95%置信区间,即50.0149,66.6251和15.7102,27.9898。

百度查询: 北京蓝标一成科技有限公司 一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。