关注官方微信平台

电话:400-664-9912

QQ:2850277929

邮箱:marketing@biotree.cn

地址:上海市嘉定区新培路51号焦点梦想园B栋5楼

上海阿趣生物科技有限公司. 版权所有 沪ICP备17019578号-1

有问有答 | 代谢组学及数据分析问答汇总 第五集

分类:
阿趣动态
发布时间:
2020/02/06 11:33
浏览量
2020年的春节令人难忘。面对突如其来的由新型冠状病毒引发的疫情,我们好好待在家里,就是对社会最大的贡献。
 
那么,如何把留守在家的时间变得更加充实呢?阿趣生物技术支持部的小伙伴们将平时工作中老师和同学们问得较多的一些代谢组学问题及答案整理分享出来,帮助爱学习、爱工作的趣粉们借此机会充电,提升自我。接下来,一起来看《有问有答 | 代谢组学及数据分析问答汇总 第五集》吧。
 
代谢组学问题
 
Q: 如果我的数据量不是很大和复杂,如何使用多元变量的方法分析?
 
A: 如果数据量不是很大,同样可以在SIMCA等软件中进行多元变量的方法进行分析,但由于数据量较小,可能会过拟合,因此不一定要用多元变量,可以选择其他的方法,比如单变量分析方法 。
 
Q: 多元变量统计分析不是适合变量多,样本量少的情况吗?那为什么做多元变量统计分析时6个重复要比3个重复好?
 
A: 对于统计分析,只有达到一定样本量才能体现出统计学意义。对于代谢组学来讲,代谢的影响因素较多,较大的样本量才可以减少个体差异,这样分析得到的结果才有意义。
 
Q: 为什么代谢组学分析通常只能是两两比对?
 
A: 主要限制在于OPLS-DA分析,因为进行两组以上的对比分析,OPLS-DA模型难以计算代谢物对组间差异的贡献,更大的难点在于难以给出合理的解释。
 
Q: SIMCA中多元变量统计分析结果如何理解?
 
代谢组学
 
A: 用SIMCA建立PCA和OPLS-DA模型时,A表示主成分个数,N表示观测对象(样本)个数,R2代表模型的可解释性,Q2代表模型的可预测性。
 
代谢组学
 
PCA用于观察样本的总体分布情况,是对原始数据样品分布的一个总体呈现;Component 1和2分别表示第一主成分和第二主成分得分,R2X(cum) 表示两个主成分的R2X的得分加和,Q2(cum)同理。
 
代谢组学
 
OPLS-DA用于两组之间的对比;其中R2X(cum):代表模型对X变量的解释性,R2Y(cum):代表模型对Y变量的解释性。其中O1,O2,分别表示第一,第二正交主成分。该模型引入分组变量Y,将分组变量Y定为使两组分开的因素,根据该因素,最大化地凸显不同组别之间的差异。
 
Q: PCA分析的原理是什么?
 
代谢组学
 
A: 如上图所示,每一个样本检测了许多指标(具体的话就是代谢物的含量),每个指标表示一个维度,这样的话,每个样本都是一个多维的向量。在空间里看就是一团高维的数据云。PCA也就是主成分分析方法会通过投影的方式来对这个数据云进行降维处理,从而到达建立合适的模型来解释和预测的目的。PCA得分图展示的是PC1(第一主成分)和PC2(第二主成分)这两个方向构成的平面上的投影。PC1、PC2这两个方向是虚拟的不是具体的变量,是全部变量贡献的。
 
Q: PCA什么时候提取2个主成分,什么时候提取3个主成分,判别的依据是什么?我查资料是:如果前几个主成分的累积方差贡献率达到某一特定值时就只看前面几个主成分。这个特定值是多少?我查了很多资料,有的说是70 %,有的说是80 %,好像都不太统一?
 
A: SIMCA里是按照Q2来判别的,当增加主成分导致Q2下降时说明模型过拟合,停止增加主成分。
 
建议就按照Autofit的来。不过有些PCA可能无法拟合主成分,那可能就要手动添加两个啦。
 
Q: 如何看PCA的Loading Scatter Plot图?
 
代谢组学
 
A:如上图所示,可以把分数看作是变量和载荷(P)的加权平均数。第一组分为p1,第二组分为p2。p1和p2是向量,每个变量有一个元素。这些权重,载荷,表示X矩阵的主要相关结构。因此,p1与p2显示了x变量之间的相互关系,即相互关联。图中显示了x变量之间的关系如何变化,哪些变量提供了相似的信息,哪些变量是负相关的,哪些变量不相关,哪些变量没有被模型很好地解释(p1和p2接近0)。
 
Q: 把数据导入SIMCA后看到两个组在PCA上区分不开,但是QC(试验样本各取了10ul的混合物)和试验样本间却有比较明显的区分,是为什么呢? 
 
A:首先,PCA分析的图是数据的一个投影,看到什么样的结果和投影的角度有关系,所以很多时候我们要看一看3D的PCA,但即使是3D的PCA,也只是原数据的投影。
 
再者,我们做QC这个样本是起质控的作用,关注的是QC组本身是不是有很好的聚集。QC聚集好表示实验稳定。
 
然后,QC虽然是多组样本的混合,会有一个向各组中心趋近的这样一个可能,但是不代表这样的趋近一定是线性的,可能会有偏移。
 
Anyway , QC组应该被视为一个新的样本组,它继承了各个组的部分信息,但PCA不一定会在中间。
 
Q: 有时候PCA\OPLS-DA模型的解释率很低怎么回事?
 
A: 首先肯定是和样本有关系的,其次是和scaling和transform的方式有关。出现这种情况可以通过调整数据处理的归一化方式以及建模的transform和scaling方式看效果有无改善。
 
Q: PCA和OPLS-DA模型中,有些样本偏离了95%置信区间,这种数据需要剔除吗?
 
A: 不建议剔除,因为我们设置生物学重复本来就是为了减少误差,这种数据中出现一两个样本偏离属于正常情况,而且也不会影响后续的数据分析,所以无需对数据进行剔除修改,保留其真实情况即可。
 
Q: PLS-DA与OPLS-DA模型有什么区别?
 
A: PLS-DA:对样本进行偏最小二乘法-判别分析(PLS-DA)。使用自适换算(unit variance scaling)的数据标度换算方式。对模型的质量用交叉验证法进行检验,并用交叉验证后得到的R2X 和Q2(分别代表模型可解释的变量和模型的可预测度)对模型有效性进行评判。
 
OPLS-DA:为了消除与分类不相关的噪音信息,同时也为了获得导致两组之间显著差异的相关代谢物信息,我们采用正交偏最小二乘方判别分析(OPLS-DA)过滤与模型分类不相关信号即正交信号,获得OPLS-DA模型。
 
OPLS-DA比PLS-DA多了一个正交换算,把与模型分类不相关信号过滤掉,OPLS-DA解释能力更强。比如组间差异比较小,组内差异比较大的情况,用PLS-DA VIP筛出的可能是组内差异变量,容易误导,OPLS-DA是PLS-DA的升级版,全面优于PLS-DA。
 
Q: OPLS-DA的载荷图如何解读?Y是什么特定的值吗?0左边的蓝点是什么意思?右边又是什么意思?
 
代谢组学
 
A:p表示X变量,q表示Y变量,横坐标表示预测主成分,纵坐标表示正交主成分,位于虚拟Y变量附近的X变量具有最高的区分两组的能力,简单的说就是蓝色的两个三角代表虚拟的两个组的Y的位置,离蓝色三角越近的X变量也就是代谢物具有更好的区分两组的能力。 
 
附上Umetrics官方解释:
Loadings Scatter Plot:pq1 vs poso1 OPLS-DA
 
For the two-class problem, the default OPLS-DA loadings scatter plot displays the relation between the X-variables and the Y-variables for the first predictive component and the first Y-orthogonal component. To facilitate interpretation this plot is by default color coded according to the model terms.
 
The horizontal axis displays the X-loadings p and the Y-loadings q of the predictive component. The vertical axis displays the X-loadings p(o) and the Y-loadings s(o) for the Y-orthogonal component. X-variables situated in the vicinity of the dummy Y-variables have the highest discriminatory power between the classes.
 
更多代谢组学及数据分析问答
 
 
>
>
>
有问有答 | 代谢组学及数据分析问答汇总 第五集