关注官方微信平台

电话:400-664-9912

QQ:3003443147

邮箱:marketing@biotree.cn

地址:上海市嘉定区新培路51号焦点梦想园B栋5楼

上海阿趣生物科技有限公司. 版权所有 沪ICP备17019578号-1

学术必备!代谢组学及数据分析相关问题汇总

分类:
阿趣动态
发布时间:
2019/05/31 13:44
浏览量
 
为方便大家快速地掌握代谢组学及数据分析相关知识,现把咨询我们的有关代谢组学及数据分析的一些问题给大家整理出来,供大家参考。
 
1.PCA:loading图,P=COSα中P代表什么意思?
 
The loading, p, for a selected PCA dimension, represent the importance of the X variables in that dimension。
 
 
2.两个组学的PCA怎么做?
 
两组学建议进行O2PLS/O2PLS-DA分析。
 
 
3.去除离群值后新做的PCA分析还有很多样本离群,这种情况正常吗?
 
正常,因为样本本身并不是独立的关系,存在组间差异和组内差异。
 
 
4.OPLS-DA中score图t旁边的数字说是权重,是什么的权重?有什么含义?
 
t[1]是针对预测主成分(横坐标)的回归系数权重大小;t[2]是针对正交主成分(纵坐标)的回归系数权重大小。
 
 
5.OPLS-DA能看出变量与参照组比是上调还是下调吗?loading column 值的正负有什么意义?
 
从OPLS-DA的loading column柱状图中可以发现,当变量为正的时候,代表的是该物质含量高表达(一般认为相对参照组上调),当变量为负的时候,代表的是该物质含量低表达(一般认为相对参照组下调)。
 
 
6.OPLS-DA默认是以哪个组为参照进行比较分析?我们做分析的时候发现,如果人为定义参照组的话,如A和B比,与B和A比,它的loading图纵坐标值正好是正负相反的。而且如果用Omics skin导入数据进行分析的话,是可以选reference group的。
 
这个问题和第5问差不多,上下调的这个关系是相对的,一般建议以对照组/正常组作为建模的参照组。具体项目具体对待。
 
 
7.做三组之间的OPLS-DA时,3D图有的数据拟合出来的坐标是t1,t2,t3,有的拟合出来是t1,t2,t0(1),纵坐标不同有什么影响吗?
 
t1,t2,t3分别表示第一预测主成分(X/横坐标),第二预测主成分(Y/纵坐标)和第三预测主成分(Z坐标);t1,t2,t0(1)分别表示第一预测主成分(X/横坐标),第二预测主成分(Y/纵坐标)和第一正交主成分。
 
 
8.O2PLS怎么分析是哪个X变量引起哪个Y变量变化?X变量与Y变量是正相关还是负相关?
 
O2PLS分析的变量设置X和Y实际区别不大。假设两个组学(代谢和蛋白),代谢组学数据设为X变量,蛋白组学数据设为Y变量,如果代谢物质A和蛋白B呈现的是正相关关系,那么它和代谢组学数据设为Y变量,蛋白组学数据设为X变量这种情况下,代谢物质A和蛋白B呈现的依旧是正相关关系。此外,载荷图中X变量和Y变量在同一象限表示X变量和Y变量是正相关关系。X变量和Y变量在对角线象限表示X变量和Y变量是负相关关系。
 
 
9.关于OPLS-DA代谢组分析模型验证的问题。文献上一般附有R2X、R2Y、Q2值加交互验证图。是不是R2X和R2Y 大于Q2,Q2大于0.5?然后验证图是选择K空白的数据分析吧?怎么看呢?
 
答:
代谢组学
 
代谢组学
 
 
10.OPLS-DA为什么不能分析多组的数据?
 
OPLS-DA可以进行多组的数据分析,但是要找寻组间物质的差异一般建议用两组分析。
 
 
11.OPLS-DA模型是必须以PLS-DA为模型的基础验证么?很多文献都有这样一句话,出现PLS-DA模型验证不成立,OPLS-DA又可以用的情况是什么原因?
 
不是,用一个就可以了,两者是平行的。PLS-DA容易过拟合,所以发展了OPLS-DA。
 
 
12.在构建OPLS-DA模型后,如何在workset statistics列表中显示probability值和fold change值?
 
这个需要借助Omics skin功能。Omics skin是SIMCA 14.1及以下版本可另外安装的一个小插件,有些功能是需要这个插件的,从SIMCA 15版本开始被嵌入软件中,无需再另外安装。
 
 
13.SIMCA做出来的OPLS-DA的Q2值是负值,这代表什么?
 
说明差异并不太显著,可以尝试对数转换或者调整scaling方法看看,不过一般效果都差不多。Q2是负值的情况说明数据间差异程度本身并不太大。
 
 
14.OPLS和OPLS-DA都可以做置换检验吗?(SIMCA软件说明中说OPLS-DA不适合做置换检验)
 
都可以。实际上OPLS-DA是属于OPLS的一种情况,当Y变量是分类变量(0或1)而非连续变量的时候,OPLS与OPLS-DA模型的分析结果是一样的。
 
 
15.OPLS、 O2PLS、 OnPLS的区别在于它们有几个block,那么,什么算是一个block?这个block与Y变量有什么关系,与Y变量的数量有关吗?
 
block可以理解为独立不同类型模块的数据。这样一来,针对单一类型数据(比如代谢组学)采用OPLS,针对两个不同类型数据(比如代谢组学&蛋白质组学)采用O2PLS,针对三个或三个以上不同类型数据(比如代谢组学&蛋白质组学&转录组学&临床数据指标)采用OnPLS。
 
 
16.用SIMCA提取出模型和正常的Vip 值,想进一步提取出p<0.05差异物,用spss的t检验来分析,但是不知道用独立样本t检验还是单样本t检验,两者在文献上都有看到。
 
我们一般用独立样本t检验。
 
 
17.数据导入时宁空不零什么意思?
 
针对数据表中出现的空值,不建议直接进行零值填补,可以参考类似最小值/中位值/KNN等补值的方法。
 
 
18.Metabo Analyst4.0中,over representation中超几何检验和Fisher确切检验是用来做什么的,选这个的意义是什么?
 
这个是代谢通路富集分析常用的统计方法。具体作用是计算代谢通路的p值大小。
 
 
19.关于偏度系数,skewness。偏度系数变红就一定要做转换吗?偏度系数变红的标准好像可以设置,一般设多少呢?
 
偏度系数反映物质在样本当中含量整体分布情况,偏度系数变红表示含量当中极值情况比较明显(极大值/极小值)。至于说的标准,一般建议对所有物质整体进行对数转换,目前就是减少含量之间的差异程度,同时对分析数据起到一定的正态分布矫正处理的作用。
 
 
20.在SUS2图中如何确定药物为治疗效果或者副作用?
 
这个首先需要建立参考对照组的SUS2图物质分布信息,再根据具体项目的不同治疗效果获取对应SUS2图物质分布信息。理想情况下,治疗效果发挥完美表示该药物治疗效果出来的SUS2图物质分布信息和对照组SUS2图一模一样。总体而言,治疗后SUS2图物质分布信息与对照组越相近,说明治疗效果越好,反之亦然。
 
 
21.收集到的尿液样本在收集时被水瓶稀释,使同组间差异变大,不利于后期统计分析,有可以降低差异的解决办法吗?
 
尿液样本收集时需用无水的收集管。目前认为尿液中肌酐的含量比较稳定,可以通过测定尿液中肌酐含量折算尿液浓度。
 
 
22.在前处理时,溶血样本是只能放弃检测,有没有可以降低后面检测时出现的干扰峰的办法吗?
 
溶血样本的主要问题是检测到的物质有来源于血细胞的,同时血细胞里头的一些氧化性物质释放出来,还有可能对血清代谢物造成影响,建议重新准备样本。目前无法判断影响程度,首先无法判断哪些是干扰峰,其次源于血细胞的某些物质可能只是增加了物质的含量。
 
 
23.如果做自噬相关的研究,代谢组一般选择做哪些方面?
 
自噬有的时候伴随着疾病的发生而进行,所以可以参考一下文献看看自噬与什么疾病相关,然后从代谢的角度去找自噬对疾病有何影响,或者自噬是否可以帮助治疗疾病,与哪些疾病相关。
 
微信后台经常会有趣粉们问小编,是否有关于SIMCA的教程。当然有啦!SIMCA详细教程请点击:干货 | SIMCA教程汇总 。关注我们的微信公众号,历史消息中就可以找到这篇文章啦!
 
 
代谢组学
>
>
>
学术必备!代谢组学及数据分析相关问题汇总