亮哥从事代谢组学检测分析工作十几年,从不懂到懂一点,也是有非常漫长的过程。然而最近看一些文章,听一些报告,和客户朋友聊一些天,发现大家对代谢组学研究依然有很多误区。故而总结这十大误区供大家讨论及参考:
很多人做代谢组学数据分析,当拿到OPLS-DA模型结果时,一看两组之间分的很开(见下图),瞬间就兴奋了,这结果杠杠的。
然而对结果的错误理解,往往是投稿被拒噩梦的源头。
当我们拿到一个分的很开的OPLS-DA模型时,切莫匆忙得出“两组之间有明显差异”的结论。因为这个模型极有可能是一个过拟合的模型。
那么如何才能判断一个OPLS-DA模型的好坏以及如何判断OPLS-DA模型是否过拟合呢?
首先我们要了解一下OPLS-DA模型的一个基本原理。
OPLS-DA(正交矫正偏最小二乘法判别分析)模型是一个有监督的机器学习方法,最早是2002年由Trygg和Wold在PLS算法基础上建立了OPLS得来。
OPLS-DA作为一个有监督的模型,意味着模型使用了两组分类信息作为分类的Y变量,也就是说模型事先知道哪些样品是哪组的,然后开始建模,其第一主成分(也叫预测主成分)呈现的是两组之间的差异信息。其第二主成分呈现的是同组内的差异信息,故而我们看到的图大概率都是能分得很好的。
而模型的两个得分值,R2Y代表了模型的可解释性,也就是说模型中有百分之多少的信息能解释我们事先知道的分类变量Y,R2Y约接近1,说明能解释两组分类的信息越多,也就是我们说的两组之间的差异越大。同时模型自己做了一个自我交叉验证(Cross Validation),也就是我们平常说的七折交叉验证、十折交叉验证、留一法交叉验证等。通过交叉验证模型计算出一个Q2Y,以此来判断模型的可预测性。Q2Y越接近1,说明模型的可预测性越强,也就是我们说的模型越可靠。
如图1模型,其R2Y=0.909,Q2Y=0.672,说明模型的可解释很强,可预测性尚可。根据经验,Q2Y最好不要低于0.4。
为了进一步验证模型的可靠性,除了采用交叉验证这种内部验证的形式之外,我们还可以采用置换检验(permutation test)这种外部验证的方式。
置换检验的图到底该怎么看呢?
我们来看一下官方教程的解释:
总结一下就是两点:
1. 原始的R2Y和Q2Y(最右边的两个点)总是大于左边那些置换后对应的值(左边那些散点)。
2. 看截距,根据经验判断,优秀的模型R2Y的截距不超,0.3-0.4,Q2Y的截距不超过0.05(通常为负值)
在很多的实际的项目中,尤其是临床样品的检测项目,能满足两条斜线的斜率为正,且Q2Y的截距不超过0.05就很好了。所以可以看出图2的置换检验结果also good,但不是很理想,有一定的过拟合,要警惕结果的假阳性。
总结一下,OPLS-DA模型不能只看得分图能不能分开,而是要看R2Y和Q2Y的得分值以及外部检验的结果是否通过。可以说,写文章时如果只秀能分开的得分图,不展示得分值和检验结果,那是赤裸裸的耍流氓。
欲知其他代谢组学研究中的误区,可在知乎搜索“亮哥聊代谢组学”或关注本公众号,为您持续更新~
-
J Hazard Mater(IF=13.6) | 蛋白质磷酸化:大麦应对纳米塑料与氧化锌纳米粒子的关键调控因子纳米材料作为纳米技术发展的物质基础,已在多个领域得到广泛应用。在农业方面,氧化锌纳米颗粒(ZnO nanoparticles, ZnO NPs)可用作纳米肥料施用,能够增加植物的光合碳同化、水分利用效率和胁迫抗性。2024-03-12
-
Cell揭秘,发现准妈妈补充叶酸的“真相”无论是影视作品中还是日常生活中,我们能经常看到备孕期、怀孕期的准妈妈会主动补充叶酸,但是叶酸是什么呢?为什么准妈妈们要补充叶酸呢?叶酸有什么作用呢?补充的叶酸对于怀孕过程和小宝宝的生长有什么影响呢?2024-03-05
-
国自然热点:黄芪新发现,逆转心肌梗死后重构,改善心功能该研究发现新型小分子黄芪甲苷(Astragaloside IV)衍生物HHQ16通过与长链非编码RNA(long non-coding RNA, lncRNA)-lnc4012/9456特异性结合导致其降解,进而拮抗G3BP2/NF-κB信号通路信号传导2024-02-27
-
项目文章 | 基于靶向代谢组学鉴定肠炎沙门氏菌污染鸡的生物标志代谢物肠炎沙门氏菌(S.enteritidis)是一种严重威胁畜牧业和人类健康的人畜共患病原体,它引起的污染已成为中国乃至世界细菌性食物中毒的主要原因。本研究旨在研究肠炎沙门氏菌在鸡体内的代谢特征,寻找肠炎沙门氏菌在鸡体内的代谢标志物。2024-02-22
-
项目文章(IF=18.9) | 中科院微生所仲乃琴团队在马铃薯疮痂病方向新突破马铃薯作为世界第四大粮食作物,在保障人类粮食供应稳定方面发挥着重要作用。然而,由致病性链霉菌(Streptomyces)引起的马铃薯普通疮痂病(common scab, CS)在全球范围内均有发生,且危害逐年增加。2024-01-25
-
干货分享 | 5min带你认识简单好用的通路数据库——ReactomeReactome数据库交叉引用了100多个不同的在线生物信息学资源,包括NCBI、Ensembl和UniProt数据库、UCSC基因组浏览器、ChEBI小分子数据库和PubMed文献数据库等。2023-08-23
-
科研加速宝典 | 跟着CNS学习肠菌研究策略“肠道菌群与人体健康关系的研究”被列入 Science 杂志报道的十大科学进展,对肠道菌群的研究早已成为科学热点之一。2023-08-23