

文章标题:An atlas of exposome–phenome associations in health and disease risk
发表期刊:nature medicine
影响因子:50
研究背景
临床表型与疾病风险受遗传和环境共同调控,但暴露组与人类健康的系统性关联仍不明确。既往研究多局限于少数候选暴露与表型,证据碎片化、重复性差且假阳性率高,难以支撑精准医学应用。目前精准医学过度依赖遗传因素,缺乏对环境暴露的系统性量化与整合评估,而甘油三酯、糖化血红蛋白、一秒用力呼气容积(FEV₁)等核心临床表型均可能受可改变环境因素影响。本研究依托美国NHANES 1999–2018年10轮独立调查数据,首次开展大规模表型-全暴露组关联分析(P-ExWAS)(图1),系统解析619项暴露指标与305项定量表型的关联模式,构建暴露组-表型组关联图谱并验证关联稳定性,为疾病风险评估、人群监测与环境干预提供数据基础。
长期以来,精准医学的重心几乎全部押注在基因组上——我们习惯性地认为,基因测序就能预测疾病风险、指导个体化治疗。但一个被严重忽视的事实是:临床表型与疾病风险,其实受遗传和环境双重调控。
我们每天接触的饮食、空气、烟草、化学品、重金属……这些统称为“暴露组”的环境因素,可能同样在深刻影响着我们的血脂、血糖、肺功能、认知能力,甚至衰老速度。然而,过去的研究大多只盯着少数几个候选暴露(比如吸烟、铅中毒),证据碎片化、重复性差,难以形成系统性认知。
更关键的是,目前精准医学体系中,几乎没有对环境暴露的量化评估模块。这就好比只关注硬件(基因),却忽略了运行软件(环境)——而后者往往是可改变的、可干预的。
为了填补这一空白,本研究依托美国NHANES 1999-2018年十轮大规模调查数据,首次开展了全暴露组-全表型组关联分析(P-ExWAS,图1),系统解析619种暴露与305项临床表型的关联网络,构建了可重复的暴露组-表型组全景图谱,为疾病风险评估、人群监测与环境干预提供了坚实的数据基础。

图1.P-ExWAS研究流程示意图
长按二维码
研究结果
01.表型组水平的全暴露组关联分析
本研究开展表型全暴露组关联研究(PExWAS),在9种校正模型下采用调查加权回归,系统分析619项暴露与305项表型的关联,校正变量包括年龄、性别、种族、收入、教育及调查年份。对连续变量标准化后计算标准化β系数、P值与R²,以Bonferroni阈值(≈4×10⁻⁷)和5%FDR判定显著性,主要结果如下:
(1)在123,774项关联中,5,674项(5%)达到Bonferroni显著,15,386项(12%)达到5%FDR显著;各表型平均5%的关联达到显著水平,以其中血清胆红素、腰围和BMI最为突出(图2a)。
(2)按表型类别划分,人体测量学表型的显著关联数量最多,该类别中13%的表型存在至少一项Bonferroni显著关联(图2b)。
(3)按暴露类型划分,吸烟生物标志物与膳食/营养生物标志物的关联最为密集,分别占总显著关联的15%和13%,显著高于其他暴露类型(图2c)。
综上,暴露组对表型的影响呈非均匀分布,主要集中在人体测量表型以及吸烟、营养相关暴露域,为精准环境风险评估和干预提供了明确优先方向。

图2.暴露组对表型组的关联结构
02.暴露组的表型方差解释度
剔除人口学因素的影响后,研究进一步评估暴露组对表型的方差解释度(R²)。结果显示,单个暴露对表型的解释力度普遍较低(图3b–c)。Bonferroni显著关联的中位R²为0.6%,而非显著关联仅0.02%。人口学因素(年龄、种族、收入、教育、性别)可单独解释表型变异的0%~80%(图3d),而单个暴露的中位解释比例仅0.14%(图3a–d)。
不同表型与暴露类别间差异明显:① 炎症类表型的显著暴露平均可解释3%的变异(图3b);② 污染物暴露平均解释0%~3%,其中有机氯类约为3%;③ 膳食生物标志物平均为1%,而自报膳食数据仅0.5%(图3c)。
当同时纳入20个暴露因素时,119个表型的中位联合R²提升至3.5%,远高于单暴露水平。对于暴露数≤20 的表型,中位R²为1.6%。其中甘油三酯的多暴露联合解释度最高,达到43%(图3d)。即使调整总胆固醇后,亲脂性膳食与污染物相关暴露仍可解释美国人群甘油三酯水平的大量变异,其中贡献最大的三个变量为反式脂肪酸、α生育酚和 γ生育酚,且均与甘油三酯呈正相关。

图3.暴露组在不同表型组中的方差解释
03.暴露组-表型组全景图谱
如图4所示,研究构建了完整的暴露组表型组关联图谱(调整后β系数)。对于经对数转换的连续暴露(含对数转换后变量),关联大小表示每增加1个标准差对应的表型变化;对于分类变量,则以预设的参照组为基准进行比较。在Bonferroni显著的暴露表型关联中,每1个标准差暴露变化引起的表型变化范围−0.17至0.19(绝对值0.03至0.24),表明单一暴露对表型多为弱至中等程度影响。
该图谱覆盖18个暴露类别(污染物、膳食生物标志物、吸烟等)和18个表型类别(人体测量、炎症、脂质等),为系统评估环境暴露对健康的影响提供了全局性参考。

图4.表型组-暴露组图谱
04.暴露组的高密度相关网络
暴露组内部各因素间存在密集的相关网络(图5a–b)。所有暴露对的中位相关系数为0.01,中位绝对值为0.05。经Bonferroni校正(阈值2×10⁻⁷)后,显著相关的强度明显提升:中位相关系数为0.19,中位绝对值0.21,第95百分位数达0.69(图5c)。与随机暴露对相比,与BMI或糖化血红蛋白(HbA1c)相关的暴露之间具有更强的相关性(图5c,蓝色曲线)。
综上,暴露组呈高度互联结构,暴露极少单独发挥作用,需采用多暴露联合模型评估环境风险。

图5.暴露组内部关联网络图及全域暴露间相关系数分布
05.不同暴露类别之间关联的一致性
自我报告的膳食营养素是流行病学中营养暴露评估的主要方式。本研究系统对比了自我报告膳食与生物标志物的可靠性与关联一致性。结果显示,自我报告膳食营养素与1,452个表型存在Bonferroni显著关联,但方差解释度极低,中位R²仅0.2%。69种膳食营养素的2天重复调查中位相关系数为0.36,提示表明存在测量误差;但两日所得暴露–表型关联高度稳定,相关系数达0.84(原文扩展数据图4A)。
相比之下,膳食生物标志物表现更优,在1,101个表型中存在显著关联,中位R²为1%,是自报数据的5倍;二者的中位相关系数与自我报告膳食的相关系数为0.52,在显著关联中可达0.60(原文扩展数据图4B)。此外,血液与尿液污染物生物标志物的整体一致性高,相关系数达0.72(原文扩展数据图4C);,其中镉、可替宁、汞的关联一致性分别为0.78、0.96、0.71。
综上,客观生物标志物(膳食与污染物指标)较自报数据能提供更稳健、更强的暴露–表型关联证据,应作为暴露组研究的优先测量手段。

扩展数据图4.不同领域间表型暴露关联的一致性
06.暴露组关联与肺功能的一致性
吸烟是导致肺功能(如FEV₁)下降的重要危险因素。本研究显示,烟草相关生物标志物(NNAL、血清可替宁)与FEV₁均呈负相关,与既往证据一致。其中,尿液NNAL作为烟草特异性亚硝胺代谢产物,与FEV₁的负相关更强(每增加1个标准差,FEV₁降低0.06,R²=0.2%),优于血清可替宁(降低0.03,R²=0.08%)。这一差异与二者的其生物学特性相符:可替宁是尼古丁代谢产物,半衰期短,主要反映近期暴露,日间变异较大;而NNAL半衰期为10~16天,可更稳定地反映累积烟草暴露。尽管如此,仍有大量与烟草暴露高度相关的其它暴露与FEV₁存在关联(原文扩展数据图5)。

扩展数据图5.与FEV1相关暴露因素间的暴露-暴露相关性
07.甲基化与认知衰老的暴露组相关性
研究采用借助全暴露组关联分析(ExWAS),研究系统分析了衰老相关生物标志物(如表观遗传年龄)及临床认知衰退评估指标的环境关联特征临床用于评估老年人认知衰退的指标(原文补充图5)。
在认知功能方面,挥发性有机化合物(VOCs)、吸烟指标(可替宁)及身体活动与认知功能表现出最强关联(补充图5a–b)。良好的认知功能与其他表型间存在共享关联结构:较好的认知功能与较高的呼出一氧化氮水平(共享相关系数0.35)及尿肌酐水平具有共同的暴露关联特征(原文补充图 5c)。
针对加速表观遗传衰老(如GrimAgeMort),最强的关联信号主要源于吸烟、重金属暴露以及身体活动行为。其中身体活动的解释度最高(R²<1%);从整体暴露组风险角度,10种暴露因素共同解释了GrimAgeMort 变异的10%,揭示了特定环境因素对生物学衰老进程的累积影响效应。

补充图5.认知功能的暴露组关联分析与共享结构
08.年龄与暴露组的交互作用
考虑到环境暴露的健康效应可能随暴露时的年龄发生改变,研究对ExWAS分析流程进行扩展,纳入年龄–暴露交互项,以探究检验不同年龄段人群的暴露关联强度是否存在差异。结果显示,对多数表型而言,加入年龄与暴露的交互项后,模型R²仅小幅提升(原文扩展数据图6)。简言之,年龄–暴露交互作用能补充解释的表型变异十分有限,仅少数指标存在例外情况。

扩展数据图6.年龄-暴露组交互作用
09.暴露因素间的共有关联架构
研究发现,同一类别的暴露因素往往多呈现相似的表型关联模式(原文扩展数据图7a–b)。例如,血液中反式β胡萝卜素与顺式β胡萝卜素的关联结构相关系数高达0.98;吸烟标志物血清可替宁与污染物3芴的关联结构相关系数达0.90,表明同类暴露(饮食生物标志物、有机氯、挥发性有机物等)引发的表型变化高度一致。
进一步统计显示,饮食生物标志物内部、吸烟标志物内部的共享关联结构绝对值中位数均为0.2;而饮食生物标志物与自报营养素间的共享关联结构绝对值中位数为0.24,进一步亦证实同类暴露的作用模式具有相似性。
在表型层面,关联结构呈现高度一致或截然相反的模式。BMI与体重的关联结构相关系数高达0.98,呈极强正相关;相反,BMI与心肺健康呈显著负相关(−0.83),提示表明BMI升高伴随心肺功能下降。此外,糖化血红蛋白(HbA1c)与高密度脂蛋白胆固醇(HDLC)呈反向关联结构(−0.54),反映代谢风险因素间的拮抗关系。
上述结果系统揭示了暴露组表型组的内在关联规律,这为聚类识别关键暴露模块、解析多暴露协同效应提供重要依据。

扩展数据图7.暴露组与表型的共有关联架构
10.暴露组与基因组关联研究(GWAS)的比较
研究利用英国生物样本库(UK Biobank)数据,对比了遗传因素与暴露组因素对表型的解释能力。针29种与本研究重叠的表型,研究比较了约100万个遗传变异位点与多暴露模型的增量R²被比较分析(原文扩展数据图8)。
结果显示,29种表型的遗传中位增量R²为7.9%(IQR:2.8%~9.3%);而纳入20个暴露因素的模型,中位增量R²同样为7.9%(IQR:3.1%~12%)。当同时纳入多个暴露因素建模时,其表型变异解释力与全基因组遗传变异相当。其中,55%的表型(16/29)的暴露组解释力高于遗传因素。例如,在BMI变异解释中,全基因组常见遗传变异与20个暴露因素的解释比例相近,均约为10%。
此外,本研究结果与三项已发表的全暴露组分析进行比对的关联方向一致、P值保持稳健,进一步验证了结果的可靠性。

扩展数据图8.29项定量生理表型的暴露组决定系数与基因组决定系数对比
研究总结
本研究基于美国NHANES数据库1999–2018年10轮调查数据,通过全暴露全表型关联分析(PExWAS),解析619种暴露与305项临床表型的关联,构建了可公开访问的关联图谱。研究发现,共识别5674个Bonferroni显著关联,客观生物标志物的可靠性与解释度优于自我报告膳食;多暴露联合模型的表型解释力显著提升,与全基因组多基因评分相当;且与GWAS对比显示,暴露组与基因组对29项表型的中位解释度均为7.9%,55%表型的暴露组解释度更高。该研究证实环境暴露组整体对健康表型的贡献与遗传因素相当,多暴露组合的表型解释力与遗传因素相当,为精准医学纳入环境暴露评估、慢病风险分层及公共卫生干预靶点筛选提供了关键数据支撑。



