通过机器学习进行基因组的预测与学习,实现提前预测人类疾病

每个人的基因组共同编码他们与生俱来的生化机制,由超过 30 亿个 DNA 字母组成(www.57d.net)。然而,只有一小部分基因组(约 4-5 百万个位置)在两个人之间存在差异。尽管如此,每个人独特的基因组与他们所经历的环境相互作用,以确定他们的大部分健康结果。了解遗传变异和性状之间关系的一个关键方法是全基因组关联研究(GWAS),其中队列中存在的每个遗传变异都单独检查与感兴趣的性状的相关性。GWAS 结果可用于通过识别与感兴趣的疾病密切相关的基因来识别和优先考虑潜在的治疗目标,也可用于构建多基因风险评分(PRS) 以根据变异的综合影响预测疾病易感性存在于个体中。然而,虽然准确测量个体特征(称为表型)对 GWAS 至关重要,但它通常需要艰苦的专家管理和/或主观判断。

在“基于大规模机器学习的表型显着改善视神经乳头形态的基因组发现”中,Google展示了如何使用机器学习 (ML) 模型对医学成像数据进行分类可用于改进 GWAS。Google描述了如何针对表型训练模型以生成性状预测以及如何使用这些预测来识别新的遗传关联。然后,Google证明发现的新关联提高了 PRS 的准确性,并以青光眼为例,解剖眼部特征的改善与人类疾病有关。Google已在Google的Genomics Research GitHub 存储库上发布了模型训练代码及其使用的详细文档。

识别与眼部解剖特征相关的遗传变异

先前的工作表明,ML 模型可以识别眼部疾病、皮肤病和异常乳房 X 光检查结果,准确度接近或超过领域专家的最新方法。因为识别疾病是表型分析的一个子集,Google推断 ML 模型可以广泛用于提高 GWAS 表型分析的速度和质量。

为了测试这一点,Google选择了一个模型,该模型使用眼底图像来准确预测患者是否应该转诊进行青光眼评估。该模型使用眼底图像来预测视盘(视神经连接到视网膜的区域)和视杯(视盘中心的白色区域)的直径。这两个解剖特征的直径比(称为垂直杯盘比,或 VCDR)与青光眼风险密切相关。

显示垂直杯盘比的代表性视网膜眼底图像,这是青光眼的重要诊断测量。

Google应用这个模型来预测来自英国生物银行个人的所有眼底图像中的 VCDR ,这是世界上最大的数据集,可供全世界研究人员用于公共利益的健康相关研究,包含约 500,000 笔假名的广泛表型和遗传数据(英国生物银行的去标识化标准)个人。然后,Google在该数据集中执行了 GWAS,以识别与 VCDR 的基于模型的预测相关的遗传变异。

应用在临床数据上训练的 VCDR 预测模型来生成 VCDR 的预测值,从而能够发现 VCDR 性状的遗传关联。

基于 ML 的 GWAS 确定了 156 个与 VCDR 相关的不同基因组区域。Google将这些结果与另一组对相同英国生物银行数据进行的 VCDR GWAS 进行了比较,Craig 等人。2020 年,专家们煞费苦心地为 VCDR 标记了所有图像。基于 ML 的 GWAS 复制了 Craig等人发现的 65 个关联中的 62 个。,这表明该模型准确地预测了 UK Biobank 图像中的 VCDR。此外,基于 ML 的 GWAS 发现了 93 个新的关联。

通过详尽的专家标记方法(Craig等人,左)和Google基于 ML 的方法(右)发现的具有统计意义的 GWAS 关联的数量,中间有共享关联。

基于 ML 的 GWAS 改进了多基因模型预测

为了验证该基于 ML 的 GWAS 中发现的新关联具有生物学相关性,Google使用 Craig等人开发了独立的 PRS 。和基于 ML 的 GWAS 结果,并测试了它们在 UK Biobank 的一个子集以及一个完全独立的队列 ( EPIC-Norfolk ) 中预测人类专家标记的 VCDR 的能力。在两个数据集中,从基于 ML 的 GWAS 开发的 PRS 显示出比从专家标记方法构建的 PRS 更强的预测能力,提供强有力的证据表明基于 ML 的方法发现的新关联影响 VCDR 生物学,并表明改进的表型模型的准确性(即更准确地 VCDR 测量)转化为更强大的 GWAS。

从基于 ML 的方法生成的 VCDR 的多基因风险评分 (PRS) 与详尽的专家标记方法(Craig等人)之间的相关性。在这些图中,y 轴上的值越高表示相关性越大,因此仅来自遗传数据的预测就越大。

作为第二个验证,因为Google知道 VCDR 与青光眼密切相关,Google还调查了基于 ML 的 PRS 是否与自我报告患有青光眼或具有暗示青光眼或青光眼治疗的医疗程序代码的个体相关. Google发现使用Google的模型预测确定的 VCDR 的 PRS 也可以预测个体有青光眼迹象的概率。在该队列中,PRS 2.5 或更多标准差高于平均值的个体患青光眼的可能性是其 3 倍以上。Google还观察到,来自基于 ML 的表型的 VCDR PRS 比如广泛的手动表型产生的 VCDR PRS 更能预测青光眼。

使用基于 ML 的表型(与平均值的标准偏差)确定的 VCDR 的 PRS 分层青光眼(自我报告或 ICD 代码)的优势比。在该图中,y 轴显示了个体患有青光眼相对于基线率(由虚线表示)的概率。x 轴显示与 PRS 平均值的标准偏差。数据可视化为标准箱线图,它说明了平均值(橙色线)、第一和第三四分位数以及最小值和最大值的值。

Google已经证明 ML 模型可用于快速对 GWAS 的大型队列进行表型分析,并且这些模型可以提高此类研究的统计功效。虽然这些例子是针对从视网膜成像预测的眼睛特征显示的,但Google期待探索这个概念如何普遍适用于其他疾病和数据类型。

公司名称:河北斯劳特过滤技术有限公司
主营产品:粉浆分级过滤器,压力筛,声屏障,中排布水器,玉米浸泡罐筛管