利用基因组数据来预测农业和医学的结果对系统生物学来说既是一个希望也是一个挑战。研究人员一直致力于确定如何最好地利用现有的大量基因组数据来预测生物体如何对营养、毒素和病原体暴露的变化作出反应,从而为作物改良、疾病预后、流行病学和公共卫生提供信息。然而,从基因组规模的信息中准确预测农业和医学领域如此复杂的结果仍然是一个重大挑战。
在《自然通讯》的研究中,纽约大学的研究人员和美国与台湾的合作者利用机器学习(一种用于检测数据模式的人工智能)解决了这一挑战。
玉米生长在纽约大学基因组学和系统生物学中心屋顶的Rose Sohn Zegar温室。图片来源:纽约大学Coruzzi实验室
“我们的研究表明,专注于跨物种表达模式进化保守的基因,可以提高我们学习和预测主要作物生长性能和动物疾病结果的‘重要基因’的能力,”纽约大学生物学系和基因组学和系统生物学中心的卡罗尔和米尔顿.皮特里教授,同时也是这篇论文的资深作者解释道。
“我们的方法利用了物种内或跨物种的全基因组表达和相关表型的自然变异,”纽约大学基因组学和系统生物学中心和国立台湾大学的郑家义补充说,他是这项研究的主要作者。“我们表明,删繁就简基因组内基因的表达模式是守恒的输入和跨物种是一个生物原则方法来减少基因数据的维数,这极大地提高了我们的机器学习模型的能力来确定哪些基因是重要的特征。”
作为概念的证明,研究人员证明了两种不同植物(拟南芥,一种被广泛用作植物生物学模式生物的小型开花植物;以及不同品种的玉米,美国种植最为广泛的作物)之间对氮响应的基因在进化上是保守的,大大提高了机器学习模型预测对植物有效利用氮有重要意义的基因的能力。氮是植物的重要养分,是肥料的主要成分;能更有效地利用氮的作物生长得更好,需要的肥料更少,这对经济和环境都有好处。
研究人员通过实验验证了8个主转录因子对氮利用效率的重要性。他们证明,改变拟南芥或玉米的基因表达可以促进植物在低氮土壤中的生长,他们在纽约大学的实验室和伊利诺伊大学的玉米地中进行了测试。
伊利诺伊大学作物科学研究人员表示:“现在我们可以更准确地预测哪些玉米杂交种更善于在田间使用氮肥,我们可以迅速改进这一性状。提高玉米和其他作物的氮素利用效率可以带来三个主要好处:降低农民成本,减少环境污染,减少农业温室气体排放。”
此外,研究人员证明,通过预测植物的其他性状,包括拟南芥和玉米的生物量和产量,这种基于进化的机器学习方法可以应用于其他性状和物种。他们还表明,通过研究小鼠模型,这种方法可以预测另一种主要作物水稻的抗旱性的重要基因,以及动物的疾病结果。
Coruzzi指出:“因为我们展示了我们的进化信息管道也可以应用于动物,这突出了它的潜力,揭示了生物学、农业或医学中任何感兴趣的生理或临床特征的重要基因。”
许多重要的农学或临床特征在遗传上一般非常复杂,因此很难确定它们的控制和遗传。其研究证明了大数据和系统层面的思考可以让这些困难挑战变得容易应对。