随着现代生物组学(基因组学、转录组学、蛋白组学等)的飞速发展,生物医学的研究已不局限于单个基因或蛋白。生物体内的生物学功能是由许多分子相互作用的结果,不能仅仅局限于单个基因或单个分子。通过将基因组信息和高一级的功能信息有机地结合起来,对细胞内已知生物学过程的计算机化处理和将现有的基因功能解释标准化,对基因的功能进行系统化的分析,将基因组中的一系列基因用一个细胞内的分子相互作用的网络连接起来,这将大大扩展我们对生物医学研究的认识。如一个通路或是一个复合物,通过它们来展现更高一级的生物学功能。
通过代谢途径的注释与富集分析,可以整理出现存的调控网络,并建立其中每个组件与基因间的关系。研究者找到目的基因后,透过KEGG数据库(http://www.genome.jp/kegg/)的代谢途径注释,从代谢网络的高度解析生物医学问题。同时,网络中的每个反应路径关系都对应有深层次的相关信息。
代谢途径注释即对基因及其产物的所参与生物体代谢途径,根据KEGG数据库的记录数据一一进行标注。注释针对每个基因。
代谢途径富集分析是将一个基因列表中的基因与参考物种的全部基因列表根据KEGG数据库注释结果进行对照比较,得出两者差异的显著性,从而找到这个基因列表中富集的代谢途径类别,找到一个基因列表所富集的代谢途径。不同于针对基因的注释,富集分析以代谢途径为单位,结果可以直接揭示整个基因列表中基因的整体代谢途径的富集特征。
除了广泛引用的KEGG数据库,我们还可以参考BioCarta、BBID-Biological Biochemical Image Database数据库做代谢途径注释及富集分析。
下图1、2为对72个基因组成的基因列表进行代谢途径注释结果的一部分。下图3为对72个基因组成的基因列表进行代谢途径富集分析得到的部分结果。
图1 基因与蛋白代谢通路注释
图2 基因与蛋白代谢通路示意图
图3 基因与蛋白代谢通路富集分析