对指定物种的目的基因/蛋白列表进行其生物学功能注释。注释依据Gene Ontology (http://www.geneontology.org/)数据库。GO(gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,提供了生物学过程(Biological process)、细胞组成(Cellular Component)、分子功能(Molecular function)三个水平的系统定义,描述基因产物的功能。
基因和蛋白功能注释即对基因及其产物的功能,根据GO数据库的记录数据一一进行标注。注释针对每个基因,找到生物学过程(Biological process)、细胞组成(Cellular Component)、分子功能(Molecular function)三个功能定义下子条目的注释。由于GO注释的条目为层次结构,上一层的条目会包含多条子功能条目,使得传统GO注释结果会出现含义重复的注释条目。为了使得注释结果能更有效的帮助科研人员找到有价值的信息,我们根据功能注释条目下子条目的数量进行有效的过滤,使得原本冗余的注释条目变得简明而清晰。
基因和蛋白功能富集分析是将一个基因列表中的基因与参考物种的全部基因列表根据GO功能的注释结果进行对照比较,得出两者差异的显著性,从而找到这个基因列表中富集的功能类别条目,找到一个基因列表的功能特性。不同于基因功能注释以基因为单位进行注释,基因功能富集分析以GO功能条目为单位,结果可以直接揭示整个基因列表中基因的整体功能富集特征。
另外,除了最为常用的GO功能注释,我们还可以提供COG Ontology、Swiss-Prot (SP)和Protein Information Resource (PIR) 等数据库关键词的注释。
下图1中表格为对72个基因组成的基因列表进行的注释结果的一部分。下图2中表格为对72个基因组成的基因列表进行基因功能富集分析得到的部分结果。
图1 基因功能注释
图2基因功能富集分析