蛋白质相互作用网络在蛋白质功能预测中的应用
【关键词】 基因
人类基因组计划(human genomic project, HGP)大规模测序工作的完成标志生命的研究将进入后基因组时代(post?genomic era)。由于蛋白质是生理功能的执行者以及生命现象的体现者,对蛋白质功能的研究将成为后基因时代研究的核心内容之一。伴随着生物信息学的迅猛以及基因表达谱和蛋白质相互作用数据的激增,利用方法对蛋白质功能进行预测和注释成为越来越有效的一种手段[1]。目前应用较为广泛的蛋白质功能预测主要基于以下几方面:同源序列、基因组对比、系统进化特征谱、基因表达谱数据以及蛋白质相互作用等。由于基于蛋白质相互作用网络的功能预测能整合多种数据信息,并具有从整体水平上准确预测蛋白质功能的优点,该方法已成为蛋白质功能分析及预测中的热点[2,3]。
1 蛋白质相互作用网络及其构建
对生物学认识的加深使得人们认识到生命活动的大多数过程是由许多的分子共同作用所引发的。此时再单纯地研究单个分子之间的相互作用显然无法从整体上阐明这种复杂的相互作用以及调控结果。因此,目前蛋白质相互作用的研究重点正逐渐从单个分子转向许多分子间的相互作用以及由它们所形成的复杂网络,并通过这种网络试图去揭示生命过程所涉及的分子组成、反应通路以及调控机制等一系列问题。
构建蛋白质相互作用网络首先需要获取蛋白质相互作用的数据。目前已有大量的蛋白质相互作用数据库,比如DIP(Database of Interacting Proteins)[4],BIND(Biomolecular Interaction Network Database)[5]等。根据这些数据库中提取的蛋白质相互作用数据,人们可以构建相应的相互作用网络。在相互作用网络中,一般用节点(node)来表示蛋白质,而连接两个节点的边(edge)表示蛋白质之间是否存在相互作用关系。目前,不同的研究组已成功地获得了H.pylori,S.cerevisiae,C.elegans和D.melanogaster等模式生物的部分蛋白质相互作用网络。
2 蛋白质相互作用网络用于功能预测
传统的蛋白质功能注释及预测方法是根据蛋白质相关的一些统计特征集,利用机器学习方法来得出功能注释的规则用于预测。蛋白质功能实现的复杂性以及功能定义的模糊性,使得传统的利用特征预测的方法很难准确的进行预测。而蛋白质相互作用网络能够利用蛋白质之间的相关性,对未知功能的蛋白质进行注释。目前,利用相互作用网络进行功能注释主要有两种方法,即直接注释方法(direct annotation schemes)[4,6]和基于模块的方法(module?assisted schemes)[7,8]。
2.1 直接注释方法
直接注释方法根据网络中某个蛋白质的连接情况直接推测该蛋白质的功能。这类方法基于的假设是:在蛋白质相互作用网络中,距离相近的两个蛋白质更加倾向于拥有相似的功能。而通过两蛋白质在网络中的距离来计算并判断这两个蛋白质功能相似性有许多的方法。
2.1.1 邻居节点计算法(neighborhood counting)
这种方法是最简便也是相对较早出现的方法。它根据网络中某个蛋白质直接相关的邻居已知蛋白质的功能来确定该未知蛋白质的功能注释[6]。这种方法假设某未知蛋白质的邻居中有超过n个蛋白质具有一样的功能,就将这种功能赋予给该蛋白质。这种方法虽然简单并且有时候非常有效,然而它在功能注释过程中不能为这种关联性提供非常有显著意义的解释,并且它也没有考虑到网络的全局拓扑结构。
2.1.2 图论方法(graph theoretic method)
图论方法不同于邻居节点计算法,它可以考虑网络的全局拓扑结构。Vazquez[4]等首先采用基于分割的方法(cut?based approaches)将图论法引入蛋白质功能注释研究中。其基本思路是:对一个未知功能蛋白质赋予某种功能,要使得注释为相同功能的蛋白质(未注释或者已注释)的连接数目最多。
基于分割的方法虽然可以很好地考虑网络的全局特性,但是它并未强调局部接近对功能相似性的贡献。因此,Nebieva等[9]人又提出一种基于流的网络分析方法(flow?based approaches),这种方法将每个蛋白质功能的注释都看作是一个“功能流”资源。在模拟功能流在网络中随时间传播时,根据模拟过程中未知功能蛋白质接收到的流的数目来确定注释结果。这种方法可以很好地协调网络中局部和全局的影响。
2.1.3 马可夫随机场方法
注释方法中有许多基于概率的方法,它们均基于马可夫假设:蛋白质的功能独立于与其直接相邻的邻居之外的所有蛋白质[10]。根据这个假设,人们也提出了马可夫随机场模型用于蛋白质功能的注释。对于某种蛋白质,它在某一类网络中出现f次的功能的概率可以通过下式计算:
p=log(f/1?f)=βN(v,1)+ɑ(N(v,1)?N(v,0)?N(v,0)
其中,N(v,1)和N(v,0)分别是v的邻居中已经注释和还没有被注释的蛋白质数目。
2.2 基于模块的方法
基于模块的方法首先将网络相关的蛋白质组成不同的模块,然后根据该模块中成员的功能来得到整个模块所共有的可能的功能,从而用来预测其中未知成员的功能。一个功能模块指其中的蛋白质所处的细胞位置以及相互作用使得它们可以实现一个特定的功能。而基于功能模块的蛋白质功能注释方法也不再单独的预测单个蛋白质的功能,而是试图发现模块中所有蛋白质的共同内在的功能。一旦模块确定,那么可以通过一些简单的方法来预测其功能,比如该模块中如果大部分的蛋白质都具有某种功能,那么这种功能就将赋予该模块。对蛋白质相互作用网络进行模块划分的常用方法有以下几种。
2.2.1 分级聚类方法(hierarchical clustering?based methods)
聚类就是将相似功能的蛋白质归为同一类(模块)。分级聚类的关键问题是如何评判蛋白质对之间的相似性,最简单的方法是以两个蛋白质之间的距离作为基准。但是在分级聚类中,大量蛋白质对之间的距离都是相同的。因此,Rives[11]等人就提出一个假设,认为同一个模块中的蛋白质成员更加可能拥有最短的路径距离谱(path distance profiles)。根据这个假设,所有短路径的蛋白质对聚成一类。这个方法实施比较复杂,很难在整个基因组水平上的网络上进行分析,但在一些子网络中它已经得到很好的应用,比如对酿酒酵母的核蛋白的相互作用网络分析。
2.2.2 图形聚类方法(graph clustering methods)
大量的图形聚类方法也用于图形化描述二元相互作用。早期的图形聚类方法用于相互作用模块的构建主要有两类,一类是基于SPC聚类(super paramagnetic clustering)方法,另一类为基于蒙特卡洛算法(monte carlo algorithm)。其中SPC算法在决定那些内部密度很高但松散的连接于其它部分的模块效果非常好。在最近,又不断出许多新的图形聚类算法,如高连通子图算法(highly connected sub graphs, HCS)、有限邻居搜索聚类算法(restricted neighborhood search clustering, RNSC)以及马可夫聚类算法(Markov clustering, MCL)等。
2.3 结合其他数据用于蛋白质功能预测
随着研究的不断深入,越来越多的研究者将其它数据信息整合于相互作用网络来进行蛋白质的功能预测和注释[12,13],最典型的就是将蛋白质表达数据引入相互作用之中。表达数据的引入结合方法一般分为两步,首先选择出在某一条件下高表达的一组基因,然后分析这部分基因翻译获取蛋白质在相互作用网络中的拓扑性质以及模块化特点。分析发现,那些相互作用的蛋白质通常会倾向于有相似的基因表达模式。根据这个特点,人们将表达数据引入相互作用网络进行分析(特别是模块的聚类)并取得了较大的成功。其它数据,如不同物种的基因组数据也可以引入相互作用中,可以极大地提高对功能预测的准确度。
3 展 望
伴随着生命研究的重点从基因组转向蛋白质组,人们越来越重视从整体上去认识和探索细胞内分子机制,能够反映大量分子相关性和生命过程中整体性的生物学网络也就成为了研究的重点。尽管已经有大量的蛋白质相互作用的相关研究,但是在蛋白质相互作用网络的构建或预测、证实和应用中还存在很多问题需要进一步研究。因此,开发系统评价蛋白质相互作用网络数据的工具以及整合相关数据网络的工具是应用生物信息学研究蛋白质相互作用的重要方向。由于实验和预测技术的改进、蛋白质相互作用数据的不断完善和提高、蛋白质相互作用网络数据系统分析、评价和应用的生物信息学方法的建立,蛋白质相互作用网络的研究会变得相对容易,并将在生命机制的研究中发挥更大的作用。
【】
[1]Letovsky S,Kasif S.Predicting protein function from protein?protein interaction data:a probabilistic approach[J].Bioinformatics,2003,19:197
[2]Samanta MP,Liang S.Predicting protein functions from redundancies in large?scale protein interaction networks[J].Proceedings of the National Academy of Sciences,2003,100:12579
[3]Vazquez A,Flammini A,Maritan A,et al.Global protein function prediction from protein?protein interaction networks[J].Nat Biotechnol,2003,21:697
[4]Salwinski L,Miller CS,Smith AJ,et al.The Database of Interacting Proteins:2004 update[J].Nucleic Acids Res,2004,32:D449
[5]Bader GD,Betel D,Hogue CW.BIND:the biomolecular interaction network database[J].Nucleic Acids Res,2003,31:248
[6]Chua HN,Sung WK,Wong L.Exploiting indirect neighbours and topological weight to predict protein function from protein?protein interactions[J].Bioinformatics,2006,22:1623
[7]LaCount DJ,Vignali M,Chettier R,et al.A protein interaction network of the malaria parasite Plasmodium falciparum[J].Nature,2005,438:103
[8]Rual JF,Venkatesan K,Hao T,et al.Towards a proteome?scale map of the human protein?protein interaction network[J].Nature,2005,437:1173
[9]Nabieva E,Jim K,Agarwal A,et al.Wholeproteome prediction of protein function via graph?theoretic analysis of interaction maps[J].Bioinformatics,2005,21:302
[10]Deng M,Zhang K,Mehta S,et al.Prediction of protein function using protein?protein interaction data[J].J Comput Biol,2003,10(6):947
[11]Rives AW,Galitski T.Modular organization of cellular networks[J].Proceedings of the National Academy of Sciences,2003,100:1128
[12]Tornow S,Mewes HW.Functional modules by relating protein interaction networks and gene expression[J].Nucleic Acids Res,2003,31:6283
[13]Kelley R,Ideker T.Systematic interpretation of genetic interactions using protein networks[J].Nat Biotechnol,2005,23:561











