结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法
【关键词】 结核分枝杆菌
Bioinformatics prediction strategy for Mycobacterium tuberculosis (H37Rv) secreted proteins
【Abstract】 AIM: To establish a prediction strategy for Mycobacterium tuberculosis (H37Rv) secreted proteins to pave the way for further research. METHODS: The whole protome of H37Rv was scanned by SignalP and TMHMM. The protein date analysis system based on Visual FoxPro was established to process the output of SignalP and TMHMM and identify the secreted proteins. The sequences of the secreted proteins were aligned by BLASTp. RESULTS: One hundred and seventynine secreted proteins were identified, where 12 of them were found to be unique in H37Rv. CONCLUSION: Bioinformatics approaches can be used as an assistant tool in secreted protein research.
【Keywords】 Mycobacterium tuberculosis;secreted protein;signal peptide;bioinformatics
【摘要】 目的:建立一种结核分枝杆菌(H37Rv)分泌性蛋白的预测方法,为后续研究提供依据. 方法:以SignalP和TMHMM两个软件对结核分枝杆菌蛋白组进行扫描,基于Visual FoxPro构建“蛋白质数据分析处理系统”对扫描原始数据进行分析处理以识别分泌性蛋白,再经BLASTp完成相似性比对. 结果:预测出了179种分泌性蛋白,其中12种为H37Rv所特有. 结论:生物信息学方法可作为一种研究分泌性蛋白的辅助工具,用于指导实验.
【关键词】 结核分枝杆菌;分泌蛋白;信号肽;生物信息学
0引言
结核分枝杆菌(Mycobacterium tuberculosis, MTB)的分泌蛋白不但在豚鼠实验中可以引发迟发性超敏反应,在结核病患者体内也可诱导抗体的产生[1],对结核病的预防和诊断具有重要意义. 目前有两种实验生物学方法用于MTB分泌蛋白的研究,一种是通过二维凝胶电泳的方法分离MTB早期培养滤液蛋白(CFP),再通过N端测序[2]或免疫学方法加以确定[3]. 另一种是通过基因融合的方法将MTB的基因与报告基因融合后进行表达,再对报告基因的表达产物进行定位,以确定是否为分泌表达[4]. 已有30多种MTB分泌蛋白通过实验方法得以确认,但MTB分泌蛋白远不止这30多种,尚有很多未被发现. MTB蛋白分泌的主要途径是sec-依赖性的分泌途径也称为II型分泌途径,该类分泌蛋白的结构特点是新生肽链的N末端具有典型的信号肽特征,主要分为N区、H区、C区三个部分. N区位于信号肽N端,含有1~3个带正电荷的氨基酸残基;H区位于信号肽中间,由10~15个疏水氨基酸残基组成;C区位于信号肽C端,富含亲水氨基酸,能被信号肽酶识别. 信号肽所具备的这些数量化特点为机自动化分析预测提供了可能.
分泌蛋白和膜蛋白都含有信号肽序列,所不同的是分泌蛋白在信号肽之外不再有疏水的跨膜区,信号肽引导分泌蛋白跨膜穿梭之后,信号肽酶在相应位点将信号肽切除,以此完成成熟分泌性蛋白的分泌过程;而膜蛋白在信号肽之外还有一个以上的疏水跨膜区,信号肽在引导膜蛋白跨膜时,由于疏水跨膜区的存在使得膜蛋白停留在细胞膜中. 本文预测MTB分泌性蛋白的方法主要涉及到两方面内容:一方面是对信号肽序列的识别,另一方面是对蛋白疏水跨膜区的识别. 首先通过对信号肽的识别将分泌性蛋白和膜蛋白从其他蛋白质组中区分出来,然后从中寻找疏水跨膜螺旋以区分分泌性蛋白和膜蛋白,最后利用NCBI提供的MTB蛋白序列相似性搜索(BLASTp)发现有12条预测出的分泌性蛋白为MTB所特有.
1预测方法
预测方法如图1所示.
1.1搜集结核杆菌H37Rv基因组和蛋白组信息在美国国家生物技术信息中心(www.ncbi.nlm.nih.gov)的核酸数据库Nucleotid中查寻关键词“H37Rv complete genome”. 从搜索结果中查找H37Rv全基因组,并以FASTA格式下载. 从英国基因组研究中心Sanger center的数据库(ftp://ftp.sanger.ac.uk/pub/tb/sequences/)下载全蛋白质组信息.
1.2分析数据分别向SignalP和TMHMM提交H37Rv蛋白组数据. 由于SignalP服务器对单次提交数据量有数量限制,因此将H37Rv蛋白组数据分为8次提交(Rv0001Rv0500,Rv0501Rv1000,……Rv3501Rv3924). 另由于Rv2048单数据量过大,超过SignalP服务器对单数据的处理范围,因此将Rv2048 C端部分氨基酸残基除去(不影响N端信号肽分析). 由于TMHMM服务器对提交数据量没有限制,可一次全部提交. 返回数据一次保存.
1.3建立数据库根据本课题的实际需求,依据SignalP和TMHMM分析结果的数据特点,使用VFP6.0开发了“蛋白质数据分析处理系统”用来存储和处理SignalP和TMHMM的原始分析结果(图2).
1.4获得分泌性蛋白和膜蛋白通过上述数据分析系统自动完成分泌性蛋白和膜蛋白的识别和查询.
1.5BLASTp分析将预测出的所有H37Rv分泌性蛋白通过NCBI的BLASTp服务器与所有已知的蛋白序列进行相似性比对,以获得结核杆菌H37Rv特有的分泌性蛋白.
2结果
2.1H37Rv基因组和蛋白组信息搜集从美国国家生物技术信息中心www.ncbi.nlm.nih.gov的核酸数据库Nucleotid中查寻到编号为NC_000962的记录,其中包含了H37Rv的全部基因组信息共4 411 529 bp,从Sanger的数据库获得蛋白组信息,共3924条蛋白序列数据.
2.2H37Rv蛋白组信号肽和跨膜区分析将SignalP和TMHMM的原始分析结果通过“蛋白质数据分析处理系统”自动识别N端具有N区、H区和C区等典型信号肽特征的蛋白质和具有典型跨膜螺旋特征的蛋白质,通过数据库的自动查询功能共发现了179个分泌性蛋白(其中有12个已得到相关的证实,表1)和150个膜蛋白.表1H37Rv蛋白组信号肽和跨膜区分析结果(略)
2.3BLASTp分析对179条分泌性蛋白经BLASTp分析发现有12条蛋白为H37Rv特有,在其他物种已发表的蛋白质序列中无任何相似区域(表2).表2BLASTp分析结果(略)
3讨论
在对结核杆菌H37Rv的3924条蛋白质分析过程中SignalP共预测出了573条蛋白质含有信号肽;TMHMM预测出了786条蛋白质含有疏水跨膜螺旋,其中623条蛋白质含有信号肽. SignalP和TMHMM对信号肽预测结果的交集为329条,其中150条含有信号肽外疏水跨膜区被列为膜蛋白,其余179条蛋白不含信号肽外疏水跨膜区因而被列为分泌性蛋白.
SignalP和TMHMM的原始分析结果数据量非常大,每条蛋白质包含了“蛋白编号”、 “可信度”以及“酶切位点”等11项不同信息,因此H37Rv的分析结果中信息量多达43 164条. 若要对4万多条信息进行人工比较将是一项费时、费力的工作,且人工比较的准确性也难得到保证. 我们开发出基于Visual FoxPro的“蛋白质数据分析处理系统”,不仅能将SignalP和TMHMM的原始分析结果自动导入数据库,而且可对数据库中的各项数据进行比较,实现了将分泌性蛋白和膜蛋白的识别工作完全交给计算机来完成. 以前用人工方法可能要花费数周时间的工作,现在利用这套系统仅需数秒钟即可完成,同时排除了人为可能造成的错误.
蛋白质的功能由其特定的空间结构决定,而这种空间结构又由蛋白质的氨基酸顺序决定. 如果两个蛋白质的一级序列相似,尤其是活性位点的一级序列相似,便很可能预示着这两种蛋白质具有相似的功能. 因此,对未知功能的蛋白质进行序列比对是生物信息学中的一项重要工作. 本研究通过对预测出的179种分泌性蛋白进行序列相似性比对(BLASTp)发现其中有12种为结核杆菌所特有且功能未知. 可以设想,这12种蛋白质或许对结核杆菌的临床诊断具有一定的潜在应用价值. 作为分泌性蛋白,它们也可能是具有保护性作用的抗原,在结核病的疫苗研究中成为新的靶点[14].
综上所述,利用该体系可实现对结核杆菌H37Rv分泌性蛋白和膜蛋白的快速预测. 我们开发的“蛋白质数据分析处理系统”可以处理所有SignalP和TMHMM的分析结果,因而该系统不仅能用于结核杆菌的分泌性蛋白和膜蛋白的预测,而且还可用于其他原核细胞或真核细胞的分泌性蛋白和膜蛋白的预测. 作为尝试性的研究,本课题还存在很多不足之处. 例如:该预测体系建立在GSP(General secretory pathway)理论基础之上,虽然大多数蛋白质的分泌途径遵守GSP理论,但是蛋白质的分泌过程却不止这一种途径,有些蛋白质的分泌并不需要信号肽的存在[15],这类蛋白质无法被该系统检测出来. 另外,膜蛋白的疏水跨膜区有些是以β桶型结构存在[16],而非α螺旋结构,因此在预测过程中有可能将这类膜蛋白误认为是分泌性蛋白.
【】
[1] 柏银兰,薛莹,李元,等.结核分枝杆菌分泌蛋白MPT64的免疫学特性[J]. 第四军医大学学报,2004,25(13):1182-1184.
[2] Sonnenberg MG,Belisle JT. Definition of Mycobacterium tuberculosis culture filtrate proteins by twodimensional polyacrylamide gel electrophoresis, Nterminal amino acid sequencing, and electrospray mass spectrometry[J]. Infect Immun, 1997,65(11):4515-4524.
[3] Weldingh K,Rosenkrands I,Jacobsen S,et al. Twodimensional electrophoresis for analysis of Mycobacterium tuberculosis culture filtrate and purification and characterization of six novel proteins[J]. Infect Immun, 1998,66(8):3492-3500.
[4] Braunstein M,Griffin TJ IV,Kriakov JI,et al. Identification of genes encoding exported Mycobacterium tuberculosis proteins using a Tn5529phoA in vitro transposition system[J]. J Bacteriol, 2000,182(10):2732-2740.
[5] Kamath AT,Feng CG,Macdonald M,et al. Differential protective efficacy of DNA vaccines expressing secreted proteins of Mycobacterium tuberculosis[J]. Infect Immun, 1999,67(4):1702-1707.
[6] Morris S,Kelley C,Howard A,et al. The immunogenicity of single and combination DNA vaccines against tuberculosis[J]. Vaccine,2000,18(20):2155-2163.
[7] Baldwin SL,DSouza CD,Orme IM,et al. Immunogenicity and protective efficacy of DNA vaccines encoding secreted and nonsecreted forms of Mycobacterium tuberculosis Ag85A[J]. Tuber Lung Dis, 1999,79(4):251-259.
[8] Lozes E,Huygen K,Content J,et al. Immunogenicity and efficacy of a tuberculosis DNA vaccine encoding the components of the secreted antigen 85 complex[J]. Vaccine, 1997,15(8):830-833.
[9] Samanich K,Belisle J,Sonnenberg M,et al. Delineation of human antibody responses to culture filtrate antigens of Mycobacterium tuberculosis[J]. J Infect Dis, 1998,178(5):1534-1538.
[10] Manca C,Lyashchenko K,Colangeli R,et al. MTC28, a novel 28kilodalton prolinerich secreted antigen specific for the Mycobacterium tuberculosis complex[J]. Infect Immun, 1997,65 (12):4951-4957.
[11] Freer G,Florio W,Dalla B,et al. Identification and molecular cloning of a novel secretion antigen from Mycobacterium tuberculosis and Mycobacterium bovis BCG[J]. Res Microbiol,1998,149(4):265-275.
[12] Webb J,Vedvick T,Alderson M,et al. Molecular cloning, expression, and immunogenicity of MTB12, a novel lowmolecularweight antigen secreted by Mycobacterium tuberculosis[J]. Infect Immun, 1998,66(9):4208-4214.
[13] Johnson S,Brusasca P,Lyashchenko K,et al. Characterization of the secreted MPT53 antigen of Mycobacterium tuberculosis[J]. Infect Immun, 2001,69(9):5936-5939.
[14] 师长宏,范雄林,柏银兰,等. 结核分枝杆菌Ag85BESAT6融合蛋白在小鼠体内诱导的免疫应答及其保护力[J]. 第四军医大学学报,2004,25(18):1633-1636.
[15] Sargent F,Stanley NR,Berks BC,et al.Secindependent protein translocation in Escherichia coli. A distinct and pivotal role for the TatB protein[J]. J Biol Chem, 1999,274(51):36073-36082.
[16] Tamm LK,Arora A,Kleinschmidt JH. Structure and assembly of betabarrel membrane proteins[J].J Biol Chem, 2001,276(35):32399-32402.