远距离调控元件与遗传性疾病
作者:李亚 王丹 何浪 王玉明
【摘要】 组织和发育表达特异性基因通常具有高度复杂的表达调控模式。除启动子外,该类基因的正常表达尚需要其它调控元件参与。这些调控元件主要包括增强子和沉默子等,它们可位于距离转录基因很远的DNA序列中,甚至存在于与转录基因功能上不相关的邻近基因内。含有组织特异性转录因子结合位点的调控元件,通过参与调控相关基因的表达,促进组织器官的分化与发育。这种精确的调控机制一旦破坏,将导致疾病的发生。而且,某些调控元件的异常能导致临床表型与相应基因编码区突变截然不同的疾病。
【关键词】 增强子;启动子;沉默子
Abstract:Tissue-specific or developmental regulator genes often have highly complex expression patterns.In addition to the promoter,many other regulatory elements mainly including enhancer and repressor are required for such gene expression.These elements may extend long distances outside the transcriptional gene or even locate in unrelated neighboring genes.Such elements harboring sites for tissue-specific transcription factors can facilitate the differentiation and development of many tissues and organs by participating in the gene expression.Disruption of this precise mechanism can lead to disorder.Moreover,Mutations in some regulatory elements will be associated with clinical phenotypes distinct from any identified in coding-region mutations.
Key words:enhancer;promoter;silencer
迄今为止,已知超过1500种基因与遗传性疾病的发生存在密切的关系[1]。除基因编码区突变外,转录调控序列的异常,也可扰乱基因的正常表达,破坏基因正常功能,从而导致疾病的发生[2]。远距离调控元件主要包括增强子、沉默子、隔离子等顺式作用元件,这些转录调控序列在调控组织和发育特异性基因表达中扮演着至关重要的角色[3]。深入探讨远距离调控元件的作用机制及其异常相关疾病的发病机理,对于该类疾病的预防、诊断和具有十分重要的意义。
1 远距离调控元件
1.1 远距离调控元件的概念
组织和发育特异性基因的表达,除启动子、启动子上游元件和终止子等基本调控元件外,通常还需其它类型的顺式作用元件参与,这些元件主要包括①加强基因转录的增强子;②抑制转录的沉默子;③能防止邻近阻遏状态的异染色质或活化状态的常染色质向侧翼扩散的隔离子[4];④结构更复杂且跨度更大,能克服异染色质沉默效应,促进同一位点内多个基因协调表达的位点控制区(LCR)等。和启动子不同,上述组织和发育特异性表达基因特有的转录调控序列通常无距离和方向限制,可位于转录基因的上、下游;甚至存在于远离转录基因的DNA序列中[5];许多还分布于与转录基因功能上不相关的邻近基因内含子中[6];由此称之为远距离调控元件(以下简称元件)。
1.2 远距离调控元件的产生
元件所调控的基因主要编码一些组织特异性转录因子和发育信号分子,在发育的不同阶段,这些基因视机体的需要而表达,从而在细胞、组织器官的分化、形成中发挥着关键作用。必须指出,元件的获得是物种在长期进化过程中,通过选择而非人工方式实现的[6]。元件的获得主要有两种途径,①随机的序列突变和基因组DNA片段插入[7],②基因重复后的分化[3]。而且,与此相关的染色体运动和重排常造成元件嵌入到邻近的其它基因内含子中,这些邻近基因通常是一些组成性表达或者是与被调控基因功能上不相关的基因[8、9]。一般来讲,进化过程中产生的新元件,只要能与启动子相互作用而不干扰基因原有的表达调控体系,并能使物种保持进化上的优势,即可在物种基因组中固定下来。另外,通过与原有的元件协同作用,新元件还可优化基因的表达,赋予物种选择优势。因此,元件的分布通常具有这样的:距离转录基因相对较近的元件与基因原有的功能相关;而决定基因在新组织中表达的元件往往与其调控的基因相距较远[10]。
1.3 远距离调控元件的查找与鉴定
转基因技术和表达组织染色质DNase I高敏感位点作图[11],是发现和鉴定元件的两种基本方法。前者通过构建增强子缺失的转基因小鼠[12、13]来实现;后者则基于这样一种认识,即转录活跃基因的顺式作用元件对DNase Ⅰ敏感,此外,若在作图过程中发现元件靠近启动子区域,还可进一步运用足迹法确定元件内转录因子结合位点。
近年来,随着人类基因组计划和各种模式生物测序工作的相继完成,出现了另一种大规模简便快速查找元件的方法——序列比较法[14],其依据的原理是,人类基因组中大多数已知元件在脊椎动物中具有高度的保守性。通过物种间DNA序列比较,已在不同物种基因组的非编码区发现大量的高度保守序列,这些序列可能具有基因表达调控相关的潜在功能。因此,可将物种间序列保守性比较作为寻找未知元件的第一步,之后,再结合转基因动物模型等技术,对候选序列进行功能分析与鉴定。Loots等第一次将序列比较成功地运用于未知元件的查找,通过物种间序列比较,在细胞因子基因IL4和IL3之间发现一段保守序列,后经转基因小鼠基因缺失研究证实,该序列为调控IL4、IL3以及与之相距更远的IL5基因表达的增强子。目前,该方法已相对成熟,正广泛地应用于筛查组织特异性表达基因两侧大范围区域的调控元件。
2 远距离调控元件的异常
目前,已知主要有三种元件异常的方式,①元件DNA序列突变。②染色体结构畸变导致的转录基因与元件分离。③元件所在区域染色质结构的改变[15、16]。三种方式均通过干扰启动子、转录基因与元件的相互作用破坏正常的基因转录调控。
3 远距离调控元件异常与遗传病的关系
长期以来,由于元件与转录基因间位置的不确定性,给元件及其异常所致的遗传病的鉴定带来极大的困难。近年来,随着以转基因技术为代表的一批分子生物学技术的广泛运用,迄今为止,已发现20余种元件异常相关的人类遗传病(表1)。其中,绝大多数为调控特异性转录因子和发育信号分子基因的元件异常导致的先天性发育畸形。按照发病分子机理的不同,可将相关疾病划分为如下3类:
3.1 位置效应与遗传病
自1995年首次在果蝇中发现染色体结构畸变导致的基因转录异常以来,陆续在许多人类遗传病中发现转录基因外染色体结构重排现象[17]。Wallrath等把这类由转录基因外的染色体结构畸变引起的遗传病形象地描述为位置效应遗传病[17]。这些疾病的共同特征是致病基因虽已明确,但在患者中检测不到致病基因的突变,而与疾病表型相关的染色体结构畸变则发生在致病基因之外。随后,国外学者利用转基因小鼠模型对位置效应疾病的发病机理进行了深入地研究,结果表明染色体结构畸变(如缺失、易位、倒位)导致元件破坏或与转录基因分离,从而使其调控的组织和发育特异性基因表达异常,是该类遗传病发生的根本原因[18]。由于染色体结构畸变很容易借助细胞学方法观察到,而且许多相关的遗传病,其临床表型又与相应致病基因编码区突变导致的临床症状相似,故位置效应遗传病是发现最早、最多,也是最容易发现的一类远距离调控元件异常相关的遗传病。必须指出,尽管目前已知的大多数位置效应遗传病的临床症状与相应基因编码区突变相似,但仍有部分位置效应遗传病的临床表型完全不同于编码区突变。下面以无巩膜(MIM106210)和肢体内侧多趾症(MIM 174500)为例分别加以说明。
无巩膜是由PAX6基因表达量缺乏引起的遗传性眼病。致病基因定位于11p13,编码一种特异性转录因子。然而,在一些患者基因组中检测不到PAX6基因突变;却发现PAX6基因下游存在染色体结构重排;其中,最远的染色体断裂点与PAX6基因相距达125kb。进一步的研究显示,这些断裂点全部位于组成型表达的ELP4基因最后3个内含子中,但ELP4基因缺陷却不足以引起该病的发生[9]。用低浓度DNA酶Ⅰ处理PAX6基因表达组织染色质,发现距断裂点下游不远的ELP4基因其它内含子中存在DNase Ⅰ高敏感位点。用人工酵母染色体(YAC)构建转基因小鼠模型,结果显示,覆盖了上述DNase Ⅰ高敏感位点的YAC,使无编码区突变的患病杂合子小鼠的子代表型恢复正常;相反,未涵盖DNase I高敏感位点的YAC则无此作用,提示这些DNase Ⅰ高敏感位点位于组织特异性增强子中[11]。若用人、鼠的体细胞进行杂交,则PAX6基因表达于保留有完整人类11号染色体的杂种细胞中;而在有患者11号染色体的杂种细胞中却不表达;因为患者细胞11号染色体虽有完整的PAX6基因,但缺失了下游增强子[18],以上结果充分表明,在ELP4基因内含子中存在调控PAX6基因表达的增强子,正是由于这些增强子在染色体重排过程中丢失或易位,引起PAX6基因在患者病灶组织中表达不足,从而导致与PAX6基因编码区突变相同的临床表型。
前面提及,有些元件异常相关疾病的表型明显不同于相应基因编码区的突变,这是由于远距离调控元件的破坏引起基因表达异常仅影响到部分表达组织的缘故。肢体内侧多趾症(PPD)是人类较常见的遗传性畸形,其致病基因SHH编码一种信号转导蛋白,在肢体前后枢轴形成中发挥着关键作用。转基因突变小鼠-Ssq为PPD提供了很好的研究材料。Ssq小鼠SHH基因上游1Mb的LMBR1基因第5个内含子中有一段插入的DNA片段,纯合子Ssq小鼠的症状较杂合子严重的多,也未发现其它转基因小鼠表现出PPD症状。提示该片段的插入是导致PPD的原因。正常情况下,SHH基因仅在小鼠新生肢体后部表达,但Ssq小鼠新生肢体前端和后部均发现有SHH基因表达[8],SHH基因在Ssq小鼠的异位表达不仅可以解释PPD产生的原因,并且提示插入片段破坏了SHH基因在新生肢体中正确表达。通过序列比较,在Ssq小鼠插入位点周围发现保守序列,转基因研究证实,该保守序列为调控SHH基因在小鼠新生肢体后部表达的组织特异性增强子[12]。此外,保守序列破坏引起SHH基因在Ssq小鼠新生肢体前端的表达,可以推测,该保守序列可能还含有抑制SHH基因在新生肢体前端表达的沉默子。
3.2 染色质构象改变与遗传病
元件所在的染色质空间结构改变,也可引起相关基因的异常表达,导致遗传病的发生。目前,已知的该类遗传病不多,一种常染色体显性遗传的神经肌肉性疾病-FSHD(MIM158900)是其典型。FSHD发生与4q35末端的一段串联重复序列完全或部分缺失有关。该序列的重复单元称为D4Z4,正常人有11~150个D4Z4拷贝,而受累个体其中一条染色体的拷贝数小于或等于10。一般来讲,患者D4Z4拷贝数越少,病情越严重,发病年龄也越早。研究表明,D4Z4重复区无结构基因存在,因此,普遍认为FSHD是由D4Z4重复序列缺失导致元件破坏引起。最新的研究表明,低拷贝的D4Z4重复序列可形成一个环状结构,该环直接与4q35区域的基因相互作用,导致这些基因在不恰当的时间和组织表达[19],因此,可以认为FSHD是由4号染色体长臂末端染色质上,转录因子间或调控染色质结构的蛋白间不作用所致。
地中海贫血主要由一个或几个α-和β-珠蛋白基因突变、缺失或β-珠蛋白基因LCR缺失引起。人类α-珠蛋白基因簇位于16q13,每条染色体上均有两个α-珠蛋白基因(HBA1和HBA2)。α-珠蛋白基因表达受其上游的HS-40区的控制。正常情况下,以4个α-珠蛋白基因为模板进行转录。Tufarelli等[16]发现一患病家系,受累成员的一条4号染色体均有一包括HBA1基因在内的片段缺失,但缺失染色体保留了完整的HBA2基因和HS-40区。病情程度提示,缺失染色体上HBA2基因表达同样受到影响。随后发现,患者体内所有组织都有一个涵盖HBA2 CpG岛的2kb区域被甲基化。正常情况下,即使非表达组织中的HBA2 CpG岛也总保持非甲基化状态。进一步研究表明,这种HBA2启动子的沉默,和甲基化与邻近的LUC7L基因转录的反义RNA有密切的关系。除HBA1基因外,上述缺失片段还涵盖了LUC7L基因最后3个外显子及其加尾信号区,致使LUC7L基因转录延伸至HBA2基因及其启动子中。LUC7L基因转录异常,导致HBA2启动子的沉默和甲基化仅存在于缺失染色体中,提示这种沉默和甲基化是通过顺式作用机制实现的。上述病例为人们展示了一种完全不同的突变机制,这种基因突变导致邻近基因表达关闭,虽未涉及元件的破坏,但对基因分布密集的染色质区域而言,它代表了一种疾病发生的机制。
3.3 元件突变与遗传病
事实上,元件的点突变或微缺失,也可引起基因表达组织特异性的获得或丢失而导致疾病的发生,甚至出现临床表型与基因编码区突变完全不同的疾病。与位置效应疾病不同,这类调控序列改变引起的遗传病没有明显的染色体结构的变化,对其发病机理的认识主要通过转基因小鼠模型[12],或对候选基因侧翼区精细作图和序列分析[13]获得。由于元件鉴定及其异常的检出难度很大,因此,尽管潜在的相关疾病甚多,但当前实际得到阐明的病种并不多。例如,人类SHH基因上游1Mb的位置存在一种称为ZRS的元件,该元件具有促进SHH基因在肢体前端表达,限制在肢体后部表达的双重调控功能。通过对部分肢体内侧多趾症(PPD)患者的ZRS进行测序,在患者中已发现ZRS多种类型的点突变。
表1 转录调控异常相关的人类疾病
Table 1 Human Disease caused by aberrant transcriptional controlGeneGene FunctionDiseaseFurthest Distance
of Breakpoint(kb)3'or 5'of TFPAX6TFAniridia1253'TWISTTFSaethre-Chotzen Saethre-Chotzen syndrome260〖〗3'POU3F4TFX-linked deafness9005'PITX2TFRieger syndrome905'GLI3TFGreig syndrome103'MAFTFgenetic Cataract10005'FOXC1TFGlaucoma/autosomal dominant iridogoniodysgenesis25/12005'FOXC2TFLymphedema distichiasis1203'SRYTFSex reversal35'/3'SIX3TFHoloprosencephaly(HPE2)<2005'SHHSignalingHoloprosencephaly(HPE3)2655'SHHSignalingPreaxial polydactyly10005'SHFM1TFSplit-hand/split-foot malformation~4505'/3'FSHDunknownFacioscapulohumeral dystrophy1003'HBBOxygen carrierβγ-Thalassemia505'HBAOxygen carrierα-Thalassemia183'HoxdTFMesomelic dysplasia and vertebral defects603' TF:transcription factor
4 小结与展望
多数情况下,遗传病由基因编码区突变所致,但调控区突变也可干扰正常的转录过程,导致疾病发生。虽然染色体结构重排引起的位置效应遗传病,是最容易发现的一类远距离调控元件异常疾病,然而,有时要弄清元件的破坏究竟影响到何种基因的表达也是十分困难的,因为被破坏的元件可能完全位于某个基因内,但却影响另一个基因的表达。此外,元件异常导致的疾病表型,可能与相应致病基因编码区突变产生的临床症状完全不同。更为艰巨的是检出元件内小缺失和点突变,有时,在距转录基因很远位置上仅仅一个碱基置换突变,都有可能导致严重的疾病发生[12]。目前,家们正尝试采用基因芯片技术对可能的元件实施大规模的突变筛查。筛查时,先进行物种间DNA序列比对,再将候选序列制备成探针并固定在硅片上[14]。另外,调控元件变异的研究是目前涉足得最少的领域,这种变异仅涉及元件微小的改变,尽管有时甚至不产生明显的可察觉的表型效应,但仍可能改变相关基因的表达模式或水平。研究表明[20],与结构基因一样,在调控元件中也存在许多可遗传的多态位点,这些多态位点可能是人类疾病相关的数量性状位点(QTLs)的组成部分。相信随着技术的不断和研究的不断深入,相信越来越多的远距离调控元件异常相关疾病发病机理将被阐明。
【】
[1]Value D. Genetics,Individuality,and Medicine in the 21st Century[J].Am J Hum Genet,2004,74:374-381.
[2]Levine M,Tjian R. Transcription Regulation and Animal Diversity[J].Nature,2003,424:147-151.
[3]Kleinjan DA,Van Heyningen V. Long-range Control of Gene Expression:Emerging Mechanisms and Disruption in Disease[J].Am J Hum Genet,2005,76:8-32.
[4]Burgess-Beusse B,Farrell C,Gaszner M,et al. The Insulation of Genes from External Enhancer and Silencing Chromatin[J].Proc Natl Acad Sci USA Suppl,2002,99:16 433-16 437.
[5]Kimura-Yoshida C,Kitajima K,Oda-Ishii I,et al. Characterization of the Pufferfish Otx2 Cis-regulators Reveals Evolutionarily Conserved Genetic Mechanisms for Vertebrate Head Specification[J].Development,2004,131:57-71.
[6]Duboule D,Wilkins AS. The Evolution of“Bricolage”[J].Trends Genet,1998,14:54-59.
[7]Han JS,Szak ST,Boeke JD. Transcriptional Disruption by the L1 Retrotransposon and Implications for Mammalian Transcriptomes[J].Nature,2004,429:268-274.
[8]Lettice LA,Horikoshi T,Heaney SJ,et al. Disruption of a Long-range Cis-acting Regulator for Shh Causes Preaxial Polydactyly[J].Proc Natl Acad Sci USA,2002,99:7 548-7 553.
[9]Kleinjan DA,Seawright A,Elgar G,et al. Characterization of a Novel Gene Adjacent to PAX6,Revealing Synteny Conservation with Functional Significance[J].Mamm Genome,2002,13:102-107.
[10]Spitz F,Gonzales F,Peichel C,et al. Large Scale Transgenic and Cluster Deletion Analysis of the HoxD Complex Separate an Ancestral Regulatory Module from Evolutionary Innovations[J].Genes Dev,2001,15:2 209-2 214.
[11]Kleinjan DA,Seawright A,Schedl A,et al. Aniridia-associated Translocations,Dnase Hypersensitivity,Sequence Comparison and Transgenic Analysis Redefine the Functional Domain of PAX6[J].Hum Mol Genet,2001,10:2 049-2 059.
[12]Lettice LA,Heaney SJ,Purdie LA,et al. A Long-range Shh Enhancer Regulates Expression in the Developing Limb and Fin Is Associated with Preaxial Polydactyly[J].Hum Mol Genet,2003,12:1 725-1 735.
[13]Enattah NS,Sahi T,Savilahti E,et al. Identification of a Variant Associated with Adult-type Hypolactasia[J].Nat Genet,2002,30:233-237.
[14]Dubchak I,Frazer K. Muti-species Sequence Comparison: the Next Frontier in Genome Anaotation[J].Genome Biol,2003,4:122.
[15]Bagheri-Fam S,Ferraz C,Demaille J,et al. Comparative Genomics of the SOX9 Region in Human and Fugu Rubripes:Conservation of Short Regulatory Sequence Elements within Large Intergenic Regions[J].Genomics,2001,78:73-82.
[16]Tufarelli C,Stanley JA,Garrick D,et al. Transcription of Antisense RNA Leading to Gene Silencing and Methylation as a Novel Cause of Human Genetic Disease[J].Nat Genet,2003,34:157-165.
[17]Wallrath LL,Elgin SC. Position Effect Variegation in Drosophila Is Associated with an Altered Chromatin Structure[J].Genes Dev,1995,9:1 263-1 277.
[18]Lauderdale JD,Wilensky JS,Oliver ER,et al. 3'deletions Cause Aniridia by Preventing PAX6 Gene Expression[J].Proc Natl Acad Sci USA,2000,97:13 755-13 759.
[19]Jiang G,Yang F,Van Overveld PG,et al. Testing the Position-effect Variegation Hypothesis for Facioscapulohumeral Muscular Dystrophy by Analysis of Histone Modification and Gene Expression in Subtelomeric 4q[J].Hum Mol Genet,2003,12:2 909-2 921.
[20]Knight JC. Allele-specific Gene Expression Uncovered[J].Trends Genet,2004,20:113-116.