363种鸟类基因组数据发表 为深入了解基因组多样性演化奥秘提供了契机
2020-11-12 15:48:45来源:科技日报
11月12日,深圳华大生命科学研究院生物多样性团队、昆明动物研究所等单位联合在《自然》(Nature)上同期以封面形式发表了两篇文章报道万种鸟类基因组计划第二阶段(科级别)最新研究结果。研究团队发表了363种鸟类基因组数据,同时通过这一数据建立了无参考序列下多基因组比对和分析的新方法,并基于这一新方法阐明高密度物种取样对生物多样性研究的重要性,为深入了解基因组多样性演化奥秘提供了契机。
专家介绍,传统的比较基因组学分析依赖于某个基因组作为参考序列建立全基因组比对,进而开展相关的比较分析。这一方法存在两个弊端,一是因为受制于参考基因组而无法识别出其他物种特异序列或者其他物种之间的差异序列,二是因为只获取单拷贝同源区域而丢失了由分支特异复制事件所带来的一比多或多比多的同源区域。在多物种比较分析中,由于基因复制、序列丢失或获得、染色体结构变异等事件存在的情况下,如何获取更真实且全面的序列同源关系用于后续系统发生关系的解析和比较基因组学相关分析尤为关键。
针对此问题,研究团队建立了适用于多物种且无参基因组的比对算法——Cactus。该算法基于预设的物种关系树,将复杂得多序列比对问题分解到物种分支上,对每个分支上的物种开展两两比对并构建出其祖先基因组序列,而后再基于祖先序列将更多分支的物种基因组排比在一起,从而构建出无参考序列的多基因组比对信息。
这一方法成功解决了现有多序列比对软件的弊端,也极大提高了跨物种的比对效率,减少了由于与参考物种遗传距离差异引起的比对偏好和序列丢失。例如,363只鸟类基因组构建的全基因组比对序列总长为981Mb,比之前以鸡和斑胸草雀为参考基因组构建的48只鸟类全基因组比对序列在长度上提升了149%。深圳国家基因库张国捷教授和加州大学圣克鲁斯分校的Benedict Paten共同为文章的通讯作者。
无参的全基因组比对数据集为全面解析鸟类遗传多样性特征的演化历程和分子遗传机制提供了全新的切入点。在另外一篇文章中,研究团队借助Cactus这一算法的优势建立了更加完善的同源基因集合,还开发了一套鉴定任意演化分支特异获得和丢失序列的方法,从而完整描绘出鸟类物种谱系基因组动态演化图谱。
研究发现这些动态变化的基因组区域往往存在一些分支特异基因或调控元件,可能与物种特异性状的起源和演化有关。比如,雀形目鸟类基因组多出一个生长激素基因的拷贝。雀形目中的鸣禽丢失了Cornulin基因,该基因所编码的蛋白主要位于食管和口腔上皮细胞,其缺失可能会引起食管上皮的黏弹性特性发生变化,进而使得食管上部直径可以产生快速变化来调整的声道,这可能与其多样化的纯音发声演化有关。
此外,研究发现基于高覆盖度的物种取样的基因组比较分析显著提高了对基因组序列保守性的检验效力,实现了在单碱基分辨度下的自然选择压力分析。相比于53个物种的比较分析,363个物种计算得到的单碱基保守位点从2.1%上升到13.2%。
“在少量物种的比较分析中,我们只能通过严格筛选演化速率近乎为0的基因组区域作为超保守区域,因此只能检测出受到强烈自然选择的基因组区域。而高覆盖度的物种比较分析可以极大提高对基因组选择压力的检测灵敏度,以鸟类现有数据来看,我们可以在低于中性演化水平50%左右的演化速率下即可检测出受到自然选择的区域。”B10K项目发起人之一、来自深圳国家基因库、深圳华大生命科学研究院和哥本哈根大学的张国捷教授强调说,“这些区域可能在演化过程中由于在某些物种分支上提供特殊适应性功能,从而受到较弱的自然选择压力。因此这些区域对揭示物种类群的分化具有重要意义。”(记者 刘传书)