受访者供图 |
长期以来,人类对鸟类系统发育关系的了解比其他任何脊椎动物都少。
自1861年第一块始祖鸟化石报道以后,鸟类的起源更成为科学家们感兴趣的课题。早期鸟类祖先自恐龙演化形成后,经历了快速的物种大爆发,形成了现今鸟类的物种格局。100多年来,科学家们对现生鸟类物种的分化过程和物种关系树提出了众多猜想,然而答案仍莫衷一是。
近十年前,随着一项覆盖现生约10500种鸟类的万种鸟基因组学计划启动和研究的深入,科学家有望构建起所有鸟类的基因组图谱,解析鸟类演化的历程。
11月12日,《自然》杂志以封面论文形式,同期发表了两篇文章,报道了该计划第二阶段的研究结果,为深入了解基因组多样性演化奥秘提供了契机。
推断系统发育关系和鸟类物种多样化遗传机制
“鸟纲是四足类动物中分化程度最高、物种最为丰富的一类脊椎动物,目前已知约10500种鸟类物种,广泛分布于地球各种生境,是研究生物多样性的形成及维持机制的重要物种类群。”论文第一作者冯少鸿博士向科技日报记者介绍。
万种鸟基因组计划旨在从全基因组水平构建鸟类的生命之树,解析鸟类辐射性演化的分子动力,解码动物遗传变异和性状差异之间的联系,揭示分子演化和生物地理学及物种多样性格局之间的关系,评估环境气候及人类活动对物种演化过程及生物多样性的影响,并且揭示整个鸟纲物种的种群变化历史。目前,有超过200位来自全球的科学家参与到这项宏大的计划中。
计划第一阶段在“目”级别,由深圳国家基因库联合丹麦哥本哈根大学、美国杜克大学、中国科学院昆明动物研究所、中国科学院动物研究所等机构合作,组成国际鸟类基因组联盟共同完成,首批成果共有28篇文章。2014年12月12日,《科学》期刊以专刊形式发表了8篇成果;此后,《现代生物学》《自然·通讯》《基因组生物学》等著名国际期刊也相继发表了多项进展。
目前,基于第二阶段“科”级别的363种鸟类基因组数据,中国科学院昆明动物研究所研究员张国捷及其团队联合深圳华大生命科学研究院、哥本哈根大学等,围绕系统发育关系的推断和鸟类物种多样化格局背后的遗传机制等多个核心科学问题开展一系列科研攻关。
此次《自然》发表的研究工作,是该计划第二阶段“科”级别的最新研究成果。“研究团队发表了363种鸟类基因组数据,同时通过这一数据建立了无参考序列下多基因组比对和分析的新方法,并基于这一新方法阐明高密度物种取样对生物多样性研究的重要性。”冯少鸿说。
特异基因可能与物种特异性状的起源和演化有关
科研团队从现存鸟类的科阶元中,选取一个代表性鸟类物种,共计获得363只鸟类的全基因组数据,覆盖92%的科阶元,其中267个物种的基因组数据为首次发布。
由于项目的特殊性,以及目前众多鸟类已成为珍稀、濒危物种,测序所需的样品是个大问题。
“项目所需样品主要来源于全球多个博物馆保存的鸟类组织样品。其中美国史密森博物馆、丹麦自然博物馆和美国路易斯安那州立大学自然博物馆贡献了大部分样品。”冯少鸿介绍,正因为有丰富的样品,才使得研究团队能够对一些稀有和濒危鸟类物种展开基因组测序,这也为物种保育提供重要的基因组资源。
传统的比较基因组学分析,须依赖某个基因组作为参考序列建立全基因组比对。如何高效开展跨物种基因组的比较,成为制约整个学科的关键。为解决这一难题,研究团队创立了全新的无参考序列下多基因组比对和分析方法,新方法所提供的基因组比对信息包含了所有物种的基因组序列信息,避免了由于与参考序列的差异而引起的序列丢失。
“新方法极大地提高了跨物种的比对效率,减少了由于与参考物种遗传距离差异引起的比对偏好和序列丢失。”冯少鸿说,比如,363只鸟类基因组构建的全基因组比对序列总长为981兆碱基对,比此前以鸡和斑胸草雀为参考基因组构建的48只鸟类全基因组比对序列在长度上提升了149%。这一全新的数据集,为全面解析鸟类遗传多样性特征的演化历程,以及分子遗传机制提供了全新的切入点。
不止于此,研究团队借助这一算法的优势,建立了更加完善的同源基因集合,开发了一套鉴定任意演化分支特异获得和丢失序列的方法,从而完整描绘出鸟类物种谱系基因组动态演化图谱。研究发现这些动态变化的基因组区域,往往存在一些分支特异基因或调控元件,可能与物种特异性状的起源和演化有关。
此外,研究发现基于高覆盖度的物种取样的基因组比较分析,显著提高了对基因组序列保守性的检验效力,实现了在单碱基分辨度下的自然选择压力分析。相比于53个物种的比较分析,363个物种计算得到的单碱基保守位点从2.1%上升到13.2%。
“以鸟类现有数据来看,我们可以在低于中性演化水平50%左右的演化速率下即可检测出受到自然选择的区域。”万种鸟基因组计划项目发起人之一、深圳国家基因库副主任、哥本哈根大学终身教授张国捷强调说,这些区域对揭示物种类群的分化具有重要意义。