基因组序列太深奥？用这套工具能读懂 --科技日报数字报

第二看台

基因组测序工作完成后，哪些基因能翻译蛋白、能翻译哪些蛋白，一直是生命科学研究的热点和难点。近日，中国科学院水生生物研究所葛峰学科组在这一问题上取得突破性进展，相关研究成果于近日在线发表于国际期刊《分子植物》上。

据了解，该研究团队利用蛋白质基因组学，对三角褐指藻的基因组进行了深度注释，构建出其蛋白质组精细图谱，对此前的注释信息做了大量的修正与补充。更为瞩目的是，该团队在实验中建立的一套实验流程和分析软件，可适用于已完成基因组测序的所有生物，为基因组的解读提供了重要工具。

破译核苷酸长序列这本“无字天书”

基因组测序得到的是一本写有核苷酸长序列的“无字天书”。哪一小段序列构成一个基因，这个基因能否指导合成蛋白、能合成哪些蛋白，在这本“书”上是找不到答案的。要回答以上问题，就需要科学家们做进一步的注释。

以往的注释工作，多是从生物信息学的角度进行。这是通过算法计算来预测能翻译蛋白的基因（也称编码基因），以及它们各自在基因组中的位置，但这种方法会遗漏许多编码基因，或对基因做出错误的注释。

随着蛋白质组学的发展，一种利用蛋白质组数据对基因组进行深度注释的研究方向悄然兴起。具体来说，就是提取生物细胞内所有的蛋白质，通过质谱分析法得到每个蛋白的氨基酸序列，再在计算机上将其与基因组序列进行大量比对，反推出各编码基因的精确位置。

“眼见为实自然比基于运算推测来得可靠。”据该研究成果的第一作者杨明坤介绍，这次实验不仅为许多已知的编码基因如何在蛋白质水平上表达提供了证据支持，还发现了606个新的编码基因，其中有56个在此前被错误预测为非编码基因，另有506个编码基因的错误注释得到校正。

此外，能解析蛋白质翻译后修饰现象，是蛋白质基因组学的另一优势。通过20种氨基酸合成的蛋白质，通常要再经过一道加工工序，才能成为具备某种功能的成熟蛋白，而加工的类型往往是多样的。这就意味着，相同的氨基酸序列，可能会形成不同种类的成熟蛋白。此次研究发现的20多种蛋白质翻译后修饰，就是这一优势的佐证。

一款软件十一套实验流程即可获得深度注释信息

如何将蛋白质组图谱描画得更精细、对深奥的基因组信息注释得更详尽，一直以来都是蛋白质基因组学的一大难题。而此次研究在可变剪切体的完善上有了新的突破。可变剪切是指基因在转录过程中，“剪”去某几段序列，并将剩下的序列打乱重组的过程。同一基因，不同的剪切位点和排列方式，会形成不同的蛋白质。

杨明坤在接受科技日报采访时表示，此前的研究都是通过鉴定相应蛋白质的存在，去验证已知的可变剪切体。而这次他们做的工作，是去发现未知的可变剪切体。

“我们设计相关算法，寻找蛋白的氨基酸序列上可能存在的不同剪切位点，再将剪切得到的‘断片’与基因组数据比对，从而找到相应的可变剪切体。”杨明坤说。据悉，该团队共发现21个新的可变剪切体，并修正了73个已知基因的可变剪切位点。

对基因组的深度注释涉及大量的运算，为提高工作效率，该团队将各个步骤运用到的算法整合起来，研发出一款适用于所有生物的数据分析软件。运用这款软件，只需输入质谱仪采集的质谱数据和简单的软件运行参数，就能直接得到相关的基因组注释信息。此外，团队还建立了一套实验流程，供其他科学家参考。这也意味着，今后可直接依葫芦画瓢，用团队的这套流程和软件，快速完成其他物种的基因组深度注释。

杨明坤表示，研究小组将进一步优化软件，继续提高其运算速度和准确率。“由于2014年完成的人类蛋白质组草图有太多错漏，我们准备进一步完善这项工作。只有清楚了人体各个组织内都有哪些蛋白质，在此基础上才能更好地进行精准医疗。”杨明坤说。