Nature Biotechnology:新算法助力大规模多序列比对

2019-12-05
多序列比对(MSAs)用于结构和进化预测,但大数据集比对的复杂性要求使用近似解,包括渐进算法。渐进的MSA方法首先对齐最相似的序列,然后根据指导树将其余的序列从叶到根合并起来。随着序列数量的增加,它们的准确性大幅下降。近日,西班牙巴塞罗那科学技术学院Cedric Notredame、Evan Floden的研究小组合作,开发了可用于大规模多序列比对(MSA)的算法。研究人员引入了一种回归算法,该算法可在标准工作站上实现多达140万个序列的MSA,并大大提高了大于10000个序列的数据集的准确性。这一回归算法与渐进算法相反,以比对最相似的序列为起点。它使用有效的分而治之策略在线性时间内运行第三方对齐方法,而不管其原始复杂性如何。这一方法将能够分析非常庞大的基因组数据集,例如最近宣布的地球生物基因组计划(包含150万个真核生物基因组)。
Edgar Garriga, Paolo Di Tommaso, Cedrik Magis, et al. Large multiple sequence alignments with a root-to-leaf regressive method. Nature Biotechnology, 2019.
DOI: 10.1038/s41587-019-0333-6
https://www.nature.com/articles/s41587-019-0333-6
版权声明:
本平台根据相关科技期刊文献、教材以及网站编译整理的内容,仅用于对相关科学作品的介绍、评论以及课堂教学或科学研究,不得作为商业用途。