系统基因组学

Phylogenomics

 

作者:Christoph Bleidorn

出版:Springer International Publishing

索书号:Q111.4/B646/2017/Y

ISBN: 978-3-319-54062-7

藏书地点:武大外教中心

 

在过去的十年里,出现了一个新的科学研究领域,在系统发育学和基因组学的交叉:系统基因组学学。系统基因组学试图在更接近基因组的水平上推断进化关系,而不是单个基因的系统发育(比如16S rRNA 基因树),推断由多个串联基因组成的序列之间的进化关系,同时假设这些推断的进化关系告诉我们一些关于其源基因组进化关系的有意义的信息。《Phylogenomics》这本独特的教科书提供了系统发育基因组学复杂领域的关键原则的清晰和简明的概述,特别关注对研究和理解进化基因组学的相互关系至关重要的测序技术,描述了许多分子方法和生物信息学工具,已带来了该领域的成果。它包括章节专用于分析核苷酸序列使用装配和对齐方法,也讨论了系统发育研究的主要策略,系统错误和他们的纠正。这本高度可读的教科书,特别适合此方向的研究生和对系统发育和进化发育生物学有兴趣的年轻研究人员。

地球上所有的生命都有一个共同的祖先,系统发育系统学的目标是重建生命树或生命网络。在第一个蛋白质序列可用后不久,分子系统发育方法被发展来理解蛋白质(或基因)之间的进化关系。很明显,基因树也将有助于阐明物种的发展史。Sanger测序和聚合酶链反应(PCR)的引入为遗传学方法在整个科学界的应用铺平了道路,并促进了分子系统发育学的兴起。20世纪90年代末,单基因研究的结果挑战了教科书上关于许多群体(如动物、植物)进化关系的观点。关于这些结果有效性的激烈讨论导致了重要的方法论进展,如今,分子系统发育在教科书中被广泛接受来代表生物关系。在2000年代中期,测序的方式发生了革命性的变化,导致了其成本的巨大下降,前所未有的数量的序列数据成为了所有类型的研究和非模型生物的负担。这一进展将分子系统发育学领域转变为系统发育学领域,可以利用基因组规模的数据(基因组、转录组)。系统基因组学一词早在1998年就由乔纳森·艾森创造,他概述了系统基因组学方法在不依赖于直接(耗时)功能研究的情况下注释基因的重要性。这强调了系统发育方法在基因组学领域的深度嵌入。基因树重构(功能注释)和物种树重构(生命树重构)的理论背景是广泛重叠的。

在这本书中介绍了系统基因组分析的主要步骤,共分为十个章节。前两章简要介绍了基因组学领域第一章基因组»)和细胞器基因组的进化和特性第二章细胞器基因组和内共生体»)。第三章测序技术»)回顾了最广泛使用的测序平台。第4测序策略»)概述了测序完整或部分基因组和转录组的不同策略。每个测序平台的输出序列都比染色体短得多,在短读测序的情况下也比大多数基因短。第五章组装和数据质量»)介绍了将这些小块拼图成更完整的基因组和基因表示的方法(称为组装)。每个系统发育基因组研究的基本步骤是比对、读图和发现同源基因,这些都在第6对齐和映射»)和第7发现基因»)中解释。基于序列比对,可以重建系统发育树,在第8(“系统发育分析”)中将简要回顾这些方法。这一章保持得相当简短,因为有很多优秀的教科书详细描述了这些方法(及其基础算法),例如第8章的参考文献,此外这些方法的基础理论在过去十年中没有太大的变化。令人惊讶的是,即使有了这么多的数据,许多系统发育问题仍然难以解决。由于系统错误的存在,在使用成百上千个基因时,系统发育重建的问题甚至会被放大。第9系统基因组分析中的错误来源和不一致»)概述了可能的错误来源,以及如何处理它们的建议。此外,还概述了分析基因树和种树的不同之处以及它们之间不一致的可能来源。最后,10(《罕见的基因组变化》),本书还介绍了普通序列数据以及进一步的系统发育标记(例如,移动元素的整合、基因顺序),并概述了如何将这些罕见的基因组变化用于系统发育系统学。

本书作者Christoph Bleidorn在德国大学期间参与了大量包括讲座、研讨会和实践课程在内的本科和硕士水平学生的教学工作。随着进入后基因组时代,分子系统发育学领域发生了变化,课程也发生了变化。除了引入系统发育方法(maximum parsimony, maximum likelihood),作者意识到越来越多的背景知识对系统发育分析的重要性。这包括基因组学知识,测序技术以及在实际系统发育分析开始之前处理序列数据的生物信息学方法。在这本书中,作者简要概述系统基因组分析的所有主要步骤,以及对基因组学领域中最近的优势的一些见解。这本书主要是针对本科生和研究生生物学学生,但也博士后新移动到系统基因组学领域可能使用它作为第一个概述。这些章节以简洁的方式编写,更多地关注于解释方法背后的思想,而不是深入挖掘算法或技术背景。此外,这本书对系统发育分析的每一步都指定了广泛使用和重要的软件,软件或脚本的名称总是全部大写,而不考虑名称的原始写法。这本书不包括如何使用这个软件的说明,因为在大多数情况下,手册中有详细的描述。如前所述,这本书主要针对生物学学生。在系统发育学领域工作需要良好到优秀的(生物)信息技能。可惜在许多学士和硕士课程的课程中没有教授生物信息学。然而,一些教授(进化)生物学家编程技能的国际课程定期举行(例如冷泉港课程«生物学编程»)和许多优秀的在线教程可用,通过结合这些类似的线上学习和本书,会对系统基因组学的理解更上一层。

 

本书目录:

1 基因组

1.1 生命之环

1.2 基因组结构

1.3 基因组大小

1.4 现代和古人类的基因组

2 细胞器基因组和内共生体。

2.1 线粒体

2.1.1 线粒体的起源与进化

2.1.2 动物线粒体基因组

2.1.3 植物和藻类线粒体基因组

2.1.4 «其他»真核生物线粒体基因组..

2.2 叶绿体

2.2.1 质体的起源与演化

2.2.2 质体基因组

2.2.3 色斑变形虫的质体

2.3 可遗传的细菌内共生体

2.3.1 主内共生体

2.3.2 二次内共生体

2.4 DNA条码技术

3 测序技术

3.1 桑格测序

3.2 454焦磷酸测序

3.3 可逆终结者测序(Illumina)

3.4 lon半导体测序

3.5 单分子实时测序(SMRT)

3.6 纳米孔测序

3.7 测序平台比较

4 测序策略

4.1 鸟枪测序

4.2 RADseq

4.3 混合浓缩

4.4 表达序列标签和RNA-Seq

4.5 单细胞基因组学和转录组学

5 装配与数据质量

5.1 数据质量和过滤

5.2 组装策略

5.2.1 贪婪的程序集

5.2.2 共同体程序集。

5.2.3 使用de Bruijn图的K-mer集合

5.3 比较程序集

5.4 基因组的从头组装

5.4.1 脚手架

5.4.2 混合动力总成

5.5 转录组和Metag的从头组装

6 校准和映射

6.1 两两对齐

6.2 局部对齐和BLAST搜索

6.3 多重序列比对

6.4 对齐屏蔽

6.5 映射序列读取

6.6 全基因组比对

7 发现基因

7.1 基因是什么?

7.2 基因的得失

7.3 同源性的基因。

7.4 推断同源性分析

7.5 隐马尔科夫概要文件

7.6 基因本体论与同源猜想

7.7 全基因组重复.

8 系统发育分析

8.1

8.2 核苷酸取代模型

8.3 氨基酸取代模型

8.4 模型选择和数据分区

8.4.1 模型选择

8.4.2 分区的发现

8.5 推断的发展史

8.5.1 邻居加入

8.5.2 最大的吝啬

8.5.3 最大似然

8.5.4 启发式方法与遗传算法

8.5.5 贝叶斯推理

8.6 支持措施

8.7 分子钟引用

9 系统基因组分析中错误和不一致的来源

9.1 系统基因组分析中的不一致性

9.2 系统的错误

9.3 缺失数据、系统发育信息含量和分类单元抽样

9.3.1 缺失的数据

9.3.2 更多的基因还是更多的分类?

9.3.3 分类抽样

9.3.4 基因取样

9.4 基因树与物种树的不一致性

10 罕见的基因组变化

10.1 完美的系统发育标记

10.2 移动元素

10.3 微核糖核酸

10.4 内含子

10.5 基因顺序

10.6 基因密码的改变

服务部分

术语表

索引

 

 

邹娟  武大生科院 博士研究生