生物信息学中的算法:实用介绍

Algorithms in Bioinformatics: A Practical Introduction

 

作者:Wing-Kin Sung

出版:CRC PRESS

索书号:Q-332/S958/2020/Y

ISBN: 978-0-367-65931-8

藏书地点:武大外教中心

 

生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白质组学两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。它是一门涉及生物学、统计学、数据挖掘、机器学习和算法的多学科研究。本书旨在对生物信息学中应用的算法技术进行深入介绍。

本书是根据作者在新加坡新加坡国立大学教授的“生物信息学中的组合方法”课程的教材发展而来的。本书的章节是根据生物学应用领域进行分类的。对于每个主题,给出了一个深入的生物学动机,并对相应的计算问题进行了精确的定义。还提供了不同的方法和相应的算法。此外,本书还给出了详细的例子来说明每种算法。在每一章的最后,提供了一套练习。

第一章介绍分子生物学的基本概念。它描述了我们细胞的基本组成部分,包括DNARNA和蛋白质。然后,它描述了细胞的机制和一些基本的生物技术。还简要介绍了生物信息学的历史。

第二章描述了测量序列相似性的方法,这是比较DNARNA和蛋白质序列的基础。本书讨论了各种比对方法,包括全局比对、局部比对和半全局比对。本书还研究了差距惩罚和评分函数。

第三章介绍了后缀树并给出了它的简单应用。本书还介绍了Farach构造后缀树的算法。此外,作者研究了后缀树的变体,包括后缀数组和FM-指数。作者还讨论了如何使用后缀数组进行近似匹配。

第四章讨论了校准整个基因组的方法。讨论了MUMmer和突变敏感校准。这两种方法都应用了后缀树和最长公共子序列算法。

第五章考虑了搜索序列数据库的问题。由于生物技术的进步,序列数据(包括DNARNA和蛋白质)呈指数级增长。因此,有一种允许高效的数据库搜索方法是很重要的。在本章中,作者讨论了各种生物数据库的搜索方法包括FASTABLASTBLATQUASARBWT-SW等。

第六章介绍了多种生物序列比对的方法。该章描述了四种算法:一种基于动态规划的精确解,一种基于星型排列的近似算法,以及两种启发式。这两种启发式分别是ClustalW(一种渐进对齐方法)和MUSCLE(一种迭代方法)。

第七章首先描述了一个系统发生树及其应用。然后,作者讨论了在给定基于字符的数据集或基于距离的数据集的情况下,如何构建一个系统发生树。本书涵盖了这些方法:最大简约性、兼容性、最大似然性、UPGMA和邻居连接。最后,作者讨论了基于字符的方法和基于距离的方法是否可以重建正确的系统发育树。

第八章介绍了比较系统发生树的方法。本书讨论了计算相似度和距离的方法。对于相似度,考虑最大一致子树(MAST)。对于距离,考虑Robinson-Foulds距离、最近邻交换(NNI)距离、子树转移(STT)距离和四重奏距离。此外,本书讨论了寻找一组树的一致性的方法。考虑了严格共识树、多数规则共识树、中值树、贪婪共识树和R*共识树。

第九章研究了基因组重排问题。作者讨论了各种可能的基因组重排,包括反转、转位等。由于反转可以模拟其他类型的基因组重排,本章重点讨论反转距离。对于计算无符号反转距离,问题是NP-hard。作者为这个问题描述了一个2-逼近算法。对于有符号反转距离的计算,作者提出了Hannenhalli-Pevzner定理和Bergeron算法。

第十章介绍了模体查询的问题。作者讨论了许多从头寻找模体的方法,包括Gibb Sampler MEMESP-starYMF,以及基于后缀树的方法,如Weeder。由于存在多个模体查找器,作者也讨论了集成方法,如MotifVoter,它结合了来自多个模体查找器的信息。以上所有方法都在没有额外信息的情况下执行从头模体查找。最后,介绍了两种利用附加信息的模体查找方法。第一种方法REDUCE通过结合微阵列和序列数据改进了模体的查找。第二种方法使用系统发育信息来改进模体的查找。

第十一章讨论了预测RNA二级结构的方法。在没有假结的情况下,作者讨论了Nussinov算法和ZUKER算法。当允许假结时,讨论Akutsu的算法。

第十二章涵盖了使用质谱仪重建肽序列的方法。作者讨论了从头肽序列和数据库搜索方法。对于从头肽测序,作者讨论了PeaksSherenga。对于数据库搜索,作者讨论了SEQUEST

第十三章涵盖了与种群遗传学相关的计算问题。作者讨论了哈温平衡和连锁不平衡。然后,讨论了基因型分期、标签SNP选择和关联研究的算法。

《生物信息学中的算法:实用介绍》一书于2020年由CRC PRESS出版,作者为Wing-Kin Sung

《生物信息学中的算法:实用介绍》一书,作者展现了生物信息学研究领域中的一些最新应用研究,讨论的主题主要包括分子生物学介绍,序列相似性,后缀树,基因组比对,数据库检索,多序列比对,系统重建,系统比较,基因组重排,模体查找,RNA二级结构预测,肽段测序和群体遗传。

《生物信息学中的算法:实用介绍》是生物学实验室不可或缺的工具用书,适用于生物信息学、细胞生物学、生物化学与分子生物学等相关专业的高年级本科生、研究生,也可作为教师的教学和科研参考书,亦可供计算机相关领域的研究人员参考。

《生物信息学中的算法:实用介绍》一书作为生物信息学、细胞生物学、生物化学与分子生物学专业研究读物,内容饱满详实、语言浅显易懂,除此之外,还包括一些其他的特点:

1.本书旨在对生物信息学中应用的算法技术进行深入介绍。本书的章节是根据生物学应用领域进行分类的,对于每个主题,给出了一个深入的生物学动机,并对相应的计算问题进行了精确的定义。还提供了不同的方法和相应的算法。

2.本书对读者有一定的要求,要求读者是来自数学系或计算机科学系的高级本科生和研究生,且在大学水平的离散数学和算法方面有一定的训练。

3. 本书还给出了详细的例子来说明每种算法。在每一章的最后,提供了一套练习。

总的说来,《生物信息学中的算法:实用介绍》一书为想要了解生物信息学中的算法的实际应用的人员提供了清晰的导读路径,作为计算机、生物信息学、细胞生物学、生物化学与分子生物学领域的一本前沿研究图书,是一本值得为想要涉足该领域的人员推荐的专业书籍。

 

本书目录:

前言

1 分子生物学介绍

2 序列相似性

3 后缀树

4 基因组比对

5 数据库检索

6 多序列比对

7 系统重建

8 系统比较

9 基因组重排

10 基序查找

11 RNA二级结构预测

12 肽段测序

13 群体遗传

参考文献

索引

 

 

胡萌欣 武汉大学生命科学学院 博士