Essential Computing Skills for Biologists

生物信息计算

作者:Ziling Wang and Lishu Zhang

出版:World Scientific Press

索书号:Q811.4/E78/2018/ Y

ISBN: 978-7-04-049018-3

藏书地点:武大外教中心

这是一本生物学学习者使用的方法和协议手册。它针对的是那些最初在生物或医学科学领域受过培训的本科生、研究生和研究人员,他们需要知道如何访问基因组、蛋白质、代谢物、基因表达谱的数据档案,以及这些数据和工具能够回答的问题。对于每一章,都有概念和实验背景提供,以及处理原始数据的具体指导方针,包括预处理和分析。

内容分为三个部分。第一部分介绍了流行的生物信息学工具、数据库和网络资源的基本知识。第二部分介绍了组学生物信息学应用的实例。第三部分提供处理和分析组学数据集所需的基本统计分析技能和编程技能。

近年来,随着计算机和网络技术的飞速发展,通过互联网人们可以检索到大量的生物信息资源。这样大量的生物数据库,软件资源和互联网连接正在使生命科学研究更方便和高效。生物数据库的主要目标不仅是存储,或组织和共享数据,以结构化和搜索的方式与目标。为了方便数据检索和可视化,还为人类提供用于计算机交换的web应用程序编程接口(api)并以自动化的方式集成来自各种数据库资源的数据。根据《核酸研究》2016年数据库号报告,有1685个数据库可以在线公开访问。各种数据库涵盖生命科学的所有领域,在本书中,我们将重点讨论其中的一些常用的生物学数据库或在线资源,包括:1 nucleic酸序列数据库,如GenBankEMBLDDBJ;2 protein数据库uniprot;3个蛋白质三维结构的数据库。

随着基因组序列信息的快速积累,人们越来越需要使用计算方法来准确预测基因结构。计算基因预测是基因和基因组详细功能注释的先决条件。该过程包括检测开放阅读框(ORFs)的位置,以及描绘内含子和外显子的结构(如果感兴趣的基因是真核起源的)。最终目标是以高精度计算描述所有基因,这可以显着减少所需的实验验证工作量。然而,这可能仍然是一个遥远的目标,特别是对于真核生物来说,因为计算基因预测中的许多问题在很大程度上仍未解决。事实上,基因预测是模式识别领域最困难的问题之一。这是因为编码区域通常没有保守的基序。检测基因组区域的编码潜力必须依赖于与可能非常难以检测的基因相关的微妙特征。

基因表达谱是分子生物学中使用的一种技术,用于同时测量数千个基因的表达并创建细胞功能的全貌。在癌症中,基因表达谱已被用于更准确地对肿瘤进行分类,并有助于预测患者的临床结果。

蛋白质组学是对整个蛋白质的大规模研究。作为基因组学和转录组学的补充方法,它可以为探索生物过程提供全面而直接的信息。基于质谱(MS)的技术是现代蛋白质组学研究的主要方法。蛋白质鉴定和定量是蛋白质组学研究中的两大任务,可以促进我们对蛋白质复杂和动态性质的理解。蛋白质组学研究在生物和临床领域已广泛应用于生物标志物鉴定、疾病状态监测、治疗效果评估等。然而,研究人员不得不面对一个紧迫的问题,即如何处理从基于MS的蛋白质组学平台生成的高通量数据。在本章中,我们将介绍一些生物信息学数据库和工具,这些数据库和工具广泛应用于蛋白质鉴定和定量,蛋白质组学数据分析,存储和共享。

基因测序、蛋白质组学和其他高通量实验技术产生的大规模数据集是理解生命作为分子系统以及开发医疗、工业和其他实际应用的基础。为了便于对这种大规模数据集进行生物信息学分析,必须以可计算的形式组织我们对更高级别系统功能的知识,以便它可以用作从构建块中包含的信息推断分子系统的参考。基因本体论(GO)和京都基因和基因组百科全书(KEGG)是最常用和最有效的数据库。

算法被视为打开生物信息学大门的关键。我们将看到流行的生物信息学算法是如何工作的,我们将看到它们的设计背后的原理。重要的是要了解算法的工作原理,以便对其结果充满信心;更重要的是要了解算法的设计方法,以发现其弱点并对其进行改进。在本章中,将介绍基本算法的原理,如图论,动态规划,隐马尔可夫模型,神经网络和聚类分析,以及一些应用程序,以展示它们解决生物学问题的能力。R语言已成为生物信息学中使用最广泛的软件。本章的目的是为生物学家如何使用R语言提供基本指导。对于读者来说,不需要或假设编程的先验知识。

《生物信息计算》一书于2018年由World Scientific Press出版,作者是Ziling Wang and Lishu Zhang

《生物信息计算》一书中,研究人员介绍了生理学和医学建模的基本概念,重点是最近的技术发展,讨论的主题主要包括十五个章节。《生物信息计算》一书从各个方面讲解了生物信息学的基础内容和研究方法,旨在为想要进一步研究生物信息学的研究人员提供简明易懂的介绍以及方法技术指导。

《生物信息计算》一书作为生物信息学专业研究读物,观点新颖独到,内容饱满详实、语言浅显易懂,除此之外,还包括一些其他的特点:

1、本书分为十五个章节,既讲解了生物信息学的基础知识,还讲解了深入研究生物信息学的应用范围,是一本应用性很强的书籍,对于想要学习研究生物信息学的研究人员来说是一本很有意义的指导书籍。

2、每个章节都是由相关领域的专业人士所撰写,因此,本书讲解既详细又专业,读者能够从中了解到生物信息学相关的专业知识以及最新的前沿进展。

总的说来,《生物信息计算》一书为想要了解生物信息学的研究方法的人员提供了清晰的导读路径,作为生物信息学领域的一本前沿研究图书,是一本值得为想要涉足该领域的人员推荐的专业书籍。

 

关于作者:

王梓玲,医学博士,博士。毕业于第四军医大学,北京交通大学理学院生命科学与生物工程研究所副所长。德国癌症研究中心访问学者1年,教授生物化学和分子生物学近30年。同时,她还开展肿瘤转化医学方面的研究工作,主要是通过基因组和代谢组学分析,识别肿瘤对分子靶向药物的反应和耐药的基因组和代谢生物标志物。

张丽姝,博士,北京交通大学理学院生命科学与生物工程研究所副教授。她的研究兴趣是利用基因组学和整合多组学数据和生物信息学方法进行人类复杂疾病的遗传解剖。她所关注的复杂疾病是骨质疏松症。在《P Natl Acad Sci USA》、《J Bone Miner res》等国际期刊上发表论文20余篇。所参与的《骨质疏松症的多组学与分子机制研究》获2005年湖南省自然科学奖二等奖。

 

本书目录:

数据库和生物信息学工具:

在线序列数据库

序列比对

分子系统发育与进化

从序列预测DNA和蛋白质功能

蛋白质结构

组学数据的生物信息学:

人类遗传变异与人类疾病

基因表达谱与微阵列:在线资源和数据管理

定性和定量蛋白质组学的生物信息学

代谢组学的生物信息学

基因本体数据库和KEGG数据库

统计和编程

生物信息学基本算法

R语言简介

 

 

林岚 武汉大学生命科学学院 博士研究生