生物信息学中的人工智能:从组学分析到深度学习和网络挖掘

Artificial Intelligence in Bioinformatics

From Omics Analysis to Deep Learning and Network Mining

 

作者:Mario Cannataro, Pietro Hiram Guzzi, Giuseppe Agapito, Chiara Zucco, Marianna Milano

出版:Elsevier

索书号:Q811.4/C224/2022/Y

ISBN: 978-0-12-822952-1

藏书地点:武大外教中心

 

从机器人到大数据分析,人工智能被用于多个应用领域,以提高问题的准确性,或为众多人类过程添加“智能”(例如,自动驾驶)。最近,人工智能及其组成方法,如机器学习、深度神经网络、数据挖掘、计算机视觉和网络分析,已经开始被用于生物信息学、医学信息学和一些硬科学,如物理、化学和生物学。

人工智能通常在计算机科学文本中侧重于计算方面,对生物信息学应用的分析有限。另一方面,生物信息学往往侧重于基本方法和算法,而有限的空间专门用于人工智能方法的使用。为了纠正这种情况,这本书结合了生物信息学背景下人工智能方法的严格介绍,并对这些方法如何被纳入生物信息学任务和管道进行了深入和系统的回顾。

本书旨在回顾人工智能在生物信息学中的主要应用,从组学数据分析到深度学习和网络挖掘。这本书首先叙述了人工智能背后的主要方法和理论,包括一些新兴领域,如情感分析和网络对齐。然后概述了人工智能在生物信息学核心领域的应用,包括序列分析、结构分析、功能富集分析、蛋白质分析生物信息学的分类、组学数据分析、综合生物信息学、生物网络和途径分析、网络嵌入、本体论、文本挖掘和可解释模型。最后,综述了生物信息学中人工智能面临的挑战。

在临床研究中包括分子数据,以及大量的组学、分子和临床数据,生物信息学分析的瓶颈已经从湿实验室转移到硅数据分析管道,对生物信息学提出了新的挑战,在并行计算和云基础设施的帮助下部分解决了。另一方面,生物信息学的大数据趋势是利用人工智能的力量增强生物信息学管道的难得机会。事实上,生物、分子、组织、器官、疾病和人群层面的海量数据的可用性,是朝着人工智能算法的有效训练和根据板凳到床边范式实现生物医学应用迈出的第一步。

可以预见人工智能将越来越多地用于生物信息学,这本书是这两个领域的及时资源。这本书从计算机科学的角度描述了主要的人工智能方法,以及人工智能在初级生物信息学方法中的作用。

本书介绍了人工智能和生物信息学的主要方法和途径,是研究人员、生物学家和计算机科学家在生物信息学、分子生物学和生物医学方面工作的重要资源。读者可以找到一个关于人工智能方法和生物信息学应用的完整调查,可以指导他们选择正确的人工智能方法,以改进特定的生物信息学分析。读者可以更好地理解人工智能和生物信息学方法的整合以及如何增强生物信息学和生物过程分析。这本书可以作为人工智能和生物信息学的介绍性书籍,也可以作为研究人员在新兴生物信息学领域工作的先进研究工具,如组学数据分析、分子网络分析、分子路径分析和本体论分析。

本书的目标读者包括研究人员和从业者,以及从事人工智能、生物信息学、分子生物学、生物医学和生物技术工作的研究生和博士生。还可作为人工智能、生物信息学或计算生物学等大学课程的教材。

本书由16章组成,分为两部分:第一部分是方法论部分,专门介绍人工智能的基本方法,第二部分是应用部分,专门介绍生物信息学的经典和紧急应用。本书由两个附录组成,其中包含书中描述的JavaPython源代码。全文共16章和两个附录,内容概述如下。

1章介绍了知识表示和推理,这是人工智能系统用来建立知识库和生成新知识的关键概念。第2章介绍了机器学习方法,这是人工智能系统从数据中学习的关键概念。第3章描述了人工智能的历史及其与生物信息学和生命科学的关系。第4章介绍了数据科学,这是一门以科学方法结合统计学、数据挖掘、数学和其他基础科学,以从数据中提取知识为目的的新兴学科。第5章介绍了深度学习方法,重点介绍了人工神经网络,这是人工智能系统从大数据中学习的一项关键技术,在处理大型生物信息学数据时尤其有用。第6章介绍了人工智能方法的可解释性问题,重点介绍了机器学习和深度学习方法的可解释性。解决可解释性问题在用于医学和生物学决策的人工智能系统中特别有用。第7章介绍了智能代理,这种抽象对于构建计算智能代理系统特别有用,计算智能代理系统在环境中智能地独立行动,其决策可以通过计算实现。第8章介绍了传统生物信息学的重要内容——序列分析(序列比对算法是比较DNA或氨基酸序列的核心),由于下一代测序技术的发展产生了大量的序列数据,这一技术正获得越来越多的兴趣。第9章介绍了传统生物信息学的另一个重点——结构分析。本章重点介绍了蛋白质二级和三级结构预测的算法和方法,这些算法和方法近年来通过人工智能的应用得到了改进。第10章介绍了组学科学,它在生物信息学的革命中起着重要的作用。本章描述了最重要的组学科学,如基因组学、转录组学、表观基因组学、蛋白质组学、代谢组学以及相关的数据分析方法。第11章介绍了本体论,这是一种为包括生物信息学在内的许多领域建立知识库的计算机科学方法。本章介绍了主要的生物医学本体,包括基因本体,并介绍了通过本体可实现的主要数据分析方法,如分子数据标注、语义相似度量、功能丰富分析等。第12章介绍了综合生物信息学,这是一门新的学科,旨在通过对多个数据源的系统集成来改进生物数据的分析。本章讨论了异构组学数据的整合和分析,并描述了最重要的公开可用数据源,帮助研究人员利用基因组学和蛋白质组学数据的大数据集来研究几种疾病。第13章介绍了现代网络的基石——生物网络生物信息学。它描述了蛋白质相互作用网络发现和网络比较开发的主要方法。第14章介绍了生物通路,生物网络的一个特例,它们是捕捉生物网络动态的关键。第15章介绍了一种基于文本挖掘的研究生物学和临床数据的新方法,即从书面文本中提取知识。第16章回顾了生物信息学的发展历程,总结了生物信息学研究的问题

 

本书目录:

关于作者

前言

致谢

1部分人工智能:方法

第一章知识表示与推理

1.1介绍

1.2知识表示

1.3推理

1.4计算机科学与知识表示与推理

1.5人工智能与知识表示与推理

1.6知识表示和推理的语言

1.7人工智能和生物信息学

第二章机器学习

2.1介绍

2.2分类

2.2.1监督机器学习算法

2.2.2支持向量机

2.3聚类

2.3.1 k -均值聚类算法

2.4协会学习

2.4.1关联学习算法

2.5强化学习

第三章人工智能

3.1人工智能简史

3.2人工智能与生物信息学

3.3医学中的人工智能:一蹴而就

第四章数据科学

4.1介绍

4.2数据的快速入门

4.3数据科学过程

4.3.1问题和数据理解

4.3.2数据处理与特征工程

4.3.3建模

4.3.4评价

4.3.5报告并定型模型

4.4数据科学的语言

4.4.1MATLABS

4.4.2Julia

4.4.3 R

4.4.4 Python

4.5数据科学的低且无编码工具

4.5.1 WEKA

4.5.2 KNIME

4.5.3 PyCaret

第五章深度学习

5.1介绍

5.2介绍深度学习背后的基本原理

5.2. 1人工神经元模型

5.2.2表示学习vs特征工程

5.3流行的深度神经网络架构

5.3.1卷积神经网络

第六章人工智能方法的可解释性

6.1介绍

6.2机器学习中的可解释模型

6.2.1外部解释器模型

6.2.2不解自明的模型

6.3可解释AI在医学上的应用

6.3.1用于文本挖掘应用的可解释AI

第七章智能代理

7.1介绍

7.2智能agent的类型

7.3面向agent的编程框架

第二部分人工情报:生物信息学

第八章序列分析

8.1介绍

8.2字符串相似度方法

8.2.1编辑距离

8.2.2递归公式

8.2.3计算序列相似度得分

8.3编辑距离动态规划算法

8.3.1. 内利安和胡什在一起

8.4多参数化编辑距离

8.4.1背景

8.4.2计算MPED的算法

8.5对准费顺序比较

9章结构分析

9.1简介

9.2蛋白质二级结构预测

9.2.1用于结构预测的人工神经网络

9.3三级结构预测

9.3.1结构分类数据库

9.3.2三级结构分析算法

10 组学科学

10.1简介

10.2基因组学

10.2.1下一代测序

10.3转录组学

10.3.1 RNA序列数据分析

10.4表观基因组学

10.5蛋白质组学

10.6代谢组学

10.7互动

10.8基因优先级

10.8.1基因优先排序方法

11章生物信息学中的本体论

11.1简介

11.2生物医学本体论

11.2.1基因本体

11.2.2人类表型本体

11.2.3疾病本体

11.3语义相似性度量

11.3.1本体知识提取

11.4功能富集分析

12章综合生物信息学

12.1简介

12.2生物信息学中的数据集成

12.2.1多元经济学中的深度学习和数据集成

12.2.2转录组学数据的整合

12.3数据库、工具和语言

13章生物网络分析

13.1简介

13.2生物学中的网络

13.2.1随机图模型

13.2.2无比例模型

13.2.3几何随机图模型

13.3主题发现

13.4网络嵌入(表征学习)

13.5网络对齐

13.5.1全球网络校准

13.5.2本地网络对齐

13.5.3成对和多重对准

13.5.4网络定线质量评价

14章生物途径分析

14.1简介

14.2生物途径

14.3路径数据库

14.4路径表示格式

14.4.1生物PAX

14.4.2手机ML

14.4.3 HUPO公司

14.4.4 SBML公司

14.5路径富集分析方法

14.5.1组织风险评估

14.5.2 GSEA公司

14.5.3

14.6路径富集分析工具

14.6.1 ORA软件工具

14.6.2 GSEA软件工具

14.6.3 TEA软件工具

15章从生物医学文本中提取知识

15.1简介

15.2文本分析入门

15.2.1数据收集

15.2.2文本预处理

15.2.3文本清理

15.2.4标记化

15.2.5过滤

15.2.6柠檬岩化和堵塞

15.2.7文本表示

15.3生物医学文本挖掘任务

153.1命名实体认知

15.3.2文本总结

15.3.3地形建模

15.3.4信号分析

16章生物信息学中的人工智能问题和挑战

16.1简介

16.2生物信息学的发展

16.2.1骨形成的起源

16.2.2 NIH-NHGRI生物信息学定义

16.2.3生物信息学的SIB定义

16.2.4生物信息学的EBI定义

16.2.5生物信息学的其他定义

16.2.6人工智能生物信息学

16.3生物信息学中人工智能的挑战

16.3.1计算能力需求高

16.3.2缺乏信任和解释力

16.3.3对人工智能潜力的认识有限

16.3.4人与人工智能的精度

16.3.5数据隐私和安全

16.3.6 AI偏差

16.3.7数据稀缺

附录A Python代码示例

A. 1组学数据分类

A..2基因表达数据的聚类分析

A. 3面向Python代理的编程框架

A .4序列相似性得分计算

A .5动态编程

A .6 FASTQ序列分析

A .7 SAM/BAM格式的对齐图分析

A .8质谱仪数据分析

附录BJava代码示例

B .1个面向Java代理的编程框架

B. 1.1 Java代理开发(JADE)框架

B .1.2 JADEX Java代理开发扩展

框架

参考文献

指数

 

胡萌欣  武大生科院 博士研究生