查看原文
其他

集成多组学数据的机器学习在生物医学中的应用专题

互动派教育 互动派教育 2023-08-07


集成多组学数据的机器学习在生物医学中的应用专题





理解一种疾病的某种现象仅使用一种数据类型是远远不够的,随着高通量测序和多组学的快速发展,生物医学研究开始采取多组学技术结合的方法,机器学习作为从数据中进行学习的算法,可以对不同组学来源(如基因组学、转录组学、蛋白质组学、代谢组学)的数据进行综合分析,开发针对个体多样性的多因素预测模型,可以显著减少需要考虑的潜在治疗组合的空间,并识别其他可能被忽视的组合,从而证明预测治疗可能存在的有效性。




课程大纲


集成多组学数据的机器学习在生物医学中的应用专题

机器学习及生物组学基础

学习目标:对机器学习基本概念进行介绍,让大家对机器学习基本概念有大致了解。明确机器学习方法的适用性,优势,以及局限性等

Ø  什么是机器学习

Ø  机器学习的应用实例

Ø  生物组学简介(基因组学,转录组学,蛋白组学,代谢组学)

Ø  机器学习在在多组学数据分析的应用

python语言基础

学习目标:机器学习主流实现是python语言。学习机器学习之前,有针对性的对python进行系统的学习,数据的基本处理,以方便将来开展机器学习的学习

Ø  python安装与开发环境的搭建

Ø  基本数据类型、组合数据类型

Ø  机器学习在在多组学数据分析的应用

Ø  函数、列表 、元组、字典、集合

Ø  控制结构、循环结构

Ø  Numpy模块——矩阵的科学计算

Ø  Matplotlib模块——数据处理与绘图

Ø  Pandas模块——csv数据处理与分析

Ø  Sklearn模块——机器学习模型基础软件包调用

案例实践教学一:案例教学一:利用Python pandas读取组学CSV数据并进行数据探索可视化分析(Exploratory data analysis,EDA)

经典机器学习模型及多组学应用

学习目标:对在多组学整合分析中最常使用的几种机器学习模型进行介绍,总结它们的优缺点及适用范围,通过动手实践快速掌握几种方法

Ø  线性模型(线性回归、梯度下降、正则化、回归的评价指标)

Ø  决策树(决策树原理、ID3算法、C4.5算法、CART算法)

Ø  支持向量机(线性支持向量机、可分、不可分支持向量机)

Ø  集成学习(AdaBoost和GBDT算法、XGBoost算法、LightGBM算法)

Ø  模型选择与性能优化(数据清洗、特征工程、数据建模)

Ø  Scikit-learn机器学习库的使用

案例实践教学二:基于转录组学数据进行端到端的机器学习项目泛癌预测(数据预处理,数据建模,模型评估)

案例实践教学三:基于蛋白组学-代谢组学在COVID-19中生物标志物的发现

深度学习神经网络基础

学习目标:从零开始手动实现一个神经网络,在这一过程中对所涉及的原理进行系统讲解及实践,让大家能够更深刻的理解算法背后的原理以及实现方法,之后有利于对其他机器学习更全面快速掌握

Ø  深度学习与机器学习区别与联系

Ø  Perceptron, 神经元基础

Ø  神经网络的梯度下降法与损失函数

Ø  神经网络中的前向传播与反向传播

Ø  神经网络的模型评估

Ø  超参数优化,batch size, learning rate

Ø  深度学习工具——Pytorch的使用

Ø  深度学习工具——Keras的使用

案例教学四:基于高维转录组学及手动构建神经网络进行特征筛选及预测

多组学联合分析与疾病分子机制

学习背景:研究影响疾病表型变化影响的因素包括DNA,RNA,蛋白质和代谢物等。单一组学的数据难以系统全面地解析复杂生理过程的调控机制,多组学联合分析通过对来自基因组、转录组、蛋白组、代谢组和脂质组等不同生物分子层次的批量数据进行归一化处理、比较分析和相关性分析等统计学分析,建立不同层次分子间的数据关系,从而共同探究生物体内潜在的调控网络机制,为生物体作用机制提供了更多证据。

学习目标:从常见的多组学联合分析策略出发,如转录组+代谢组,蛋白组+代谢组等,对常用的数理统计分析方法进行介绍,之后学习如何利用数据库如KEGG等进行生物功能富集分析,结合机器学习方法进行生物标志物的挖掘,疾病预测以及生物分子作用机制等。

Ø  常用生物组学实验与分析方法,如转录组学,代谢组学

Ø  常用组学数据库介绍,如TCGA,PathBank,HMDB,KEGG

Ø  Python批量处理组学数据-归一化处理,差异分析,相关性分析

Ø  生物功能分析:GO 功能分析、代谢通路富集、分子互作等

Ø  基于转录组学的差异基因筛选,疾病预测

Ø  基于差异基因,联合代谢组学分析疾病分子发生机制

Ø  组学数据可视化,如火山图,t-SNE降维,代谢通路网络分析

Ø  组学特征(基因,蛋白,代谢物)选择(随机森林分析)

Ø  单细胞转录组学数据分析及可视化分析

案例教学五:(包含以下内容)

转录组+代谢组的多组学分析胃癌,实现从“因”和“果”两个层面来探究生物学问题,相互间进行验证

从海量的数据中筛选出关键基因、代谢物及代谢通路

深度解析胃癌肿瘤标志物解释肿瘤发生发展的复杂性和整体性

深度学习在多组学数据中的应用

(入门与实践)

学习目标:随着高通量组学平台的发展,生物医学研究大多采取了多组学技术结合的方法,不同组学来源(如转录组学、蛋白质组学和代谢组学)的数据可以通过基于深度学习的预测算法进行整合,以揭示系统生物学的复杂工作。在这一部分我们会重点对基于深度学习的神经网络进行系统的讲解,学习常见的神经网络架构在多组学分析的应用。

Ø  深度学习介绍,常用神经网络架构介绍

Ø  监督学习介绍,神经网络在转录组学+代谢组学的疾病预测为例

Ø  无监督学习介绍,高维组学数据降维,聚类分析,以单细胞转录组数据为例

案例教学六:基于t-SNE和UMAP进行单细胞转录组学数据降维,细胞亚型聚类分析。

深度学习神经网络进阶(入门及实践)

学习目标:学习前沿神经网络如卷积神经网络,循环神经网络,注意力机制,自编码器,图神经网络在生物组学及药物筛选的应用,迁移学习应用等。

Ø  卷积神经网络基础及其应用(影像组学)

Ø  循环神经网络基础及其应用(蛋白组学)

Ø  注意力机制基础及其应用

Ø  自编码器基础及其应用(转录组学)

Ø  图神经网络基础及其应用(代谢组学)

Ø  迁移学习

Ø  深度学习框架——transformer的应用

案例教学七:基于影像组学及卷积神经网络进行肿瘤病理图片特征提取与分级预测

案例教学八:基于自编码器进行药物/代谢物分子生成

深度学习在组学数据药物发现的应用 (入门及实践)

学习目标:基于基因表达特征建立疾病与小分子药物之间的关联关系,运用转录组学,蛋白组学,机器学习算法进行药物重定位。

Ø  基于生物组学的药物发现基础介绍

Ø  药物分子化学特征提取(分子指纹,描述符,分子图)

Ø  图神经网络预测药物分子性质

Ø  基于胰腺癌差异表达基因进行药物重定位

案例教学九:基于机器学习图神经网络进行代谢物/药物分子的性质预测

案例教学十:以胰腺癌为例,基于转录组学差异表达基因与深度学习模型进行药物重定位

AI+Science

学习目标:人工智能领域前沿内容,让大家了解最新的多组学与机器学习领域的研究动态,同时介绍几种更为先进的机器学习算法。

Ø  集成学习在多组学数据联合分析中的应用

Ø  多组学数据库在生物信息网络的挖掘与应用

Ø  生成模型在多组学数据的应用与挑战

Ø  影像组学进阶,弱监督学习进行影像组学数据自动标注与分类

案例教学十一:基于生成对抗模型进行单细胞转录组数据深度特征提取

部分案例图示:

向下滑动查看




报名时间


2023年08月19日-08月21日

2022年08月26日-08月28日

在线直播(授课六天)



报名费用


(含报名费、培训费、资料费)

¥5600元/人

费用提供用于报销正规机打发票及盖有公章的纸质通知文件;

如需开具会议费的单位请联系招生老师索取会议邀请函;


增值服务


1、凡报名学员将获得本次培训电子课件及随堂全部案例代码资料

2、凡报名学员培训结束可获得本次直播课程全部无限次回放视频

3、价格优惠:

优惠一:2023年8月7日前报名汇款可享受400元优惠(仅限前八名);

优惠二:老客户参加或者推荐学员可享受额外优惠(具体请咨询招生联系人)

4、学员提出的各自遇到的问题在课程结束后可以长期得到老师的解答与指导;

5、参加培训并通过考试的学员,可以获得:北京软研国际信息技术研究院培训中心颁发的相关专题专业技能结业证书;


联系方式


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存