TCGA数据库数据挖掘与探索**
玮瑜主办2017年5月19日-21日(周五六日)上海
课程简介
随着大数据时代的到来,各种生物类公共数据库井喷,其中就包括癌症领域熟为人知的癌症基因图谱The Cancer Genome Atlas (TCGA)数据库。TCGA由NCI牵头,作为美国攻克癌计划的一个大项目,投入了巨大的人力和物力,系统提供了癌症多组学测序和芯片数据,包括Gene expression, DNA methylation, Copy Number Variation, Mutation等结果,同时也附有相应各测序样本的完整临床资料。TCGA为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,这为挖掘有意义的基因组变化和发现影响肿瘤起始、发展、分化、转移等生物学机制提供了海量数据基础。然而传统的基础医学和转化医学研究者缺乏信息学基础来处理大规模癌症数据,因而在面对这些极其有价值的基因组数据时,往往心有余而力不足。作为医学信息领域研究者,我们需要将信息学和统计学知识运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个纽带,帮助研究者去更好地挖掘探索这些数据。
课程内容、目标与特色
本次培训提供了一次系统了解TCGA数据产生,糅合、分析及挖掘的课程,使基础医学和转化医学研究者能更好地挖掘TCGA多组学数据,以便为自身科研项目服务。本次培训涵盖拟解决的问题包括:1、TCGA各组学数据下载。2、差异表达基因鉴定、共表达分析及聚类。3、差异甲基化区域鉴定及分析。4、基于TCGA数据挖掘癌症预后相关的甲基化位点和基因。
授课老师
本次培训邀请两位主讲老师。一位来自科研院所,另一位是三甲医院临床医生。两位授课老师将分别从TCGA数据下载,数据整合,清洗及SCI文章常规思路对这些数据进行分析,并从临床角度出发,把测序数据与临床资料整合,为临床医生提供科研思路,为自身科研服务。
课程设置
第一天上午:TCGA概论及相关数据下载介绍
一. TCGA数据库基本概念介绍
1,TCGA项目的由来及发展始末;
2,TCGA包含的癌种和数据类型解析;
3,TCGA相关发表论文案例解析;
4,GEO数据库及数据下载,Oncomine数据库。
二: 使用TCGA下载单个癌症的RNAseq数据,miRNA表达数据,甲基化数据,突变数据和临床数据,并对数据进行相应合并,整合
第一天下午:R基本知识讲解;limma差异表达基因鉴定
一:了解R基本数据结构,各种软件包下载和安装
1,R语言简介:R语言的由来和发展,优缺点;
2,R的数据结构:向量;因子;数组;矩阵;数据框;列表
3,R编程:R编程基础及语句判断,
4,R实践:读写文本文件及利用TCGA的文件进行二级分析
二:掌握差异表达基因分析
利用DEseq和limma包对大肠癌中15对癌与癌旁的RNAseq V2的表达数据进行差异表达基因分析,并对结果进行比较
三: 热图制作及聚类分析
基于DEseq和limma包鉴定出的差异表达基因,利用pheatmap包制作热图及聚类分析
利用火山图显示差异表达基因
第二天上午:WGCNA共表达分析;bumphunter差异甲基化区域鉴定及分析
一:掌握WGCNA共表达分析,利用VisANT进行共表达子网络构建
1,了解WGCNA共表达的概念;
2,利用WGCNA包对大肠癌中鉴定的差异表达基因构建共表达网络并制作TOMplot
3,利用VisANT显示排名前30的hub基因共表达子网络构建
二:使用TCGA的450k甲基化芯片数据鉴定差异化甲基化位点和区域
利用Bunphunter包对大肠癌中癌与配对癌旁的450k甲基化芯片数据进行差异化甲基化区域的鉴定
第二天下午:Cox回归及lasso筛选预后相关变量
1. 利用survival包进行单因素cox回归分析并筛选变量
结合mRNA的表达值与大肠癌的预后数据,对约2000个蛋白编码基因利用survival包对每个基因进行单因素cox回归分析并筛选P |