Bioinformatics Tutorial
Files Needed
  • Getting Started
    • Setup
    • Run jobs in a Docker
    • Run jobs in a cluster [Advanced]
  • Part I. Programming Skills
    • 1.Linux
      • 1.1.Basic Command
      • 1.2.Practice Guide
      • 1.3.Linux Bash
    • 2.R
      • 2.1.R Basics
      • 2.2.Plot with R
    • 3.Python
  • PART II. BASIC ANALYSES
    • 1.Blast
    • 2.Conservation Analysis
    • 3.Function Analysis
      • 3.1.GO
      • 3.2.KEGG
      • 3.3.GSEA
    • 4.Clinical Analyses
      • 4.1.Survival Analysis
  • Part III. NGS DATA ANALYSES
    • 1.Mapping
      • 1.1 Genome Browser
      • 1.2 bedtools and samtools
    • 2.RNA-seq
      • 2.1.Expression Matrix
      • 2.2.Differential Expression with Cufflinks
      • 2.3.Differential Expression with DEseq2 and edgeR
    • 3.ChIP-seq
    • 4.Motif
      • 4.1.Sequence Motif
      • 4.2.Structure Motif
    • 5.RNA Network
      • 5.1.Co-expression Network
      • 5.2.miRNA Targets
      • 5.3. CLIP-seq (RNA-Protein Interaction)
    • 6.RNA Regulation - I
      • 6.1.Alternative Splicing
      • 6.2.APA (Alternative Polyadenylation)
      • 6.3.Chimeric RNA
      • 6.4.RNA Editing
      • 6.5.SNV/INDEL
    • 7.RNA Regulation - II
      • 7.1.Translation: Ribo-seq
      • 7.2.RNA Structure
    • 8.cfDNA
      • 8.1.Basic cfDNA-seq Analyses
  • Part IV. MACHINE LEARNING
    • 1.Machine Learning Basics
      • 1.1 Data Pre-processing
      • 1.2 Data Visualization & Dimension Reduction
      • 1.3 Feature Extraction and Selection
      • 1.4 Machine Learning Classifiers/Models
      • 1.5 Performance Evaluation
    • 2.Machine Learning with R
    • 3.Machine Learning with Python
  • Part V. Assignments
    • 1.Precision Medicine - exSEEK
      • Help
      • Archive: Version 2018
        • 1.1.Data Introduction
        • 1.2.Requirement
        • 1.3.Helps
    • 2.RNA Regulation - RiboShape
      • 2.0.Programming Tools
      • 2.1.RNA-seq Analysis
      • 2.2.Ribo-seq Analysis
      • 2.3.SHAPE Data Analysis
      • 2.4.Integration
    • 3.RNA Regulation - dsRNA
    • 4.Single Cell Data Analysis
      • Help
  • 5.Model Programming
  • Appendix
    • Appendix I. Keep Learning
    • Appendix II. Databases & Servers
    • Appendix III. How to Backup
    • Appendix IV. Teaching Materials
    • Appendix V. Software and Tools
    • Appendix VI. Genome Annotations
Powered by GitBook
On this page
  • 1) Reads Processing and Mapping
  • 2) Expression Matrix的构建
  • 3) 数据分析和质量控制(QC)
  • 4) 矩阵处理
  • 5) 特征选择 (Feature Selection)
  • 6) 模型评估与特征解释

Was this helpful?

Edit on GitHub
  1. Part V. Assignments
  2. 1.Precision Medicine - exSEEK
  3. Archive: Version 2018

1.2.Requirement

Previous1.1.Data IntroductionNext1.3.Helps

Last updated 6 years ago

Was this helpful?

作业具体要求

  • 报告要求:提交一份完整的工作报告,中英文不限(鼓励英文,可以参考一些发表文献,如 ),同时提交源代码。请读者使用我们提供的数据,完成以下工作,包括六个主要步骤:

    • Part I. Prepare Data Matrix

      • 1) 完成五个样本的Reads Processing and Mapping工作,并统计相关的比例和长度信息;

      • 2) 完成五个样本的Expression Matrix的构建;

      • 3) 完成数据分析和质量控制工作;

    • Part II. Matrix Process

      • 4) 完成矩阵处理工作: 主要包括 filter, imputation, normalization, remove batch effect, etc;

    • Part III. Machine Learning

      • 5) 完成特征选择并汇报挑选出的特征(Feature);

      • 6) 完成模型评估与特征解释。

中期报告要求:完成上述的最终报告的 Part I-II 部分,参照教程示例绘制相应的图,提交一份工作概述,需要至少包括:

  • 汇报构建的expression matrix与参考样本的相关系数;

  • 数据分析和质量控制相关绘图;

  • 处理矩阵数据,汇报数据处理各个步骤前后的PCA图和alignment score。

1) Reads Processing and Mapping

完成五个样本Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的mapping和RNA ratio与length的统计工作。

具体步骤请参考 Helps: Mapping指南

Inputs

File format

Information contained in file

File description

fastq

reads

five samples, GEO link: GSE71008

Outputs

File format

Information contained in file

sam/bam

mapped reads to different kinds of indexes

tsv format

stats of RNA ratio and length

2) Expression Matrix的构建

完成五个样本Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的expression matrix的构建,用Sample_N1, Sample_N7的expression matrix数据和/BioII/chenxupeng/student/data/expression_matrix/GSE71008.txt中相应的两个样本的参考数据计算相关系数以检查结果。

具体步骤请参考 Helps: Construct Expression Matrix 指南

inputs

File format

Information contained in file

File description

Notes

bam

alignments

Produced by mapping reads to the transcriptome.

Reads are trimmed using a proprietary version of cutAdapt. We map to transcriptome for a better sensitivity (see details in protocol and example).

outputs

File format

Information contained in file

File description

Notes

tsv

gene (ncRNA) quantifications

Non-normalized counts.

3) 数据分析和质量控制(QC)

具体内容请参考 Helps: 数据分析和质量控制指南

  • 统计一套数据中不同RNA type在不同样本的counts分布,可绘制pie plot, barplot, boxplot和lineplot等。参考 Helps: 基本信息统计 部分。

  • 对数据做基本的quality control,通过经验性的阈值或者PCA中明显离群点去除部分样本。参考

    Helps: sample QC 部分

关键环节:

数据分析和质量控制(QC)是一个很重要的步骤,应该贯穿在第1-2步,甚至后面的每一步,注意利用统计量和可视化的plots综合进行分析。

4) 矩阵处理

对expression matrix做相应的处理和加工:

  • Filter

  • Imputation

  • Normalization

  • Remove batch effect

关键环节:

要求读者通过PCA Plot等分析不同处理策略和步骤后的效果,选定自己认为比较合适的处理方法,可以参考 Helps: 矩阵处理指南。

Tips: 除了该步骤中对测序深度等系统误差进行normalization,可以在下一步特征选择时再进行一次机器学习中常规的normalization(如每列都noramlize到0-1)。

5) 特征选择 (Feature Selection)

我们希望读者设计一个稳健的特征选择方法,完成以下几种情况下的feature selection,给出针对每种分类条件所挑选的feature,展示不同个数要求下挑出的feature,比如1~10,20,30等个数要求下挑出的feature。

  • 分类条件:

    • Colorectal vs Healthy Control

    • Prostate Cancer vs Healthy Control

    • Colorectal vs Prostate Cancer vs Healthy Control(三分类)

  • 基础要求:读者可以从简单的feature selection方法开始尝试,基于分类模型的feature权重挑选feature,。

  • 高级要求:为了帮助读者打开思路,我们给出一个如下的示例性流程。

    • 对feature做scale,(using z-scores, min-max, robust normalization)。

    • 使用机器学习二分类/三分类模型 (random forest, logistic regression, linear SVM) 通过feature权重选择feature,使用三折交叉验证选择超参数。

    • Optionally, 使用 recursive feature elimination(RFE)减少feature数量.

    • Resampling 来选择 robust features, 选择那些在resampling runs中重复多次出现的feature(出现频率>50%):

      • shuffle and split dataset, 重复特征选择100次(shuffle split)

      • 或者每次测试一个样本 (leave one out).

    • 用选择出的feature重新拟合模型

以上步骤会挑出在resampling runs中出现频数超过总轮数一半的特征。其中第一步对feature做scale,读者可以尝试不同的对feature进行normalization的策略。第二步读者可以尝试不同的机器学习模型,并且在第三步选择是否使用RFE来逐步筛除feature。第四步是挑选稳健feature的关键,可以采取random split或leave one out,选择重复出现的稳健的feature。

关键环节:

特征的选择是该项目最后结果的一个关键因素,其作用远大于对具体classifier模型的选择,读者可以设计自己的稳健的特征选择方法,甚至应该利用一些生物学上的先验知识进行一些选择,除了准确度 (Accuracy) 也请注意体现出自己的方法的稳健性 (Robustness)。

参考 Helps: 特征选择指南 。

6) 模型评估与特征解释

  • 绘制挑选出的feature counts(经过适当的scale)的clustermap,用颜色块表示class。请参考 Helps: 特征选择结果可视化。

  • 绘制二分类的ROC曲线,请参考 Helps: 用选出的feature进行分类并绘制ROC曲线。

  • 汇报挑选不同数量的feature时分类效果,用AUC作为指标绘制折线图。请参考 Helps: 用AUC评估挑选不同数量feature的效果。

  • 分析挑选出的feature的生物学意义。

  • 尝试更多分析模型结果的方法。

参考 Helps: 模型评估与feature解释指南 。

关键环节:

选出来的Feature, 也就是RNA Panel,是该项目的重点和目标,要比模型的准确度更为重要。

对于Feautre的选择和解释,都需要注意利用一些生物学上的先验知识,比如优先选择和解释一些已知的oncogene。

a three-lncRNA signature for cancer