1.2.Requirement

作业具体要求

报告要求：提交一份完整的工作报告，中英文不限（鼓励英文，可以参考一些发表文献，如 a three-lncRNA signature for cancer ），同时提交源代码。请读者使用我们提供的数据，完成以下工作，包括六个主要步骤：
- Part I. Prepare Data Matrix
  - 1) 完成五个样本的Reads Processing and Mapping工作，并统计相关的比例和长度信息；
  - 2) 完成五个样本的Expression Matrix的构建；
  - 3) 完成数据分析和质量控制工作；
- Part II. Matrix Process
  - 4) 完成矩阵处理工作: 主要包括 filter, imputation, normalization, remove batch effect, etc；
- Part III. Machine Learning
  - 5) 完成特征选择并汇报挑选出的特征（Feature）；
  - 6) 完成模型评估与特征解释。

中期报告要求：完成上述的最终报告的 Part I-II 部分，参照教程示例绘制相应的图，提交一份工作概述，需要至少包括：
汇报构建的expression matrix与参考样本的相关系数；
数据分析和质量控制相关绘图；
处理矩阵数据，汇报数据处理各个步骤前后的PCA图和alignment score。

1) Reads Processing and Mapping

完成五个样本Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的mapping和RNA ratio与length的统计工作。

具体步骤请参考 Helps: Mapping指南

Inputs

File format

Information contained in file

File description

fastq

reads

five samples, GEO link: GSE71008

Outputs

File format

Information contained in file

sam/bam

mapped reads to different kinds of indexes

tsv format

stats of RNA ratio and length

2) Expression Matrix的构建

完成五个样本Sample_N1, Sample_N7, Sample_N13, Sample_N19, Sample_N25的expression matrix的构建，用Sample_N1, Sample_N7的expression matrix数据和/BioII/chenxupeng/student/data/expression_matrix/GSE71008.txt中相应的两个样本的参考数据计算相关系数以检查结果。

具体步骤请参考 Helps: Construct Expression Matrix 指南

inputs

File format

Information contained in file

File description

Notes

bam

alignments

Produced by mapping reads to the transcriptome.

Reads are trimmed using a proprietary version of cutAdapt. We map to transcriptome for a better sensitivity (see details in protocol and example).

outputs

File format

Information contained in file

File description

Notes

tsv

gene (ncRNA) quantifications

Non-normalized counts.

3) 数据分析和质量控制（QC）

具体内容请参考 Helps: 数据分析和质量控制指南

统计一套数据中不同RNA type在不同样本的counts分布，可绘制pie plot, barplot, boxplot和lineplot等。参考 Helps: 基本信息统计 部分。
对数据做基本的quality control，通过经验性的阈值或者PCA中明显离群点去除部分样本。参考
Helps: sample QC 部分

关键环节：

数据分析和质量控制（QC）是一个很重要的步骤，应该贯穿在第1-2步，甚至后面的每一步，注意利用统计量和可视化的plots综合进行分析。

4) 矩阵处理

对expression matrix做相应的处理和加工：

Filter
Imputation
Normalization
Remove batch effect

关键环节：

要求读者通过PCA Plot等分析不同处理策略和步骤后的效果，选定自己认为比较合适的处理方法，可以参考 Helps: 矩阵处理指南。

Tips: 除了该步骤中对测序深度等系统误差进行normalization，可以在下一步特征选择时再进行一次机器学习中常规的normalization（如每列都noramlize到0-1）。

5) 特征选择 (Feature Selection)

我们希望读者设计一个稳健的特征选择方法，完成以下几种情况下的feature selection，给出针对每种分类条件所挑选的feature，展示不同个数要求下挑出的feature，比如1~10,20,30等个数要求下挑出的feature。

分类条件：
- Colorectal vs Healthy Control
- Prostate Cancer vs Healthy Control
- Colorectal vs Prostate Cancer vs Healthy Control（三分类）
基础要求：读者可以从简单的feature selection方法开始尝试，基于分类模型的feature权重挑选feature，。
高级要求：为了帮助读者打开思路，我们给出一个如下的示例性流程。
- 对feature做scale，(using z-scores, min-max, robust normalization)。
- 使用机器学习二分类/三分类模型 (random forest, logistic regression, linear SVM) 通过feature权重选择feature，使用三折交叉验证选择超参数。
- Optionally, 使用 recursive feature elimination(RFE)减少feature数量.
- Resampling 来选择 robust features, 选择那些在resampling runs中重复多次出现的feature(出现频率>50%):
  - shuffle and split dataset, 重复特征选择100次(shuffle split)
  - 或者每次测试一个样本 (leave one out).
- 用选择出的feature重新拟合模型

以上步骤会挑出在resampling runs中出现频数超过总轮数一半的特征。其中第一步对feature做scale，读者可以尝试不同的对feature进行normalization的策略。第二步读者可以尝试不同的机器学习模型，并且在第三步选择是否使用RFE来逐步筛除feature。第四步是挑选稳健feature的关键，可以采取random split或leave one out，选择重复出现的稳健的feature。

关键环节：

特征的选择是该项目最后结果的一个关键因素，其作用远大于对具体classifier模型的选择，读者可以设计自己的稳健的特征选择方法，甚至应该利用一些生物学上的先验知识进行一些选择，除了准确度 (Accuracy) 也请注意体现出自己的方法的稳健性 (Robustness)。

参考 Helps: 特征选择指南 。

6) 模型评估与特征解释

绘制挑选出的feature counts（经过适当的scale）的clustermap，用颜色块表示class。请参考 Helps: 特征选择结果可视化。
绘制二分类的ROC曲线，请参考 Helps: 用选出的feature进行分类并绘制ROC曲线。
汇报挑选不同数量的feature时分类效果，用AUC作为指标绘制折线图。请参考 Helps: 用AUC评估挑选不同数量feature的效果。
分析挑选出的feature的生物学意义。
尝试更多分析模型结果的方法。

参考 Helps: 模型评估与feature解释指南 。

关键环节：

选出来的Feature, 也就是RNA Panel，是该项目的重点和目标，要比模型的准确度更为重要。

对于Feautre的选择和解释，都需要注意利用一些生物学上的先验知识，比如优先选择和解释一些已知的oncogene。

Previous1.1.Data Introduction Next1.3.Helps

Last updated 6 years ago

Was this helpful?