Links

1.Precision Medicine - exSEEK

Finding exRNA/cfRNA biomarker panel for cancer diagnosis

0) 背景介绍

我们郜知道RNA是圚细胞内蜬圕产生的由于RNA酶圚环境䞭的广泛存圚圚细胞倖RNA埈容易被降解。䜆是人们埈早就意识到圚没有细胞的䜓液环境劂血枅、唟液和尿液䞭也可以皳定的检测到倚种类型的 RNA(miRNAmRNA, Y RNA,lncRNA,circRNA 等等)。这些存圚于细胞倖的RNA䞀般被称䞺 extracellular RNA(exRNA)或cell free RNA(cfRNA)。这些RNA通垞䞍是以完党裞露的圢匏存圚于䜓液环境䞭的而是䌚由埮囊泡 (microvesicles)、倖泌䜓(exosome)包裹或者䞎 RBP 密切结合圢成 RNP 倍合䜓。䞀般讀䞺,这些蜜䜓(carrier)对exRNA/cfRNA有䞀定的保技䜜甚䜿埗它们胜圚䜓液环境䞭免于降解。陀歀之倖䞀些结构皳定的RNA(or a RNA domain)䌚因䞺自身二级和䞉级结构可以抵抗 RNAase 的降解 circular RNA因䞺没有枞犻的5'和3'末端也䌚对倖切酶的降解有比蟃区的抵抗䜜甚。
exRNA/cfRNA起初是来自于细胞内的所以exRNA的衚蟟谱和蜬圕后修饰等圚䞀䞪䟧面䞊反映了人的生理状态。血枅、唟液和尿液郜是容易通过无创的方匏获取的样本所以䜓液exRNA/cfRNA的䞀䞪重芁应甚场景是䜜䞺䞀类无创检测的标志物服务于人䜓健康状况检测和疟病的诊断劂孕检癌症的早期诊断肿瘀的监测和预后等。
目前最垞见的对exRNA/cfRNA进行高通量检测的实验手段就是我们前面反倍介绍的二代测序。通过前面的孊习我们已经对二代测序数据的倄理有了䞀定的了解。本 Quiz垌望读者利甚生物信息孊工具从二代测序数据䞭提取特埁䜿甚䞀些机噚孊习方法评䌰exRNA/cfRNA对于健康人和癌症患者的区分胜力并给出䞀䞪有预测胜力的特埁组合。

1) 数据集介绍

  • 我们提䟛了血浆long RNA双端测序和small RNA单端测序产生的䞀䞪数据集以䞋是数据分析的敎䜓流皋:
  • 我们已经对原始数据进行了预倄理(去陀adapter、去陀䜎莚量序列等)和mapping请倧家盎接从䞀䞪数据集的bam文件(bam文件已按坐标sort过)出发进行后续分析。
  • 盞关的数据郜攟圚P集矀的/data/2022-bioinfo-shared/data/quiz-I目圕䞋。

数据集1 (long RNA)

  • 该数据集包含373䞪样本样本来源于结肠癌(CRC)胃癌(STAD)肺癌(LUAD)食管癌(ESCA)和肝癌(HCC)5种癌症患者以及健康人(HD)。
  • 数据䜍于/data/2022-bioinfo-shared/data/quiz-I/exRNA-long目圕。文件内容解释劂䞋:
├── bam
│ ├── CRC-2124325.bam
│ ├── CRC-2124325.bam.bai
│ ├── CRC-2211756.bam
│ ├── CRC-2211756.bam.bai
...
├── genome
│ ├── bed
│ │ ├── lncRNA.exon.bed
│ │ ├── lncRNA.intron.bed
│ │ ├── mRNA.exon.bed
│ │ ├── mRNA.intron.bed
...
│ └── gff
│ └── gencode.v38.annotation.gff3
├── metadata.txt
└── README.md
  • bam目圕䞋是每䞪样本的reads向基因组mapping埗到的bam文件(按坐标排序)和bam index每䞪样本对应䞀䞪bam文件
  • genome目圕䞋是需芁甚到的基因组泚释信息
  • metadata.txt䞭提䟛了样本的盞关信息瀺䟋劂䞋:
sample_id label source sex library dataset
CRC-2124325 CRC P1 M reverse train
CRC-2211756 CRC P1 M reverse train
CRC-2276341 CRC P1 F reverse test
CRC-2277930 CRC P1 M reverse train
  • metadata䞀共包含6列每列的含义解释劂䞋
    • sample_id: 样本id每䞪样本的id是唯䞀的
    • label: 样本的标筟也是我们实际预测的对象
    • source: 样本来源的医院
    • sex: 样本䟛䜓的性别
    • library: 建库的铟特匂性有reverse/forward䞀种
    • dataset: 参考数据集的䞀种人䞺划分我们把䞀郚分人的数据甚来做training 及䞀郚分人的数据甚来做 test。泚意对于本测试䞭的这种蟃小的数据集我们䞍掚荐甚这种人䞺䞀次性划分 traning 和 test 的方匏。曎奜的方法参考䞋文的 ”数据集划分“。

数据集2 (small RNA)

  • 公共数据GSE71008​
  • 包括192䞪样本来源于结肠癌(CRC)前列腺癌(PC)和胰腺癌(PAAD)以及HD。
  • 数据䜍于/data/2022-bioinfo-shared/data/quiz-I/exRNA-short目圕。文件内容解释劂䞋:
.
├── bam
│ ├── Sample_1S1
│ │ ├── lncRNA.bam
│ │ ├── lncRNA.bam.bai
│ │ ├── miRNA.bam
│ │ ├── miRNA.bam.bai
...
│ ├── Sample_1S10
│ │ ├── lncRNA.bam
│ │ ├── lncRNA.bam.bai
│ │ ├── miRNA.bam
│ │ ├── miRNA.bam.bai
...
├── genome
│ ├── bowtie2-index
│ │ ├── lncRNA.1.bt2
│ │ ├── lncRNA.2.bt2
...
│ └── fasta
│ ├── lncRNA.fa
│ ├── miRNA.fa
...
└── metadata.txt
  • 泚意 small RNA 数据和䞊述的 long RNA 数据的倄理方法䞍同bam目圕䞋是每䞪样本的reads向蜬圕组mapping埗到的bam文件(按坐标排序)和bam index所以对每䞪样本郜䌚对应9䞪bam文件(miRNA,lncRNA,mRNA,piRNA,snoRNA,snRNA,srpRNA,tRNA和YRNA各自对应䞀䞪bam文件)。诊见䞋文的“Different Mapping stratgies for small and long RNA-seq data”
  • genome目圕䞋是我们圚mapping时䜿甚的序列和对应的bowtie2 index
  • metadata.txt䞭提䟛了样本的盞关信息瀺䟋劂䞋:
sample id RNA Isolation batch library prepration day gel cut size selection label sex id stage dataset
Sample_1S1 2 22 7 CRC F GSM1825212 I train
Sample_1S10 3 24 1 CRC F GSM1825215 I train
Sample_1S11 3 24 2 CRC F GSM1825239 I test
Sample_1S12 3 25 7 CRC M GSM1825071 I train
  • metadata䞀共包含9列每列的含义解释劂䞋:
    • sample id: 样本猖号对于每䞪样本是唯䞀的
    • RNA Isolation batch, library prepration day, gel cut size selection䞉列记圕了实验批次的信息
    • label: 样本的标筟也是我们实际预测的对象
    • sex: 样本䟛䜓的性别
    • stage: 肿瘀分期的信息
    • id: GEO数据库䞭的样本id
    • dataset: 参考数据集的䞀种人䞺划分我们把䞀郚分人的数据甚来做training 及䞀郚分人的数据甚来做 test。泚意对于本测试䞭的这种蟃小的数据集我们䞍掚荐甚这种人䞺䞀次性划分 traning 和 test 的方匏。曎奜的方法参考䞋文的 ”数据集划分“。

Different mapping stratgies for small and long RNA-seq data

long RNA-seq: 长RNA双端测序的mapping和RNA-seq的垞规分析流皋比蟃䞀臎即甚spliced aligner(我们这里䜿甚的是STAR)将reads比对到参考基因组hg38䞊。所以对于长RNA数据,䞀䞪样本对应䞀䞪bam文件,bam文件的record郜圚hg38的坐标䞊。
small RNA-seq: 小RNA数据集的reads长床比蟃短劂果盎接埀基因组䞊比对容易产生倧量的multiple mapping。所以我们这里采甚的方法是人䞺的对䞍同类型的RNA定义䞀䞪䌘先级按这䞪䌘先级先把reads埀前䞀类RNA的蜬圕本序列䞊mapping(DNA-seq aligner即可这里甚的是bowtie2)再把unmapped reads埀䞋䞀类RNA的蜬圕本序列䞊mapping。这种"sequential mapping"是倄理小RNA测序数据的䞀种垞见策略倧家可以参考2019, Cell Systems, Joel Rozowsky et al., exceRpt: A Comprehensive Analytic Platform for Extracellular RNA Profiling这篇文章。䌘先次序的定义有䞀定的䞻观性通垞䌚给泚释的可信床比蟃高的RNA类型和我们圚研究䞭比蟃关泚的RNA类型蟃高的䌘先床我们这里采甚的顺序是miRNA,lncRNA,mRNA,piRNA,snoRNA,snRNA,srpRNA,tRNA,YRNA。对于每䞀䞪小RNA测序样本我们郜䌚提䟛倚䞪bam文件对应䞍同的RNA类型每䞀䞪bam文件的record郜圚盞应的蜬圕本序列的坐标䞊。

2) 报告芁求

  • 提亀䞀仜完敎的工䜜报告(䞭英文䞍限)提䟛䞻芁的代码。
  • 请读者䜿甚我们提䟛的数据参考 Help 䞭提䟛的盞关信息完成以䞋工䜜:

Part I. Prepare count matrix

RNA-seq最盎接的䜜甚是甚于基因衚蟟的定量利甚RNA测序数据䌰计出有泚释的基因或蜬圕本的盞对䞰床是䞀䞪埈容易想到的可胜圚癌症病人和健康人之闎有区分胜力的特埁。圚part I䞭我们芁求倧家对䞀套RNA-seq数据分别构建衚蟟矩阵。
  • long RNA:
    • 甹featureCount䞀类的工具统计每䞪基因的read counts。
    • 根据bam文件计算圚我们考虑的RNA䞭䞍同RNA类型(䟋劂可以按mRNA,lncRNA,snoRNA,snRNA,srpRNA,tRNA,YRNA,pseudogene和intron来划分请参考help䞭的盞关介绍)所占的比䟋。
    • 把䞍同样本的count合并到䞀䞪count matrix䞭。
泚意
我们这里甚到的长RNA数据郜是铟特匂性建库产生的䜆是这些数据圓时圚做实验时分别来自2䞪建库方匏有䞀些是forward stranded及䞀些则是reverse stranded。这䞀信息圚metadata.txt䞭已标明圚count时需芁䜿甚盞应的参数。
  • small RNA:
    • 我们提䟛了䞀䞪脚本scripts/count-transcripts.py甚来统计每䞀䞪蜬圕本䞊有倚少reads。圚基本的分析䞭我们建议倧家只考虑miRNA和piRNA曎倚的分析可以参看䞋面的 "Part IV Optional Tasks".
    • 把䞍同样本的count合并到䞀䞪count matrix䞭。

Part II. Matrix processing

圚该郚分䞭我们芁求倧家对count matrix进行预倄理将矩阵倄理成机噚孊习暡型盎接可以接受的圢匏。我们芁求倧家对矩阵进行劂䞋倄理
  1. 1.
    过滀䜎衚蟟的基因
  2. 2.
    对衚蟟矩阵进行normalization
  3. 3.
    甚计算方法去陀batch effect
  4. 4.
    通过数据可视化分析预倄理有没有蟟到预期的效果
  5. 5.
    对特埁进行scaling(劂果只䜿甚树暡型该步骀可省略)

Part III. Machine Learning

  • long RNA
    • 基本分析: 癌症患者(䞍区分癌症类型) vs. 健康人(healthy donor, HD)的二分类问题
    • 进阶分析: 尝试特定䞀种癌症类型和健康人的二分类问题以及䞍同癌症类型闎的倚分类问题
  • small RNA
    • 基本分析CRC vs. HD之闎的二分类问题
    • 进阶分析圚男性样本䞭尝试PC vs. HD以及CRC vs. PC的二分类问题(女性䞍䌚患前列腺癌)

数据集划分

我们甚到的䞀䞪数据集郜比蟃小只做䞀次训练集和测试集的划分圚测试集䞊的衚现可胜䌚有比蟃倧的随机性曎合适的做法是通过倚次random split, 或倚次k fold cross validation或bootstrap的方匏产生倚䞪训练集和测试集再甚每䞀对训练集和测试集重倍同样的计算(圚训练集䞊进行调参特埁选择和暡型拟合圚测试集䞊进行性胜评䌰)。所以我们提䟛的数据计划分仅䜜䞺参考有粟力的同孊可以尝试倚次划分训练集和测试集分析暡型衚现的分垃。

特埁选择

  • 请倧家甚任意䞀种方匏对盞应的分类问题进行特埁选择錓励倧家圚实现特埁选择的过皋䞭考虑曎倚的实际䞭存圚的问题或䜿甚曎倍杂的特埁选择策略。请倧家根据自己的时闎和兎趣选择和尝试䞋面的䞍同策略
  • 埈倚暡型自垊特埁选择的功胜。所以最简单的做法是盎接甚这样的暡型(劂LASSO)圚训练集䞊拟合暡型亀叉验证选择超参数汇报系数䞍䞺0的特埁。圚1.3.feature-engineering䞀节䞭我们把这类方法称䞺"embedded"方法。这样埗到的暡型可以盎接甚来圚测试集䞊进行性胜评䌰。陀了基于"embedded"方法的特埁选择我们还垌望倧家倚做其他尝试劂前面介绍的"filter"和"wrapper"等方法。
  • 特埁选择时还可以匕入先验知识。䟋劂2021, Nature Communications, Matthew H. Larson et al.䞓闚挑选䞀些圚所有的健康人䞭郜几乎检测䞍到的基因文䞭称䞺_dark chanel biomarkers_垌望以歀提高诊断的特匂性。歀倖有的研究也将特埁选择的范囎限制圚䞀些已知的“Cancer Genes”䞊。
  • 对冗䜙特埁的倄理: 生物孊䞊有些基因是共衚蟟的计算䞊也有可胜匕入䞀些人䞺的盞关性。倧家可以考虑圚特埁选择前就去陀䞀些高床盞关的特埁或筛选出特埁后去陀高床盞关的特埁。
  • 评䌰䞍同特埁选择方法的皳健性: 从训练集sample䞀郚分样本(䟋劂80%的样本)甚于特埁选择重倍倚次分析每次选到的特埁的重合情况。有埈倚指标可以甚来描述特埁选择的皳定性劂Kuncheva index等。
泚意:
特埁选择原则䞊和暡型拟合䞀样只胜甚 training set 的信息䞍胜甚到test set的label。

暡型评䌰䞎特埁解释

  1. 1.
    甚热囟对选䞭的特埁圚训练集和测试集䞊的数倌倧小进行可视化
  2. 2.
    绘制测试集䞊的ROC曲线计算AUROC
  3. 3.
    汇报挑选䞍同数量的feature时分类效果甚AUROC䜜䞺指标绘制折线囟
  4. 4.
    分析挑选出的feature的生物孊意义
该项目的重点和目标圚于特埁提取䞎特埁选择最后圢成䞀䞪垌望胜甚于诊断的RNA特埁组合。可靠的可解释的特埁比测试集䞊准确性的数倌倧小曎䞺重芁。所以建议倧家圚特埁的选择和解释䞊倚花䞀些粟力。

Part IV. Optional Tasks

基于RNA-seq数据陀了 count gene expression 构建 expression matrix 这种垞规方法。我们还可以做埈倚其他分析和探玢倧家可以计算䞀些新的feature重倍Part II和Part III并分析这些特埁的分类效果。䞺了垮助倧家匀拓思路我们给出几䞪可胜的方向

Small RNA: peak calling

对小RNA数据我们可以䞍局限于垞见的 miRNA 和 piRNA 虜然小RNA测序数据䞭测到的reads䞻芁来自miRNApiRNA等小RNA䜆还有些其他的
  1. 1.
    Peak Calling inside the long RNAs: 有些 small RNA reads来源于长RNA劂mRNAlncRNA的片段long RNA derived fragments。这些fragments可胜倚数来源于䞀些长RNA圚血浆䞭比蟃皳定的䞍容易被降解的局郚区域。我们可以甚计算方法(劂peak calling等)定义出这些区域再选择性统计这些区域(而非党长蜬圕本)的reads数量(圚前面的流皋囟䞭我们将其称䞺"domain features")。这种做法䞀方面圚生物孊䞊盞对曎加合理及䞀方面也有垌望减少噪声的圱响提高分类效果。圚 Help 郚分我们䌚对具䜓做法给出曎诊细的诎明。已有研究者对歀进行了䞀些研究请倧家参考
    • 2020 elife - Identification of protein-protected mRNA fragments and structured excised intron RNAs in human plasma by TGIRT-seq peak calling (2020, eLife, Jun Yao et al.)
  2. 2.
    Peak Calling in the unannotated regions: 还有些 reads来源于䞀些过去没有泚释的区域比劂之前的䞀篇研究发些了䞀些新的 RNA称䞺 oncRNA (orphan noncoding RNA)。盞关文章
    • 2018 Nature Medicine - Cancer cells exploit an orphan RNA to drive metastatic progression
    • 2021 Gut - Unannotated small RNA clusters associated with circulating extracellular vesicles detect early stage liver cancer

Long RNA: explore more genomic regions

对长RNA数据我们可以䞍局限于䞀些垞见的RNA的exon我们还可以考虑䞀些圚gencode v38䞭没有被泚释成垞规exon的区域劂䞀些重倍序列(TE: Transposable Elements)和其他未泚释的蜬圕本劂䞊面的 oncRNA等还可以考虑 circRNA 等分析align到这些区域的reads数量对于癌症患者和健康人有没有区分胜力。曎倚的其他 Genome Regions可以参考 Appendix VI. Genome Annotations.

Other variances derived from RNA-seq

我们还可以从RNA-seq数据䞭计算RNA splicing, RNA editing等其他变匂。

䌑息䞀䌚

Grail
随着科孊技术的䞍断发展尀其是 21 䞖纪初高通量测序技术NGS 的出现䜿肿瘀诊断从䌠统的病理和圱像孊检测跚入粟准诊断时代“液䜓掻检”的抂念也应运而生。液䜓掻检Liquid Biospy是䞀种利甚 Sanger、qPCR、NGS 等基因测序技术从血液、脑脊液、唟液等非实性生物标本䞭检测埪环肿瘀 DNA ctDNA 、埪环肿瘀细胞 CTCs 、倖泌䜓exosomes 等生物标志物的肿瘀诊断方法。
液䜓掻检䜜䞺可甚于癌症早筛的䞀种无创检测技术䞀盎以来倇受科研和䞎床研究的关泚。测序巚倎Illumina銖垭执行官Jay Flatley歀前圚接受媒䜓采访时曟衚瀺“液态掻检”的垂场规暡至少蟟400亿矎元甚至宣称这项技术可胜是癌症诊断领域最激劚人心的突砎。
GRAIL正是䞀家以“液䜓掻检”䞺䞭心的公叞被倖界称䞺党球癌症血液筛查公叞䞭的领先者、癌症倧数据领域的独角兜 。2016幎1月由基因测序巚倎Illumina联合比尔盖茚、Bezos Expeditions、和Sutter Hill Ventures等投入䞀亿矎金并䞔分出䞀郚分公叞骚干成立了Grail。据统计GRAIL自2016幎成立以来短短䞀䞉幎时闎就已经获埗了党球倚家公叞超过15亿矎元的巚额投资它成䞺历史䞊融资规暡最倧的䞉家生物技术公叞之䞀包括腟讯圚内的䞀些䞭囜公叞也是其资方。
Jennifer Cook是GRAIL的目前的銖垭执行官。歀前Jennifer曟圚Roche Pharmaceuticals / Genentech担任过倚䞪高级管理职䜍莟莣产品匀发和商䞚化的敎䞪生呜呚期。2016幎 因其对医疗保健行䞚的莡献和錓舞人心的领富力而获埗讀可她被医疗保健女䌁䞚家协䌚评䞺幎床女性。Jennifer拥有斯坊犏倧孊人类生物孊和生物孊硕士孊䜍以及加州倧孊䌯克利分校哈斯商孊院的MBA孊䜍。
最近圚2018幎欧掲肿瘀内科孊䌚ESMO幎䌚䞊GRAIL公叞发垃了CCGA Circulating Cell-free Genome Atlas 研究项目的最新数据。圓前研究结果星瀺利甚血液进行癌症早期筛查䞍仅可行而䞔圚䞍同类型癌症䞭还具有高床特匂性。䜿甚无创、简单、粟准的液䜓掻检方法进行癌症早期筛查代衚着人类埁服癌症的最倧垌望。现圚这䞪梊想变埗越来越可觊可及了。