# 4.Single Cell Data Analysis

**Single-cell multi-omics study of immune thrombocytopenia**

## 0) 背景介绍

原发免疫性血小板减少症（primary immune thrombocytopenia，ITP）是常见的一种获得性、自身免疫性出血性疾病，其特征是血小板计数减少和出血风险增加，临床表现复杂多变。重症ITP患者出血严重，死亡率高。目前ITP患者血小板减少的原因还不明确，现有研究认为ITP的发病机制主要分为血小板的外周破坏和骨髓损失[1](https://en.wikipedia.org/wiki/Immune_thrombocytopenic_purpura)。

外周损伤主要通过脾巨噬细胞吞噬血小板，呈递血小板源性抗原，激活自身反应性 CD4+ T 细胞和自身反应性 B 细胞，产生抗血小板抗体。此外，循环中的自身反应性 CD8+ T 细胞也参与血小板破坏；骨髓损伤主要包括巨噬细胞对和自身抗体结合的巨核细胞产生细胞毒性反应，T 细胞被趋化到骨髓损害血小板的产生，以及血小板生成素（TPO）水平异常导致血小板生成不足[2](https://www.sciencedirect.com/science/article/pii/S156899721730109X?via%3Dihub)。

近年来，单细胞测序技术在多种疾病上的应用使得我们能更精确地捕捉到细胞分化异常和细胞间相互作用，以及发现有独特功能的细胞亚群。我们希望通过单细胞多组学技术包括单细胞转录组和免疫受体库，对 ITP 的发病机制进行深入探索，为ITP 的病人的精准治疗提供新的思路。

## 1) 数据介绍

* 我们提供了ITP病人骨髓BMMC 10X 5' Chromium Single Cell基因表达GEX和BCR测序数据，以及从BMMC中单独流式分选的CD34+造血干/祖细胞（hematopoietic stem/progenitor cells，HSPC）的10x 3’ Chromium Single Cel基因表达GEX数据，如下图所示:

![](/files/udiHDj78qil7zhVpUom9)

* 我们还提供了健康人BMMC以及HSPC的10x 3' Chromium Single Cell基因表达GEX数据;
* 此外，我们还提供用于完成Part I练习的部分原始数据；

### **数据集下载方式**

* 方法 1，有T集群账号的同学可以直接调用T集群的`/data/2023-bioinfo-shared/data/`目录下文件。
* ~~方法 2，远程下载这些数据： “Download Links of Assignments" @清华云盘。~~

## 2) 报告要求

* 提交一份完整的工作报告(中英文不限)，提供主要的代码。
* 请读者使用我们提供的数据，参考 [Help](/teaching/part-v.-assignments/3.single-cell-data-analysis-for-sle/help.md) 中提供的相关信息，完成以下工作:

### Part I. Prepare count Matrix and BCR/TCR assembly

在第一部分，我们要求大家完成基因表达的定量，BCR序列的组装。

* scRNA-seq：使用cellranger count对单细胞基因表达进行定量
* scBCR-seq: 使用cellranger vdj对单细胞V(D)J序列进行组装，以生成所有观察到的GEMS/条形码中每个链的全长转录本（contig）

### Part II. Cell annotation and clonetype identification

在该部分，我们要求大家完成scRNA-seq，scBCR-seq数据进行预处理，以获得后续分析中需要的可以输入的表达矩阵或文件，从数据中去除不必要的影响，提高信噪比，以用来下游识别不同的细胞亚群；对于适应性免疫受体V(D)J数据中的BCR数据，进行CDR3序列的注释，进行克隆型clonetype和isotype鉴定。

* GEX数据:
  * 可以使用Seurat(R)或者scanpy(python)工具进行以下分析:
  * 数据整合及其质控，过滤低质量的细胞和低表达的基因，环境污染的RNA（可选）和doublets（如果使用R语言Seurat包，则需要分别对每个样本去除doublets后再进行整合）
  * 对表达矩阵进行归一化，同过将可观察方差缩放到指定范围来调整数据集中的原始计数，以适应可变采样效应
  * 选择特征基因和PCA降维，选择合适的PC数目
  * 用计算方法去除batch effect，例如harmony、CCA，详情可以查阅不同校正方法的原理和代码实现
  * 聚类及其可视化，选择一种聚类算法以及合适的resolution参数进行细胞亚群的聚类，并使用UMAP或tSNE方法对聚类结果降维后进行可视化
  * 细胞亚群注释，请从文献以及常用数据库（如CellMarker2.0）中整理所需要的cell marker list进行细胞亚群的手工注释（必要时可提取初步注释后某一大类的细胞亚群创建Seurat对象或AnnData对象，使用更高的resolution进一步聚类并进行更细致的细胞注释）
* BCR数据:
  * 可以使用Immcantation suite进行以下分析:
  * V(D)J基因重新注释，并转化文件格式为AIRR格式
  * 进行数据子集化以产生只包含productive重链序列
  * 基于重链计算最近邻距离，确定克隆聚类的阈值（即在此阈值以下的序列是克隆相关的）
  * 确定克隆型clonetype，用于识别来自同一原始naive细胞的一组序列
  * 重建germline序列，在克隆扩增和SMH过程中引入突变之前，找出共同祖先的germline序列

### Part III. Biological Analysis

在第三部分，请尝试进行细胞组成分析cell compositional analysis、拟时分析Trajectory analysis，克隆丰度和多样性Clone abundance and diversity等下游分析，尝试回答以下几个生物学问题？

1. 在完成细胞注释的基础上进行细胞类型的统计，ITP与健康人在骨髓和外周血中免疫细胞组成有什么差异？
2. 通过伪时间轨迹分析（推荐使用R包monocle2），ITP和健康人造血干细胞HSPC分化上有什么差异？
3. ITP骨髓中BCR isotype组成是什么样的，不同isotype之间克隆多样性、体细胞超频突变是否具有差异？


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://book.ncrnalab.org/teaching/part-v.-assignments/3.single-cell-data-analysis-for-sle.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
