はじめに

10X ChromiumをはじめとするDroplet-basedのシングルセル解析を行う場合にAmbient RNA contaminationが問題になることがある。Ambient RNAは細胞に由来しないRNAであり、処理中に壊れた細胞から溶出したRNAや、コンタミネーションなどが由来となる。Ambient RNAはDropletに混入して、あたかも細胞に由来するRNAのように検出されるため、遺伝子発現データを歪める恐れがある。ここではAmbient RNAの影響をデータから除外するための方法についてまとめる。

SoupX

SoupXは2020年にGigaScienceで発表された手法。以下のステップでAmbient RNAの影響を取り除く。

Empty dropletの情報を使ってAmbient RNAのプロファイルを推定する
- 総UMI数が閾値よりも少ないDroplet*1をEmpty dropletと仮定*2
- Empty droplet由来のUMI数からAmbient RNAの遺伝子プロファイルを求める
  - $b_g = \dfrac{\sum_{c \in D} n_{gc}}{\sum_{g \in G} \sum_{c \in D} n_{gc}}$
  - $D$ : Empty droplets
  - $G$ : 全遺伝子
  - $n_{gc}$ : Droplet cにおける遺伝子gのUMI数
細胞種特異的なExclusive marker geneset を同定
- 「細胞種Aでは発現していない遺伝子B」のような遺伝子セット*3を決める
- 可能であれば既知情報に基づいてユーザーがマニュアルで設定する
- マニュアルで決めるのが困難な場合は以下の方法で決める
  - 特定のクラスタに特異性の高い(tf-idfが1以上)の遺伝子を選び、次の基準で $\Omega$ を求める
  - $P_{c} = \sum_{k=n_{gc}}^{\infty} \dfrac{\lambda^{k}e^{-\lambda}}{k!}$
  - $\lambda = \rho_{max}b_{g}n_{.c}$ : Ambient RNAが $\rho_{max}$ 混入している場合の遺伝子gの平均UMI数
  - $\rho_{max}$ : Ambient RNAの最大混入量 (Default: 1.0)
  - ある細胞クラスタに含まれる全細胞の $P_{c}$ が0.05以上となる遺伝子セットをExclusive marker $\Omega$ とする
Ambient RNAの混入率を細胞ごとに推定する
- Exclusive marker geneの発現情報をもとに推定する
  - $\rho = \dfrac{\sum_{g,c \in \Omega} n_{gc}}{\sum_{g,c \in \Omega} n_{.c} b_{g}}$
各細胞の発現プロファイルを補正する
- $m_{gc} = n_{gc} - \rho n_{.c} b_{g}$ *4

引用元：Young et al. “ SoupX removes ambient RNA contamination from droplet-based single-cell RNA sequencing data” GigaScience. 2020. https://doi.org/10.1093/gigascience/giaa151. CC-BY 4.0

https://academic.oup.com/gigascience/article/9/12/giaa151/6049831academic.oup.com

DecontX

DecontXは2020年にGenome Biologyで発表された手法。トピックモデリングのような以下の階層ベイズモデルを使ってAmbient RNAを分離する。入力データはUMIカウントデータで、細胞のクラスタリングを事前情報として与える必要がある。

$p(X,Z,Y,\theta|\phi,a_{1},a_{2}) = \Pi_{j=1}^M p(\theta_{j} | a_{1},a_{2}) \Pi_{t=1}^{N_{j}} ( (p(y_{jt}=1 | \theta_j) p(x_{jt}=g | \phi_{z_j}))^{I(y_{jt}=1)} ( (p(y_{jt}=0 | \theta_j) p(x_{jt}=g | \phi_{-z_j}))^{I(y_{jt}=0)} )$
$k$ : 細胞種 (細胞クラスタ) の数
$M$ : 細胞数
$N_j$ : 細胞jのUMI数
$p(y_{jt}=1 | \theta_j) = Bernoulli(\theta_j)$ : 細胞jのUMI tが細胞に由来する確率
$p(x_{jt}=g | \phi_{z_j}) = Categorical(\phi_{z_j})$ : 細胞jのUMI tが細胞種 $z_j$ に由来するとき、遺伝子gに由来する確率
$p(y_{jt}=0 | \theta_j) = Bernoulli(\theta_j)$ : 細胞jのUMI tがAmbient RNAに由来する確率
$p(x_{jt}=g | \phi_{-z_j}) = Categorical(\eta_{z_j})$ : 細胞jのUMI tが細胞種 $z_j$ 以外のAmbient RNAに由来するとき、遺伝子gに由来する確率
$\eta_{z_j}) = \sum_{k \neq z_{j}} w_k \phi_{k}$ : Ambient RNAに含まれる各遺伝子の割合
$\phi \sim Dir(\beta)$ : パラメータ $\phi$ の事前分布
$\theta \sim Beta(\alpha_1, \alpha_2)$ : パラメータ $\theta$ の事前分布

引用元：Yang et al. “Decontamination of ambient RNA in single-cell RNA-seq with DecontX” Genome Biol. 2020. https://doi.org/10.1186/s13059-020-1950-6. CC-BY 4.0

genomebiology.biomedcentral.com

CellBender remove-background

2019年にbioRxivに公開された方法。以下のようにUMIカウントデータをモデリングしてバックグラウンドの推定を行う。この手法ではバックグラウンドがAmbient RNAに由来するだけでなく、Barcode swapping (PCRでキメラ配列が形成されることで誤ったバーコードが付与される) についても考慮している点が特徴である。

$\chi_{ng} = NN_{\chi}(z_{n})$ : Droplet nにおけるノイズ除去後の遺伝子gの割合 (NN=Neural network)
$z_{n} \sim Normal(0, 1)$ : Droplet nを表す潜在ベクトル (N(0, 1)の正規分布を事前分布に設定)
$d_{n}^{drop} \sim LogNormal(d_{\mu}^{drop}, d_{\sigma}^{drop})$ : Size factor (=バックグラウンド由来のUMI量)
]: Size factor (=細胞由来のUMI量)
- $d_{\mu}^{drop}, d_{\sigma}^{drop}, d_{\mu}^{cell}, d_{\sigma}^{cell}$ : ハイパーパラメータ *5
: Droplet nに細胞が含まれていたか否か
- $p$ : 予想解析細胞数をもとに決める
$\rho_n \sim Beta(\rho_{\alpha}, \rho_{\beta})$ : Droplet nにおける他の細胞由来 (上述のBarcode swappingによる) UMIの割合
$\phi \sim Gamma(\phi_{\alpha}, \phi_{\beta})$
: 細胞nにおける遺伝子gのUMI数
- $\bar{\chi_{g}}$ : 全細胞での遺伝子gの平均割合 (Barcode swappingでは他の全細胞からランダムに転写物が混入するので)
- $\chi_{g}^{a}$ : Ambient RNAにおける遺伝子gの割合 (これは推定する)

引用元：Fleming et al. “CellBender remove-background: a deep generative model for unsupervised removal of background noise from scRNA-seq datasets” bioRxiv. 2019. https://doi.org/10.1101/791699 . CC-BY 4.0

www.biorxiv.org

*1:論文では10 UMI以下

*2:SoupXのデフォルトは100 UMIが閾値に設定されている

*3:例示されていたのはIg関連遺伝子やヘモグロビン関連遺伝子

*4:m_gcが負の場合は0とする

*5:データから自動決定するらしい