Aurora blog

バイオインフォ・バイオテクノロジーにまつわる情報

シングルセル解析⑥: Ambient RNA contamination除去

はじめに

10X ChromiumをはじめとするDroplet-basedのシングルセル解析を行う場合にAmbient RNA contaminationが問題になることがある。Ambient RNAは細胞に由来しないRNAであり、処理中に壊れた細胞から溶出したRNAや、コンタミネーションなどが由来となる。Ambient RNAはDropletに混入して、あたかも細胞に由来するRNAのように検出されるため、遺伝子発現データを歪める恐れがある。ここではAmbient RNAの影響をデータから除外するための方法についてまとめる。

SoupX

SoupXは2020年にGigaScienceで発表された手法。以下のステップでAmbient RNAの影響を取り除く。

  1. Empty dropletの情報を使ってAmbient RNAのプロファイルを推定する
    • 総UMI数が閾値よりも少ないDroplet*1をEmpty dropletと仮定*2
    • Empty droplet由来のUMI数からAmbient RNAの遺伝子プロファイル b_.を求める
      •  b_g = \dfrac{\sum_{c \in D} n_{gc}}{\sum_{g \in G} \sum_{c \in D} n_{gc}}
      •  D: Empty droplets
      •  G: 全遺伝子
      •  n_{gc}: Droplet cにおける遺伝子gのUMI数
  2. 細胞種特異的なExclusive marker geneset  \Omegaを同定
    • 「細胞種Aでは発現していない遺伝子B」のような遺伝子セット*3を決める
    • 可能であれば既知情報に基づいてユーザーがマニュアルで設定する
    • マニュアルで決めるのが困難な場合は以下の方法で決める
      • 特定のクラスタに特異性の高い(tf-idfが1以上)の遺伝子を選び、次の基準で \Omegaを求める
      •  P_{c} = \sum_{k=n_{gc}}^{\infty} \dfrac{\lambda^{k}e^{-\lambda}}{k!}
      •  \lambda = \rho_{max}b_{g}n_{.c}: Ambient RNA \rho_{max}混入している場合の遺伝子gの平均UMI数
      •  \rho_{max}: Ambient RNAの最大混入量 (Default: 1.0)
      • ある細胞クラスタに含まれる全細胞の P_{c}が0.05以上となる遺伝子セットをExclusive marker  \Omegaとする
  3. Ambient RNAの混入率 \rhoを細胞ごとに推定する
    • Exclusive marker geneの発現情報をもとに推定する
      •  \rho = \dfrac{\sum_{g,c \in \Omega} n_{gc}}{\sum_{g,c \in \Omega} n_{.c} b_{g}}
  4. 各細胞の発現プロファイルを補正する

引用元:Young et al. “ SoupX removes ambient RNA contamination from droplet-based single-cell RNA sequencing data” GigaScience. 2020. https://doi.org/10.1093/gigascience/giaa151. CC-BY 4.0

https://academic.oup.com/gigascience/article/9/12/giaa151/6049831academic.oup.com

DecontX

DecontXは2020年にGenome Biologyで発表された手法。トピックモデリングのような以下の階層ベイズモデルを使ってAmbient RNAを分離する。入力データはUMIカウントデータで、細胞のクラスタリングを事前情報として与える必要がある。

  •  p(X,Z,Y,\theta|\phi,a_{1},a_{2}) = \Pi_{j=1}^M p(\theta_{j} | a_{1},a_{2}) \Pi_{t=1}^{N_{j}} ( (p(y_{jt}=1 | \theta_j) p(x_{jt}=g | \phi_{z_j}))^{I(y_{jt}=1)} ( (p(y_{jt}=0 | \theta_j) p(x_{jt}=g | \phi_{-z_j}))^{I(y_{jt}=0)} )

  •  k: 細胞種 (細胞クラスタ) の数

  •  M: 細胞数
  •  N_j: 細胞jのUMI数
  •  p(y_{jt}=1 | \theta_j) = Bernoulli(\theta_j): 細胞jのUMI tが細胞に由来する確率
  •  p(x_{jt}=g | \phi_{z_j}) = Categorical(\phi_{z_j}): 細胞jのUMI tが細胞種 z_jに由来するとき、遺伝子gに由来する確率
  •  p(y_{jt}=0 | \theta_j) = Bernoulli(\theta_j): 細胞jのUMI tがAmbient RNAに由来する確率
  •  p(x_{jt}=g | \phi_{-z_j}) = Categorical(\eta_{z_j}): 細胞jのUMI tが細胞種 z_j以外のAmbient RNAに由来するとき、遺伝子gに由来する確率
  •  \eta_{z_j}) = \sum_{k \neq z_{j}} w_k \phi_{k}: Ambient RNAに含まれる各遺伝子の割合
  •  \phi \sim Dir(\beta) : パラメータ \phiの事前分布
  •  \theta \sim Beta(\alpha_1, \alpha_2): パラメータ \thetaの事前分布

引用元:Yang et al. “Decontamination of ambient RNA in single-cell RNA-seq with DecontX” Genome Biol. 2020. https://doi.org/10.1186/s13059-020-1950-6. CC-BY 4.0

genomebiology.biomedcentral.com

CellBender remove-background

2019年にbioRxivに公開された方法。以下のようにUMIカウントデータをモデリングしてバックグラウンドの推定を行う。この手法ではバックグラウンドがAmbient RNAに由来するだけでなく、Barcode swapping (PCRでキメラ配列が形成されることで誤ったバーコードが付与される) についても考慮している点が特徴である。

  •  \chi_{ng} = NN_{\chi}(z_{n}): Droplet nにおけるノイズ除去後の遺伝子gの割合 (NN=Neural network)
  •  z_{n} \sim Normal(0, 1): Droplet nを表す潜在ベクトル (N(0, 1)の正規分布を事前分布に設定)
  •  d_{n}^{drop} \sim LogNormal(d_{\mu}^{drop}, d_{\sigma}^{drop}): Size factor (=バックグラウンド由来のUMI量)
  •  d_{n}^{cell} \sim LogNormal(d_{\mu}^{cell}, d_{\sigma}^{cell})]: Size factor (=細胞由来のUMI量)
    •  d_{\mu}^{drop}, d_{\sigma}^{drop}, d_{\mu}^{cell}, d_{\sigma}^{cell}: ハイパーパラメータ *5
  •  y_n \sim Bernoulli(p): Droplet nに細胞が含まれていたか否か
    •  p: 予想解析細胞数をもとに決める
  •  \rho_n \sim Beta(\rho_{\alpha}, \rho_{\beta}): Droplet nにおける他の細胞由来 (上述のBarcode swappingによる) UMIの割合
  •  \phi \sim Gamma(\phi_{\alpha}, \phi_{\beta})
  •  c_{ng} \sim NB( (1-\rho_n)(y_{n}d_{n}^{cell} \chi_{ng} + d_{n}^{drop} \chi_{g}^{a}) + \rho_n (y_{n}d_{n}^{cell} + d_{n}^{drop}) \bar{\chi_{g}}, \phi): 細胞nにおける遺伝子gのUMI数
    •  \bar{\chi_{g}}: 全細胞での遺伝子gの平均割合 (Barcode swappingでは他の全細胞からランダムに転写物が混入するので)
    •  \chi_{g}^{a}: Ambient RNAにおける遺伝子gの割合 (これは推定する)

引用元:Fleming et al. “CellBender remove-background: a deep generative model for unsupervised removal of background noise from scRNA-seq datasets” bioRxiv. 2019. https://doi.org/10.1101/791699 . CC-BY 4.0

www.biorxiv.org

*1:論文では10 UMI以下

*2:SoupXのデフォルトは100 UMIが閾値に設定されている

*3:例示されていたのはIg関連遺伝子やヘモグロビン関連遺伝子

*4:m_gcが負の場合は0とする

*5:データから自動決定するらしい