Aurora blog

バイオインフォ・バイオテクノロジーにまつわる情報

データベース調査①: cBioPortal

cBioPortalとは

がんに由来する大規模・多種類オミクスデータを整理し、誰もが探索的なデータ利用をできるようにしたプラットフォーム。解析に明るく無くてもGUIで簡単に可視化ができる環境が用意されている。

上記の文献が発表された2013年当時は"TCGA + 10 studies"のデータが登録されていたようであるが、2021年現在は300近いデータが公開されている*1。登録されているデータの種類も豊富であり遺伝子変異・遺伝子発現・miRNA発現・Methylomeなどが含まれる。

GUIで出来ることについては(少し古いが)この文献が参考になる。ある遺伝子の特性を色々な癌種で調べたい場合は大体のニーズはGUIで満たせると思う。ここではcBioPortalのデータへプログラムからアクセスする方法についてまとめる。

www.cbioportal.org

R package cBioPortalData

RパッケージcBioPortalDataを使うとcBioPortalに登録されているデータをMultiAssayExperimentクラスのオブジェクトとしてRに直接ロードすることができる。MultiAssayExperimentクラスの使い方については以前のエントリで触れているので良ければご参照ください。

auroratummy.hatenablog.com

cBioPortalDataの使い方はマニュアルに詳細に記載せれている。大まかには以下のように使う。

library(cBioPortalData)

# 利用可能なデータの確認
data("studiesTable", package = "cBioPortalData")
head(studiesTable) 

studiesTableの中身をみるとcBioPortalで扱えるデータの充実度がわかります。どの研究がどの種類のデータを含んでいるかがわからないのは少し不便。ここを参照する必要があるらしい。

DataFrame with 6 rows and 6 columns
      cancer_study_id             study_name            description                    URL
          <character>            <character>            <character>            <character>
1       paac_jhu_2014 Acinar Cell Carcinom.. Whole exome sequenci..                       
2 mel_tsam_liang_2017 Acral Melanoma (TGEN.. Whole exome sequenci..                       
3     all_stjude_2015 Acute Lymphoblastic .. Comprehensive profil..                       
4     all_stjude_2016 Acute Lymphoblastic .. Whole-genome and/or ..                       
5       aml_ohsu_2018 Acute Myeloid Leukem.. Whole-exome sequenci..                       
6           laml_tcga Acute Myeloid Leukem.. TCGA Acute Myeloid L.. http://gdac.broadins..
  pack_build api_build
   <logical> <logical>
1       TRUE      TRUE
2      FALSE      TRUE
3       TRUE      TRUE
4       TRUE      TRUE
5       TRUE      TRUE
6       TRUE      TRUE
# MultiAssayExperimentの読み込み
mae = cBioDataPack("paac_jhu_2014") # studiesTableの`cancer_study_id`列を参照
mae
A MultiAssayExperiment object of 2 listed
 experiments with user-defined names and respective classes.
 Containing an ExperimentList class object of length 2:
 [1] mutations_extended: RaggedExperiment with 2745 rows and 23 columns
 [2] mutations_mskcc: RaggedExperiment with 2745 rows and 23 columns
Functionality:
 experiments() - obtain the ExperimentList instance
 colData() - the primary/phenotype DataFrame
 sampleMap() - the sample coordination DataFrame
 `$`, `[`, `[[` - extract colData columns, subset, or experiment
 *Format() - convert into a long or wide DataFrame
 assays() - convert ExperimentList to a SimpleList of matrices
 exportClass() - save all data to files