cBioPortalとは
がんに由来する大規模・多種類オミクスデータを整理し、誰もが探索的なデータ利用をできるようにしたプラットフォーム。解析に明るく無くてもGUIで簡単に可視化ができる環境が用意されている。
上記の文献が発表された2013年当時は"TCGA + 10 studies"のデータが登録されていたようであるが、2021年現在は300近いデータが公開されている*1。登録されているデータの種類も豊富であり遺伝子変異・遺伝子発現・miRNA発現・Methylomeなどが含まれる。
GUIで出来ることについては(少し古いが)この文献が参考になる。ある遺伝子の特性を色々な癌種で調べたい場合は大体のニーズはGUIで満たせると思う。ここではcBioPortalのデータへプログラムからアクセスする方法についてまとめる。
R package cBioPortalData
RパッケージcBioPortalData
を使うとcBioPortalに登録されているデータをMultiAssayExperiment
クラスのオブジェクトとしてRに直接ロードすることができる。MultiAssayExperiment
クラスの使い方については以前のエントリで触れているので良ければご参照ください。
cBioPortalData
の使い方はマニュアルに詳細に記載せれている。大まかには以下のように使う。
library(cBioPortalData) # 利用可能なデータの確認 data("studiesTable", package = "cBioPortalData") head(studiesTable)
studiesTable
の中身をみるとcBioPortalで扱えるデータの充実度がわかります。どの研究がどの種類のデータを含んでいるかがわからないのは少し不便。ここを参照する必要があるらしい。
DataFrame with 6 rows and 6 columns cancer_study_id study_name description URL <character> <character> <character> <character> 1 paac_jhu_2014 Acinar Cell Carcinom.. Whole exome sequenci.. 2 mel_tsam_liang_2017 Acral Melanoma (TGEN.. Whole exome sequenci.. 3 all_stjude_2015 Acute Lymphoblastic .. Comprehensive profil.. 4 all_stjude_2016 Acute Lymphoblastic .. Whole-genome and/or .. 5 aml_ohsu_2018 Acute Myeloid Leukem.. Whole-exome sequenci.. 6 laml_tcga Acute Myeloid Leukem.. TCGA Acute Myeloid L.. http://gdac.broadins.. pack_build api_build <logical> <logical> 1 TRUE TRUE 2 FALSE TRUE 3 TRUE TRUE 4 TRUE TRUE 5 TRUE TRUE 6 TRUE TRUE
# MultiAssayExperimentの読み込み mae = cBioDataPack("paac_jhu_2014") # studiesTableの`cancer_study_id`列を参照 mae
A MultiAssayExperiment object of 2 listed experiments with user-defined names and respective classes. Containing an ExperimentList class object of length 2: [1] mutations_extended: RaggedExperiment with 2745 rows and 23 columns [2] mutations_mskcc: RaggedExperiment with 2745 rows and 23 columns Functionality: experiments() - obtain the ExperimentList instance colData() - the primary/phenotype DataFrame sampleMap() - the sample coordination DataFrame `$`, `[`, `[[` - extract colData columns, subset, or experiment *Format() - convert into a long or wide DataFrame assays() - convert ExperimentList to a SimpleList of matrices exportClass() - save all data to files