トップページ > 研究組織一覧 > 分野・独立ユニットグループ > 新領域創成プロジェクトグループ > 希少がん研究分野 > 研究室紹介 > Gene Set Enrichment Analysis(GSEA)について

Gene Set Enrichment Analysis(GSEA)について

GSEAとは

発現解析の論文でよく使われるGSEA(外部サイトにリンクします)は「二群間で発現が異なる遺伝子が特定の遺伝子セットに偏っているかどうか」を調べる手法です。

遺伝子セットとは、特定のパスウェイに含まれる遺伝子リスト、Gene Ontologyの各タームに対応する遺伝子リスト、特定の疾患で発現が高い(または低い)ことが報告されている遺伝子リストなどを指します。よく使われるのはMolecular Signatures Database(MSigDB)(外部サイトにリンクします)で公開されている遺伝子セットで、その中のHallmarksやGO、Pathwayの遺伝子セットを使うことが多いです。所定のファイルフォーマット(gmtフォーマット)で記載すれば自分で遺伝子セットを定義することもできます。

GSEAの概要

GSEAへ入力するのは遺伝子の発現情報です。タブ区切りテキストで、列がサンプル、行が遺伝子です。
テキストファイルのイメージを図1に示します(わかりやすさのため表にしていますが、本当はタブ区切りです)。

whatisgsea_fig1.PNG

図1


サンプルと群の対応関係を定義するテキストファイルも用意します。テキストファイルのイメージを図2に示します。
図2は以下の情報を示しています。

  • サンプル数は4つ、群数は2つで「before」と「after」(★何かの処理前後のイメージ)
  • 発現情報ファイルのサンプルの群は左から「before(→SAMPLE_1)」「before(→SAMPLE_2)」「after(→SAMPLE_3)」「after(→SAMPLE_4)」

whatisgsea_fig2.PNG

図2


これらの情報をGSEAへ入力し、比較する2群を指定すると、群2に比べて群1で発現が高い順に遺伝子がソートされます。群1をafter、群2をbeforeとした場合、この例では図3のような順でソートされます。

whatisgsea_fig3.PNG

図3


解析に用いる遺伝子セットをMSigDBなどから選んで(あるいはオリジナルの遺伝子セットをgmtフォーマットで作成して)指定します。指定した遺伝子セットに含まれる遺伝子がソートした並びのどこに出てくるか調べ、偏りがあるか検定します。

例えば図4のようになった場合は(説明のため遺伝子数が増えています)、処理により発現が上がった遺伝子が「DNA修復に関連する遺伝子セット」に偏っていて、発現が下がった遺伝子が「脂質代謝に関連する遺伝子セット」に偏っていることがわかります。

whatisgsea_fig4.PNG

図4

 GSEAの結果として論文でよく見るのが図5のようなグラフです([1], Fig2)。X軸は遺伝子で、図4の通りソートされています。指定した遺伝子セット(図5の例では「X染色体の不活性化に関わる遺伝子セット」)について、左側からその遺伝子が遺伝子セットに含まれるか見ていき、含まれればスコアを+1、含まれなければスコアを-1します。遺伝子セットに含まれる遺伝子が左側に偏っていればグラフは図5のように左上に山があるグラフになります。この結果から例えば「処理により発現が上がった遺伝子はX染色体の不活性化に関連するものに偏っているようだ」というように考えます。
この結果から、薬の作用機序や疾患の発症・予後機序の推測などを行います。

gsea_sample.PNG
図5

GSEAを実行するには

GSEAを実行するJavaプログラムが公開されています。無料でダウンロードして実行できます。実際にGSEAを実行する手順をそのうちに追記したいと思います。

チュートリアル
http://software.broadinstitute.org/gsea/doc/desktop_tutorial.jsp(外部サイトにリンクします)

参考文献

1: Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proc Natl Acad Sci U S A. 2005 Oct 25;102(43):15545-50. [PubMed](外部リンク)


(文責:服部、最終更新:2019.1.16 間違いのご指摘などはehattori●ncc.go.jp(●を@に置き換えてください)まで)