コンテンツにスキップ

利用者:Shinmura Shuichi

癌の遺伝子解析(1)

1.「癌の遺伝子解析」の定義と3つの問題

ここで取り上げる「癌の遺伝子解析」とは、癌症例n1件と正常あるいは他の癌症例n2件の計n(= n1+ n2)件のデータをp個のMicroarrayのような遺伝子の発現量などで2クラス判別し、癌症例と正常症例(あるいは他の癌症例)を良く分ける遺伝子の組を見つけることと考える。
 ハーバード大学医学部教授のGolubら[4]は、Scienceに発表した論文の中で彼らは30年以上研究を行っているが、Microarrayデータから統計的に有効な結論を得ていないと真摯に述べている。
 一般的にnが100症例程度でpが1万件前後のn<<pのデータの分析で、次の3つの問題があると指摘されている。

(1)「Small n Large p」問題は、この問題の困難な説明によく使われている。例えば、早い時期にFisherの線形判別関数(Linear Discriminant Function,LDF)のF-LDFで遺伝子解析を行う研究が行われ、解説書も出版された。この問題はわずか100件のデータで1万個の分散共分散行列を推定することが難しく、少なくとも1995年以前に統計の研究テーマとして取り上げられたが、いつの間にか研究発表がなくなっていった。統計ソフトのJMPは、2015年の米国、ヨーロッパ、北京、東京の4都市で開催しているDiscovery Summitで、創業者のJohn Sall博士が基調講演「横長データの統計解析」を行った。この講演で、JMP[6]がこの問題を扱うF-LDFを開発し、Microarrayデータで誤分類数(Number of Misclassification, NM)が0でない例を報告した。無償で最新版のJMPを借りて判別したところNMは確かに0でなかった。しかし新村[8]- [10]が開発した誤類数最小化(Minimum Number of Misclassifications, MNM)基準による最適判別関数(Revised IP-OLDF, RIP)[27]で判別すると、数秒でMNM=0の結果が得られた。すなわち、既存の正規分布を仮定した分散共分散行列に基づく判別関数は、線形分離可能なデータ(Lineary Separable Data, LSD)を正しく判別できない致命的な欠点がある。 LSD判別が理論的に正しく行えるのは、Vapnik[33]が導入したハードマージン最大化SVM(H-SVM)とRIPだけである。しかも、LSD判別に限れば、計算時間は非常に速い。また、n<<pのデータの分散共分散行列を計算する必要がなく問題なく対応できる。 (2)この問題が難しいのは、「NP-hard」であるからといわれている。1万個の遺伝子を説明変数として判別分析する場合、(210000-1)個のモデルがある。この中からある基準に該当する最適なモデルを探すのは一般的に困難である。しかし、多くの遺伝子解析の研究で「癌遺伝子の定義」がはっきりしていない点である。それにもかかわらずLASSOで(重回帰分析や)判別分析を行い、判別係数の幾つかを0にする研究に期待が集まっている。判別係数の幾つかを0にすることは、部分空間のMNM=0になる最適解を求めることであるという明確な目的が見えない。「癌の遺伝子解析(3)-LSD判別分析に持ちいる8種のLDF- 」で詳細を示すが、これは多くの判別関数ではできない。これに対して、整数計画法(Integer Programming, IP)のアルゴリズムで分枝限定法(Branch & Bound Method)を用いているLINGO[7]は、簡単に多くの判別係数を自然に0にできる。このことは自然に変数選択できることであるが、小さな遺伝子の部分空間の最適解(MNM=0)を見つけることでもある。 (3)Big DATAは「大きな雑音の中に信号が埋もれていて、その信号を取り出すことが困難」と指摘されている。そして工学的に各種のフィルタリング・システムが提案されている。この場合も、何を信号と考えるか明確でない。「癌の遺伝子解析」が30年以上成功せず、周辺の研究者は「遺伝子の発現量で癌遺伝子を発見することはできない」と考えている風潮がある。しかし次で紹介するGolubらを含む米国の主要な6研究グループの公開データは、2015年10月28日から12月20日まででRIPで判別すると、全てがMNM=0であり、小さなMNM=0になるSMの排他的な和集合になることが分かった([27]の8章)。すなわち、信号区間と雑音空間に自然に分離できた。すなわちLSDの判別で、MNMが1以上になるモデルは考慮する必要がなく、雑音と明確に定義できる。数多くあるLSDの部分空間で、何が癌の医学診断で重要かを次の研究課題にすべきである。  これらのSMは10から30個程度の遺伝子の組であり、癌症例と正常症例をMNM=0で分けるので、統計的な「癌遺伝子」と定義してもよいと考える。これらが医学的に癌遺伝子であるか否かは、専門家による検証が必要である。  癌の遺伝子解析は以下の点を今後明らかにすべきである。 ・研究に用いていないMicroarrayデータも、LSDであるか否かを検証する必要がある。もし、研究用に厳しく癌症例と正常症例が集められておれば、多くがLSDになることを期待している。もしLSDでない例があったとしても、結果が明瞭なLSDのデータの研究を最初に行うべきである。結果が不明瞭なオバーラップするデータで比較評価すべきではない。 ・これまで行われているLASSOや工学的なフィルタリング手法は、すでに結果が出ている6種類のデータで追試し、比較し、その成果を公表すべきである。  ここ10年に行われている癌の遺伝子解析は、判別分析が役に立たないためかt検定やクラスター分析が多く用いられている。 ・t検定で、おそらくt値が正の大きなものを癌遺伝子として探していると考えられる。しかしSMに含まれる遺伝子のt値は、正の値からほぼ0になるもの、そして負になるものがある。負になるものは癌の抑制遺伝子に関係していると考えられる。ほぼ0になるものは、おそらく他の遺伝子と交互作用があると考えられる。結論は、t値が大きなものを癌遺伝子とする根拠はなく、t値で癌遺伝子を探せない。また癌のデータでは、異常値のためt値が大きく影響を受けることを考えていないようだ。 ・クラスター分析が「癌の遺伝子解析」に限らず医学分野で多用されている。これは、クラスター分析は数多くの手法がありオプションの選択で種々のクラスターが得られて、医学的な研究成果を説明するための表現手段として有用なためと考えられる。クラスター分析で癌の遺伝子を特定することは難しいと考える。

2.癌遺伝子の研究に有用な6種類のMicroarrayデータ  癌遺伝子を統計的に特定する研究は、近年流行のビッグ・データ解析の走りである。米国の6研究グループが、表1に示す6種類のMincroarrayデータを集め、研究成果を著名な学術誌に発表している。これらの論文は、Datasets欄の文献番号に対応している。そして、他の研究者が検証できるように公開している。  Jefferyら[5]は、彼ら自身それらを用いてFeature Selection Method などの研究を行うと同時に、HPからダウンロードできるように6種類のデータを公開していて便利である。ただし、実際の遺伝子名が扱いにくいので他の別名に置き換えている問題がある。  新村[26]は、2015年10月28日にこれらのデータをダウンロードし、Shippら[30]のデータを、MNM基準による最適判別関数の RIPとH-SVMとF-LDFで2群判別を行った。JMPのロジスティック回帰では、n<<pのデータの分析は行えない。  RIPでは、MNM=0であり僅か32個の遺伝子の判別係数が0でなく、残り7065個が自然に0になった。H-SVMのNMは0であるが、判別係数は0になるものがなかった。このため、RIPが求めた32個の遺伝子でNM=0になるかどうかは、すべてのモデルを探索する必要があり「NP-hard」な困難な問題になる。これは、多くの判別関数が部分空間のMNM=0になる最適解を見つけることができないためである(「癌の遺伝子解析(3)-LSD判別分析に持ちいる8種のLDF- 」参照)。  一方、JMPは2015年11月の東京で開催されたDiscovery Summitでn<<pに対応したF-LDFのリリースを発表したが、ShippらでNM=29になった。MNM=0になる多くのデータでも従来の統計的判別関数が正しくNM=0と判別できないことが、30年以上「癌の遺伝子解析」が行えない直接的な理由である。このため、色々なアプローチが提案されいるが、「癌の遺伝子解析」には直接的に役に立たない。癌症例と正常症例あるいは異なった癌症例を遺伝子から癌遺伝子を特定できるのは、判別関数による直接のアプローチだけである。 すなわち、ShippらのデータはLSDである。LSDデータを理論的に判別できるのはH-SVM(NM=0)とRIP(MNM=0)だけである。Golubら[4]は、30年以上統計的に癌遺伝子の研究を行っていることを述べている。「なぜ、がんの遺伝子解析」が30年以上成功しなかったかは、統計的判別関数がLSDを正しく判別できないためである。  ただし、H-SVMは正しくMicroarrayデータがLSDであることを判別できる。なぜこれまでの研究で、少なくともこれらの6種類は全てLSD(MNM=0)という報告がなかったかである。これは推測の域を出ないが、H-SVMはオーバーラップしている多くの現実のデータに適用するとエラーになり、ソフトマージンSVM(S-SVM)を用いる必要があるため、誰も実際にH-SVMで判別していないのではないかと考えられる。さらに多くの研究者は、LSD判別分析の研究を重要と考えず、S-SVMを適用あるいはKernel SVMに注目したからでないかと考える。  この6種のデータに限定すればMNM=0であるので、一応癌遺伝子とは「癌症例と正常症例をMNM=0またはNM=0となる遺伝子の組み合わせ」と仮に定義する。そしてこのような遺伝子の空間と部分空間をマトリョースカ(Matryoshka)と呼ぶことにする。RIPはフルモデルの遺伝子空間から一気に32個の遺伝子の部分空間を自然に変数選択できた。これをSMと呼ぶ。これは、この分野でいろいろな“Feature Sellection Method”が提案されているが、これらの研究が必要ないことを示す。また、統計ではLassoという研究で、幾つかの判別係数を0にすることを研究している。しかし数千個の判別係数を0にすることなどを想定していないようだ。分散共分散行列に基づく正規分布を仮定した判別手法では、 1) LSDを正しくNM=0と判別できない。 2) これができないのに、MNM=0になる低次元のMatryoshkaは見つけられない。  この主張が正しくないことを証明するのは簡単である。これまでの研究で開発された手法で表1のデータを判別して結果を比較してみれば明らかになる。NMが0でないオバーラップしたデータで研究し評価しても結果が明瞭でない。折角MNM=0になる有用なデータが公開されているので、このデータで検証すべきである。また、多くのMNM=0になる排他的なSMを見つけたので他の統計研究でも有用である。JMP欄の数字はNMであり括弧の数字は誤分類確率である。すなわち過去の判別分析を用いた研究で、誤分類確率が高くて中断した研究でも重要な研究であれば、MNM=0である可能性を考えてみなおす必要がある。判別分析には、判別分析に5個の大きな問題があり[10]、[27]の1章で、また5章では試験の合否判定を学生がとった得点の大門で合否判定できないことを紹介している。すなわち、合計得点で誰もが合格と不合格のLSDを正しく判別できるのに、統計的判別関数を使うとできないということは注意すべきである。

表1 6種類のMicroarrayデータ

Datasets 2群と患者数 遺伝子数 JMP SM
Alon et al. Normal (22) vs. tumour cancer (40) セル内のテキスト セル内のテキスト BGS130
Alon et al. [1] Normal (22) vs. tumour cancer (40) 2000 5(8.0) 64 [11]
Singh et al. [31] Normal (50) vs. tumour prostate (50) 12625 2(1.6) 179 [12]
Golub et al. [3] All (47) vs. AML (25) 7129 8(11.6) 69 [10]
Tien et al. [33] False (36) vs. True (137) 12625 3(3.9) 159 [13]
Chiaretti et al. [2] B-cell (95) vs. T-cell (33) 12625 10(9.8) 95 [14]
Shipp et al. [30] Follicular lymphoma (19) vs. DLBCL (58) 7130 29(16.8) 130 [9]


Reference

[1] Alon U, Barkai N, Notterman DA, Gish K, Ybarra S, Mack D, Levine AJ (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc. Natl. Acad Sci USA, 96(12): 6745-6750

[2] Chiaretti S, Li X, Gentleman R, Vitale A, Vignetti M, Mandelli F, Ritz J, Foa R (2004) Gene expression profile of adult T-cell acute lymphocytic leukemia identifies distinct subsets of patients with different response to therapy and survival. Blood April 1, 2004, 103/7: 2771-2778

[3] Flury B, Riedwyl H (1988) Multivariate Statistics: A Practical Approach. Cambridge University Press New York

[4] Golub TR, Slonim DK, Tamayo P, Huard C, Gaasenbeek M, Mesirov JP, Coller H, Loh ML, Downing JR, Caligiuri MA, Bloomfield CD, Lander ES (1999) Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring. Science 286(5439): 531-537

[5] Jeffery IB, Higgins DG, Culhane C (2006) Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data. BMC Bioinformatics 7:359: 1-16 (doi: 10.1186/1471-2105-7-359)

[6] Sall JP, Creighton L, Lehman A (2004) JMP Start Statistics, Third Edition. SAS Institute Inc. USA (Shinmura S. edits Japanese version)

[7] Schrage L (2006) Optimization Modeling with LINGO. LINDO Systems Inc. (Shinmura S translates Japanese version)

[8] Shinmura S (2000b) Optimal Linear Discriminant Function using Mathematical Programming. Dissertation, March 2000: 1-101, Okayama University, Japan

[9] Shinmura S (2010a) The optimal linearly discriminant function. Union of Japanese Scientist and Engineer Publishing, Japan (ISBN 978-4-8171-9364-3)  (最適線形判別関数,日科技連)

[10] Shinmura S (2015c) Four Serious Problems and New Facts of the Discriminant Analysis. In: Pinson E, Valente F, Vitoriano B (ed) Operations Research and Enterprise Systems: 15-30. Springer, Berlin (ISSN: 1865-0929, ISBN: 978-3-319-17508-9, DOI: 10.1007/978-3-319-17509-6)

[11] Shinmura S (2015e) The Discrimination of microarray data (Ver. 1). Research Gate (1): 1-4, 28 Oct 2015

[12] Shinmura S (2015f) Feature Selection of three Microarray data. Research Gate (2): 1-7, 1 Nov 2015

[13] Shinmura S (2015g) Feature Selection of Microarray Data (3) – Shipp et al. Microarray Data. Research Gate (3): 1-11, 3 Nov 2015

[14] Shinmura S (2015h) Validation of Feature Selection (4) – Alon et al. Microarray Data. Research Gate (4): 1-11, 5 Nov 2015

[15] Shinmura S (2015i) Repeated Feature Selection Method for Microarray Data (5). Research Gate (5): 1-12, 9 Nov 2015

[16] Shinmura S (2015j) Comparison Fisher’s LDF by JMP and Revised IP-OLDF by LINGO for Microarray Data (6). Research Gate (6): 1-10, 11 Nov 2015

[17] Shinmura S (2015k) Matroska Trap of Feature Selection Method (7) –Golub et al. Microarray Data-. Research Gate (7): 1-14, 18 Nov 2015

[18] Shinmura S (2015l) Minimum Sets of Genes of Golub et al. Microarray Data (8). Research Gate (8): 1-12, 22 Nov 2015

[19] Shinmura S (2015m) Complete Lists of Small Matroska in Shipp et al. Microarray Data (9). Research Gate (9): 1-81, 4 Dec 2015

[20] Shinmura S (2015n) Sixty-nine Small Matroska in Golub et al. Microarray Data (10). Research Gate: 1-58, 4 Dec 2015

[21] Shinmura S (2015o) Simple Structure of Alon et al. et al. Microarray Data (11). Research Gate (11): 1-34, 4 Dec 2015

[22] Shinmura S (2015p) Feature Selection of Singh et al. Microarray Data (12). Research Gate (12): 1-89, 6 Dec 2015

[23] Shinmura S (2015q) Final List of Small Matroska in Tian et al. Microarray Data. Research Gate (13): 1-160, 7 Dec 2015

[24] Shinmura S (2015r) Final List of Small Matroska in Chiaretti et al. Microarray Data. Research Gate (14): 1-16, 20 Dec 2015

[25] Shinmura S (2015s) Matroska Feature Selection Method for Microarray Data. Research Gate (15): 1-16, 20 Dec 2015

[26] Shinmura S (2016a) Matroska Feature Selection Method for Microarray Data. Biotechno 2016:1-8 (Best Paper Award)

[27] Shinmura S (2016d) New Theory of Discriminant Analysis after R. Fisher, Springer, Dec. 2016. (ISBN 978-981-10-2163-3 ISBN 978-981-10-2164-0 (eBook) DOI 10.1007/978-981-10-2164-0)

[28] Shinmura S (2017c) Cancer Gene Analysis by Singh et al. Microarray Data. ISI2017: 1-6 .

[29]  Shinmura, S (2017d) From Cancer Gene Analysis to Cancer Gene Diagnosis. Amazon Kindle.

[30] Shipp MA, Ross KN, Tamayo P, Weng AP, Kutok JL, Aguiar RC, Gaasenbeek M, Angelo M, Reich M, Pinkus GS, Ray TS, Koval MA, Last KW, Norton A, Lister TA, Mesirov J, Neuberg DS, Lander ES, Aster JC, Golub TR (2002) Diffuse large B-cell lymphoma outcome prediction by gene-expression profiling and supervised machine learning. Nature Medicine 8(1): 68-74. (Doi:10.1038/nm0102-6)

[31] Singh D, Febbo PG, Ross K, Jackson DG, Manola J, Ladd C, Tamayo P, Renshaw AA, D’Amico AV, Richie JP, Lander ES, Lada M, Kantoff PW, Golub TR, Sellers WR (2002) Gene expression correlates of clinical prostate cancer behavior. Cancer Cell 1(2): 203-209

[32] Tian E, Zhan F, Walker R, Rasmussen E, Ma Y, Barlogie B, Shaughnessy JD (2003) The Role of the Wnt-signaling Antagonist DKK1 in the Development of Osteolytic Lesions in Multiple Myeloma. The new England Journal of Medicine, Vol. 349, 26: 2483-2494

[33] VapnikV (1995) The Nature of Statistical Learning Theory. Springer-Verlag.