コンテンツにスキップ

英文维基 | 中文维基 | 日文维基 | 草榴社区

「メタゲノミクス」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
「メタ」とゲノムプロジェクトについて
(5人の利用者による、間の15版が非表示)
1行目: 1行目:
[[ファイル:Iron_hydroxide_precipitate_in_stream.jpg|リンク=https://ja-two.iwiki.icu/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Iron_hydroxide_precipitate_in_stream.jpg|右|サムネイル|露天掘り炭鉱からの酸性排水を受けるこの河川にも、環境に適応した微生物群集が存在している。メタゲノム解析により、このような微生物群集の研究が可能になる。]]
'''メタゲノミクス'''は、環境サンプルから直接回収された[[ゲノム]][[デオキシリボ核酸|DNA]]を扱う研究分野である。広義には'''環境ゲノミクス'''や'''群集ゲノミクス'''とも呼ばれる<ref>木暮(2011). "海洋における環境ゲノミクス". ''地球環境'' Vol. 16 No. 1 71-79.</ref>。従来の[[微生物]]のゲノム解析では単一菌種の分離・[[培養]]過程を経てゲノムDNAを調製していたが、メタゲノム解析はその過程を経ずに微生物の集団から直接そのゲノムDNAを調製し、そのヘテロなゲノムDNAをそのまま[[DNAシークエンシング|シークエンシング]]する。そのため、メタゲノム解析により従来の方法では困難であった[[VNC (微生物学)|難培養菌]]のゲノム情報が入手可能となった。地球上に棲息する細菌の99%以上は単独では培養できない菌種であると推察されており<ref>工藤俊章 『難培養微生物の利用技術』 シーエムシー出版、2010年、はじめに</ref>、メタゲノム解析は環境中に埋没する膨大な数の未知の細菌、未知の遺伝子を解明する手法として期待されている。DNAシークエンシングのコストが年々安価になっていることから、メタゲノミクスは微生物学において、より大規模で詳細な研究が行われることも見込まれる。
'''メタゲノミクス'''(英:Metagenomics)は、環境サンプルから直接回収された[[ゲノム]][[デオキシリボ核酸|DNA]]を扱う[[微生物学]]・[[ウイルス学]]の研究分野である。広義には'''環境ゲノミクス'''や'''エコゲノミクス'''、'''群集ゲノミクス'''とも呼ばれる<ref>木暮(2011), 「海洋における環境ゲノミクス」『地球環境』 Vol.16 No.1 p,71-79, {{naid|40018854028}}</ref>。'''メタゲノム解析'''(Metagenomic analysis)、あるいは単純に'''メタゲノム'''(Metagenome)とも呼称される。従来の[[微生物]]のゲノム解析では、単一の[[菌株]]を環境サンプルから分離[[培養]]する過程を経る必要があったが、メタゲノム解析はこの過程を経ることなく、微生物コミュニティ(細菌叢)から直接ゲノムDNAを抽出し、様々な系統由来のDNAがミックスされた状態で[[DNAシークエンシング|DNAシーケンス]]を行う。そのため、メタゲノム解析では従来の培養を基本とする方法では困難であった難培養・未培養系統に属する微生物のゲノム情報が入手可能である。一説には、地球上に棲息する細菌の99%以上は単独では培養できない系統であると推察されており<ref>工藤俊章 『難培養微生物の利用技術』 シーエムシー出版、2010年、はじめに</ref>、メタゲノム解析は環境中に埋没する膨大な数の未知の細菌、未知の[[遺伝子]]を解明できる手法として期待されている。DNA[[シークエンシング]]のコストは年々安価になってきており、より大規模で詳細なメタゲノム解析研究が行われることも見込まれる<ref>{{Cite journal|last=Eisen|first=Jonathan A|editor-last=Simon Levin|date=2007-03-13|title=Environmental Shotgun Sequencing: Its Potential and Challenges for Studying the Hidden World of Microbes|url=http://dx.plos.org/10.1371/journal.pbio.0050082|journal=PLoS Biology|volume=5|issue=3|pages=e82|language=en|doi=10.1371/journal.pbio.0050082|issn=1545-7885|pmid=17355177|pmc=PMC1821061}}</ref>。狭義には、メタゲノム解析はショットガンシーケンス(後述)により得られたゲノム全体の配列情報を解析することを指し、ターゲット遺伝子を絞り[[ポリメラーゼ連鎖反応|PCR]]を経た増幅シーケンス([[16S rRNA系統解析|16S rRNA]]タグシーケンスなど)とは区別されるが<ref>{{Cite journal|last=Rausch|first=Philipp|last2=Rühlemann|first2=Malte|last3=Hermes|first3=Britt M.|last4=Doms|first4=Shauni|last5=Dagan|first5=Tal|last6=Dierking|first6=Katja|last7=Domin|first7=Hanna|last8=Fraune|first8=Sebastian|last9=von Frieling|first9=Jakob|date=2019-12|title=Comparative analysis of amplicon and metagenomic sequencing methods reveals key features in the evolution of animal metaorganisms|url=https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-019-0743-1|journal=Microbiome|volume=7|issue=1|pages=133|language=en|doi=10.1186/s40168-019-0743-1|issn=2049-2618|pmid=31521200|pmc=PMC6744666}}</ref>、後者を広義のメタゲノム解析に含めて扱われることもある<ref>{{Cite web|url=https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/publication_metagenome-j.pdf|title=イルミナ「総説:メタゲノム研究」|accessdate=2020-3-23|publisher=}}</ref>。


2008年時点においてヒト[[腸内細菌]]叢、海中の微生物群、海底の鯨骨細菌群、農場土壌の細菌群、鉱山廃水中の[[バイオフィルム]]、メタン酸化古細菌群などを対象としたメタゲノム解析が論文として報告されている。
今日では、海洋や土壌、ヒト[[腸内細菌]]叢などを始め、海底の鯨骨細菌群、鉱山廃水中の[[バイオフィルム]]、南極氷床、温泉、大深層の地殻など、様々な環境を対象としたメタゲノム解析が論文として報告されている。


== 語源 ==
== 語源 ==
メタゲノムという用語は、ゲノムに高次元を表す[[メタ]]という言葉を付け加えて命名された。これは単一生物のゲノムを研究するように、環境中から[[遺伝子配列]]を一緒くたに集め解析をすることが可能であろうという考えが元にあることを表す。この用語はJo Handelsman, Jon Clardy, Robert M. Goodman, Sean F Bradyらにより1998年に初めて論文内で使用された<ref>Handelsman, J.; Rondon, M. R.; Brady, S. F.; Clardy, J.; Goodman, R. M. (1998). "Molecular biological access to the chemistry of unknown soil microbes: A new frontier for natural products". ''Chemistry & Biology'' '''5''' (10): R245–R249. doi:10.1016/S1074-5521(98)90108-9. PMID 9818143</ref>。Kevin ChenとLior Pachterは2005年にメタゲノミクスを「個々の菌を研究室内で単離培養するための現代ゲノム技術の応用分野」と定義している<ref>Chen, K.; Pachter, L. (2005). "Bioinformatics for Whole-Genome Shotgun Sequencing of Microbial Communities". ''PLoS Computational Biology'' '''1''' (2): e24. {{doi|10.1371/journal.pcbi.0010024}}</ref>。
メタゲノムという用語は、ゲノムに高次元を表す[[メタ]]という言葉を付け加えて命名された<ref name=":0">{{Cite journal|last=Handelsman|first=J.|last2=Rondon|first2=M. R.|last3=Brady|first3=S. F.|last4=Clardy|first4=J.|last5=Goodman|first5=R. M.|date=1998-10|title=Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products|url=https://www.ncbi.nlm.nih.gov/pubmed/9818143|journal=Chemistry & Biology|volume=5|issue=10|pages=R245–249|doi=10.1016/s1074-5521(98)90108-9|issn=1074-5521|pmid=9818143}}</ref>。単一生物のゲノムを研究するのと同じように、環境中からゲノムの[[遺伝子配列]]をし纏て(メタ的に)解析をすることが可能である、という考えが元にある。この用語はJo Handelsman, Jon Clardy, Robert M. Goodman, Sean F Bradyらにより1998年に初めて論文内で使用された<ref name=":0" />。Kevin ChenとLior Pachterは2005年にメタゲノム解析を「個々の菌を研究室内で単離したり培養したりする必要がない現代ゲノム技術の応用分野」と定義している<ref>Chen, K.; Pachter, L. (2005). "Bioinformatics for Whole-Genome Shotgun Sequencing of Microbial Communities". ''PLoS Computational Biology'' '''1''' (2): e24. {{doi|10.1371/journal.pcbi.0010024}}</ref>。


== ゲノムシーケンシング ==
== 歴史 ==
[[ファイル:Environmental_shotgun_sequencing.png|サムネイル|346x346ピクセル|BACライブラリによる環境ショットガンシーケンス。(A)生息地からのサンプリング。(B)通常、サイズによる粒子のフィルタリングを行う。(C)細胞溶解およびDNA抽出(D)クローニングとライブラリ構築。E)クローンのシーケンス。(F)コンティグとスキャフォールドへの配列アセンブリ。]]
従来のDNAシーケンスは、単一の細菌株を培養することが最初に必要であった。しかし初期のメタゲノミクスの研究により、多くの環境には培養が不可能でシーケンスが困難な微生物が多く存在することが明らかにされた。これらの初期の研究では[[16S rRNA系統解析|16S rRNA遺伝子配列]]を調べることに焦点が当てられた。この遺伝子配列はゲノムにおいて比較的短く、生物種内において保存性が高い一方で、異なる種内においては変化が見られるためゲノム全体をシーケンスするよりも簡便に環境中の微生物群集を調べることが出来る。多くの16S rRNA遺伝子配列のDNAシーケンスにより、培養されている既知の生物種には当てはまらない配列が見つかったことは、多くの培養がされていない微生物が居ることを示していた。これらのrRNA遺伝子配列を培養を経ず環境中から直接得た研究により、培養を元にした方法で見つけられる試料中の真性細菌・古細菌が1%に満たないことが明らかになった<ref>Hugenholz, P; Goebel BM; Pace NR (1 September 1998). "Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity". ''J. Bacteriol'' '''180'''(18): 4765–74. PMC 107498.PMID 9733676</ref>。
かつては環境サンプルから数千[[塩基対]]よりも長いDNA断片の回収することは困難であったが、分子クローニング用の[[ベクター (遺伝子工学)|ベクター]]としてBAC([[:en:Bacterial_artificial_chromosome|bacterial artificial chromosomes]])が開発されたことにより、ライブラリーの構築が可能になった。現在では次世代シーケンサーの登場により、BACライブラリを経ることなくより大量の配列情報を取得することが可能である。(詳細は[[DNAシークエンシング|DNAシーケンシング]]を参照)[[ファイル:Flow_diagram_of_a_typical_metagenome_projects.tiff|サムネイル|328x328ピクセル|典型的なメタゲノムプロジェクトのフロー図<ref>{{Cite journal|last=Thomas|first=T.|last2=Gilbert|first2=J.|last3=Meyer|first3=F.|year=2012|title=Metagenomics - a guide from sampling to data analysis|journal=Microbial Informatics and Experimentation|volume=2|issue=1|pages=3|DOI=10.1186/2042-5783-2-3|PMID=22587947|PMC=3351745}}</ref>]]


=== ショットガンシーケンシングの登場 ===
== 関連項目 ==
[[バイオインフォマティクス]]の進歩、DNA増幅([[PCR]])法の改良、および計算機能力の急増により、環境サンプルから得られるDNA配列の分析能力は飛躍的に向上し、[[ショットガン・シークエンシング法|ショットガンシーケンス]]をメタゲノムサンプルに応用することが可能になった。これは全メタゲノムショットガンシーケンス、または英語(<u>W</u>hole <u>M</u>eta<u>g</u>enome Shotgun <u>S</u>equence)からWMGSと呼ばれることがある。培養微生物から[[ヒトゲノム計画|ヒトゲノム]]に至るまで、大半の全ゲノム解読を行う研究においては、DNAをランダムに短く切断し、それらのDNA断片を大量にシーケンスし、得られた配列情報のアセンブリを経てコンセンサス配列を再構築する、というステップを経る。このようなプロセスを経ることで、ショットガンシーケンシングを行ったメタゲノム解析では、環境サンプル中に存在する細菌叢に由来するゲノム配列を系統網羅的に取得することが可能である。歴史的には、このようなショットガンシーケンスを容易にするために、BAC等を利用したクローンライブラリが使用されてきた。ショットガンシーケンスを解析することで、菌叢内でどのような系統群の生物が存在し、どのような[[代謝]]プロセスが行われているのか、等について明らかにすることができる。原理的には、環境サンプル中に含まれているそれぞれの微生物系統の細胞量の違いによって回収されるDNA量も変わってくるため、その環境サンプル内で最も多く存在する生物種(優占種)は大量にシーケンスされ、配列情報も多く得ることができる。一方で、存在量の少ない生物種(そのサンプルにおける希少種)では解析に十分な量の配列情報が得られない可能性があり、そのような希少生物種のゲノムを完全に決定するためにはより高いカバレッジが必要になり、合わせて非常に多くのサンプルが必要となる。このことは反面、ショットガンシーケンスは原理的には完全ランダムにDNA断片のシーケンスを行うため、従来の[[培養]]ベースの手法では見過ごされていた未培養微生物系統であっても、大なり小なりゲノム情報を得ることができる、ということでもある。
* [[環境DNA]]
* [[ゲノムプロジェクト]]


=== 次世代シーケンシング技術の活用 ===
== 外部リンク ==
今日では次世代シーケンサー(ハイスループットシーケンシング技術)の登場と進歩により、クローニングのステップを省略してシーケンスデータの収量を増やすことが可能である。次世代シーケンスを使用して実施された最初のメタゲノム研究では、454パイロシーケンシングが利用された<ref>{{Cite journal|last=Poinar|first=Hendrik N.|last2=Schwarz|first2=Carsten|last3=Qi|first3=Ji|last4=Shapiro|first4=Beth|last5=MacPhee|first5=Ross D. E.|last6=Buigues|first6=Bernard|last7=Tikhonov|first7=Alexei|last8=Huson|first8=Daniel H.|last9=Tomsho|first9=Lynn P.|date=2006-01-20|title=Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA|url=https://www.sciencemag.org/lookup/doi/10.1126/science.1123360|journal=Science|volume=311|issue=5759|pages=392–394|language=en|doi=10.1126/science.1123360|issn=0036-8075}}</ref>。その後、Ion Torrent Personal Genome Machineや、Illumina MiSeq、HiSeq、Applied Biosystems SOLiDシステム等が登場し、メタゲノム解析に利用されるようになった<ref>{{Cite journal|last=Rodrigue|first=Sébastien|last2=Materna|first2=Arne C.|last3=Timberlake|first3=Sonia C.|last4=Blackburn|first4=Matthew C.|last5=Malmstrom|first5=Rex R.|last6=Alm|first6=Eric J.|last7=Chisholm|first7=Sallie W.|editor-last=Gilbert|editor-first=Jack Anthony|date=2010-07-28|title=Unlocking Short Read Sequencing for Metagenomics|url=https://dx.plos.org/10.1371/journal.pone.0011840|journal=PLoS ONE|volume=5|issue=7|pages=e11840|language=en|doi=10.1371/journal.pone.0011840|issn=1932-6203|pmid=20676378|pmc=PMC2911387}}</ref>。これらの次世代DNAシーケンシング技術で得られるリードはサンガーシーケンスよりも短い。具体的には、サンガー法では750bp程度のリードを得られるのに対し、Ion Torrent PGM Systemや454パイロシーケンシングでは約400bp、Illumina MiSeqでは400-700bp、SOLiDは25-75bp程度である(2008年のカタログスペック値)<ref>{{Cite journal|last=Schuster|first=Stephan C|date=2008-01|title=Next-generation sequencing transforms today's biology|url=http://www.nature.com/articles/nmeth1156|journal=Nature Methods|volume=5|issue=1|pages=16–18|language=en|doi=10.1038/nmeth1156|issn=1548-7091}}</ref>。一方で、次世代シーケンシングでは圧倒的に多量のDNA配列を読むことができ、具体的には454パイロシーケンスでは200〜500Mb、Illuminaプラットフォームでは20〜50Gbもの配列情報を排出し(2009年のカタログスペック値)、またこの値は年々増加している<ref>{{Cite journal|date=2009-09|title=Metagenomics versus Moore's law|url=http://www.nature.com/articles/nmeth0909-623|journal=Nature Methods|volume=6|issue=9|pages=623–623|language=en|doi=10.1038/nmeth0909-623|issn=1548-7091}}</ref>。
* [http://www.sgmj.org/ 日本ゲノム微生物学会]

=== 新しい技術の活用 ===
2010年にPacBio RSが発売されたことを皮切りに、次世代シーケンサーよりも更に長いロングリードを読むことができる、いわゆる第3世代シーケンサーがPacBioやNanopore社から登場している。このような第3世代シーケンシング技術をメタゲノム解析に応用することで、ロングリードのショットガンシーケンスの取得とさらに効率できなゲノムアセンブリが可能になると考えられる<ref name=":1">{{Cite journal|last=Hiraoka|first=Satoshi|last2=Yang|first2=Ching-chia|last3=Iwasaki|first3=Wataru|date=2016|title=Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond|url=https://doi.org/10.1264/jsme2.ME16024|journal=Microbes and environments|volume=31|issue=3|pages=204–212|language=en|doi=10.1264/jsme2.ME16024|issn=1342-6311|pmid=27383682|pmc=PMC5017796}}</ref>。また、ショットガンシーケンスと染色体コンフォメーションキャプチャ(Hi-C)法を組み合わせることで、同じ細胞内で近接するDNA断片の情報を得ることができ、この情報を活用して微生物ゲノムのアセンブリを効率化する研究も報告されている<ref>{{Cite journal|last=Watson|first=Mick|last2=Roehe|first2=Rainer|last3=Walker|first3=Alan W.|last4=Dewhurst|first4=Richard J.|last5=Snelling|first5=Timothy J.|last6=Ivan Liachko|last7=Langford|first7=Kyle W.|last8=Press|first8=Maximilian O.|last9=Wiser|first9=Andrew H.|date=28 February 2018|title=Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen|journal=Nature Communications|volume=9|issue=1|pages=870|language=en|bibcode=2018NatCo...9..870S|DOI=10.1038/s41467-018-03317-6|ISSN=2041-1723|PMID=29491419|PMC=5830445}}</ref>。

== バイオインフォマティクス解析 ==
ショットガンシーケンスから得られるデータは膨大であり、ノイズが多く、ときには数万を超える生物種に由来するDNA配列がミックスされている。例えば牛の[[ミノ|ルーメン]]をサンプルとして実施されたメタゲノム解析では279Gpもの配列データが得られ<ref name=":4">{{Cite journal|last=Hess|first=M.|last2=Sczyrba|first2=A.|last3=Egan|first3=R.|last4=Kim|first4=T.-W.|last5=Chokhawala|first5=H.|last6=Schroth|first6=G.|last7=Luo|first7=S.|last8=Clark|first8=D. S.|last9=Chen|first9=F.|date=2011-01-28|title=Metagenomic Discovery of Biomass-Degrading Genes and Genomes from Cow Rumen|url=https://www.sciencemag.org/lookup/doi/10.1126/science.1200387|journal=Science|volume=331|issue=6016|pages=463–467|language=en|doi=10.1126/science.1200387|issn=0036-8075}}</ref>、またヒト腸内細菌叢を対象とした研究では567.7Gbの配列情報から330万個の遺伝子カタログを作成した研究が報告されている<ref>{{Cite journal|last=MetaHIT Consortium|last2=Qin|first2=Junjie|last3=Li|first3=Ruiqiang|last4=Raes|first4=Jeroen|last5=Arumugam|first5=Manimozhiyan|last6=Burgdorf|first6=Kristoffer Solvsten|last7=Manichanh|first7=Chaysavanh|last8=Nielsen|first8=Trine|last9=Pons|first9=Nicolas|date=2010-03|title=A human gut microbial gene catalogue established by metagenomic sequencing|url=http://www.nature.com/articles/nature08821|journal=Nature|volume=464|issue=7285|pages=59–65|language=en|doi=10.1038/nature08821|issn=0028-0836|pmid=20203603|pmc=PMC3779803}}</ref>。このようなビッグデータから有用な生物学的情報を収集、管理、抽出することは、本質的に重要なバイオインフォマティクス上の課題となっている<ref>{{Cite journal|last=Oulas|first=A|last2=Pavloudi|first2=C|last3=Polymenakou|first3=P|last4=Pavlopoulos|first4=GA|last5=Papanikolaou|first5=N|last6=Kotoulas|first6=G|last7=Arvanitidis|first7=C|last8=Iliopoulos|first8=I|date=2015|title=Metagenomics: tools and insights for analyzing next-generation sequencing data derived from biodiversity studies|journal=Bioinformatics and Biology Insights|volume=9|pages=75–88|DOI=10.4137/BBI.S12462|PMID=25983555|PMC=4426941}}</ref><ref name=":1" />。

=== シーケンス配列のフィルタリング ===
メタゲノムデータ分析の最初のステップでは、冗長な配列や低品質な配列、そしてヒトを含む[[真核生物]]に由来すると思われる配列の除去などを行う、事前フィルタリングを行うことが多い<ref name="mende">{{Cite journal|last=Mende|first=Daniel R.|last2=Alison S. Waller|last3=Shinichi Sunagawa|last4=Aino I. Järvelin|last5=Michelle M. Chan|last6=Manimozhiyan Arumugam|last7=Jeroen Raes|last8=Peer Bork|date=23 February 2012|title=Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data|journal=PLoS ONE|volume=7|issue=2|pages=e31386|bibcode=2012PLoSO...731386M|DOI=10.1371/journal.pone.0031386|ISSN=1932-6203|PMID=22384016|PMC=3285633}}</ref><ref>{{Cite journal|last=Balzer|first=S.|last2=Malde|first2=K.|last3=Grohme|first3=M. A.|last4=Jonassen|first4=I.|year=2013|title=Filtering duplicate reads from 454 pyrosequencing data|journal=Bioinformatics|volume=29|issue=7|pages=830–836|DOI=10.1093/bioinformatics/btt047|PMID=23376350|PMC=3605598}}</ref>。混入した真核生物ゲノムDNA配列の除去には、Eu-DetectやDeConseqなどのツールが利用可能である<ref>{{Cite journal|last=Mohammed|first=MH|last2=Sudha Chadaram|last3=Dinakar Komanduri|last4=Tarini Shankar Ghosh|last5=Sharmila S Mande|year=2011|title=Eu-Detect: an algorithm for detecting eukaryotic sequences in metagenomic data sets|journal=Journal of Biosciences|volume=36|issue=4|pages=709–717|DOI=10.1007/s12038-011-9105-2|PMID=21857117}}</ref><ref>{{Cite journal|last=R|first=Schmeider|last2=R Edwards|year=2011|title=Fast identification and removal of sequence contamination from genomic and metagenomic datasets|journal=PLoS ONE|volume=6|issue=3|pages=e17288|bibcode=2011PLoSO...617288S|DOI=10.1371/journal.pone.0017288|PMID=21408061|PMC=3052304}}</ref>。

=== ゲノムアセンブリ ===
ゲノムプロジェクトやメタゲノムプロジェクトにおいては、扱うDNA配列データの基本的構造は同じである。しなしながら、前者では単一種由来の配列データをより高いカバレッジで得ることが容易である一方で、後者は異なる生物種由来の配列がミックスされている分、データの冗長性が非常に低い(データセット中で同じ配列が低頻度でしか現れない)ことが多い。さらに、第2世代のシーケンシング技術はリード長が短く、そのためゲノムアセンブリでエラー(ミスアセンブリ)が頻発し、得られた結果の信頼性が低くなる事がある。特に[[トランスポゾン]]などに代表されるゲノム中の反復配列の存在は、このようなミスアセンブリを誘発しやすい<ref>{{Cite journal|last=Kunin|first=V.|last2=Copeland|first2=A.|last3=Lapidus|first3=A.|last4=Mavromatis|first4=K.|last5=Hugenholtz|first5=P.|date=2008-12-01|title=A Bioinformatician's Guide to Metagenomics|url=http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08|journal=Microbiology and Molecular Biology Reviews|volume=72|issue=4|pages=557–578|language=en|doi=10.1128/MMBR.00009-08|issn=1092-2172|pmid=19052320|pmc=PMC2593568}}</ref>。また、異なる複数種由来の配列を誤ってアセンブリしてしまう、いわゆるキメラコンティグを作り出すようなミスアセンブリも起きうる<ref>{{Cite journal|last=Burton|first=Joshua N.|last2=Liachko|first2=Ivan|last3=Dunham|first3=Maitreya J.|last4=Shendure|first4=Jay|date=2014-07|title=Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps|url=http://g3journal.org/lookup/doi/10.1534/g3.114.011825|journal=G3&amp;#58; Genes{{!}}Genomes{{!}}Genetics|volume=4|issue=7|pages=1339–1346|language=en|doi=10.1534/g3.114.011825|issn=2160-1836|pmid=24855317|pmc=PMC4455782}}</ref>。

このようなエラーを最小限にし、かつできるだけ長くアセンブリが繋がるように、様々なツール(アセンブラ)が現在も開発されている。多くアセンブラは精度を向上させるためにIlluminaのペアエンドリードの情報を利用する。PhrapやCelera Assemblerなどの一部のプログラムは、単一の[[ゲノム]]をアセンブルするために設計されているが、それにも関わらずメタゲノムデータセットにおいても良好なアセンブル結果を生み出すことが経験的に知られている<ref name=":2">{{Cite journal|last=Wooley|first=John C.|last2=Godzik|first2=Adam|last3=Friedberg|first3=Iddo|editor-last=Bourne|editor-first=Philip E.|date=2010-02-26|title=A Primer on Metagenomics|url=https://dx.plos.org/10.1371/journal.pcbi.1000667|journal=PLoS Computational Biology|volume=6|issue=2|pages=e1000667|language=en|doi=10.1371/journal.pcbi.1000667|issn=1553-7358|pmid=20195499|pmc=PMC2829047}}</ref>。Velvetなどの他のプログラムでは内部でde Bruijnグラフのアルゴリズムを使用しており、第2世代シーケンサーから生成されるショートリード用に最適化されている<ref>{{Cite journal|last=Zerbino|first=D. R.|last2=Birney|first2=E.|date=2008-02-21|title=Velvet: Algorithms for de novo short read assembly using de Bruijn graphs|url=http://www.genome.org/cgi/doi/10.1101/gr.074492.107|journal=Genome Research|volume=18|issue=5|pages=821–829|language=en|doi=10.1101/gr.074492.107|issn=1088-9051|pmid=18349386|pmc=PMC2336801}}</ref><ref>{{Cite journal|last=Namiki|first=Toshiaki|last2=Hachiya|first2=Tsuyoshi|last3=Tanaka|first3=Hideaki|last4=Sakakibara|first4=Yasubumi|date=2012-11-01|title=MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads|url=https://academic.oup.com/nar/article/40/20/e155/2414459|journal=Nucleic Acids Research|volume=40|issue=20|pages=e155–e155|language=en|doi=10.1093/nar/gks678|issn=1362-4962|pmid=22821567|pmc=PMC3488206}}</ref>。リファレンスゲノムを使用することでアセンブリを改善するアプローチも提案されているが、この方法は既にゲノムが読まれている限られた微生物系統にしか適応できない<ref>{{Cite journal|last=Kunin|first=V.|last2=Copeland|first2=A.|last3=Lapidus|first3=A.|last4=Mavromatis|first4=K.|last5=Hugenholtz|first5=P.|date=2008-12-01|title=A Bioinformatician's Guide to Metagenomics|url=http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08|journal=Microbiology and Molecular Biology Reviews|volume=72|issue=4|pages=557–578|language=en|doi=10.1128/MMBR.00009-08|issn=1092-2172|pmid=19052320|pmc=PMC2593568}}</ref>。アセンブリが作成された後、そのコンティグがどの系統に由来しているのかを推定することも、技術上の課題である<ref>{{Cite journal|last=Burton|first=Joshua N.|last2=Liachko|first2=Ivan|last3=Dunham|first3=Maitreya J.|last4=Shendure|first4=Jay|date=2014-07|title=Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps|url=http://g3journal.org/lookup/doi/10.1534/g3.114.011825|journal=G3&amp;#58; Genes{{!}}Genomes{{!}}Genetics|volume=4|issue=7|pages=1339–1346|language=en|doi=10.1534/g3.114.011825|issn=2160-1836|pmid=24855317|pmc=PMC4455782}}</ref>。

=== 配列からの遺伝子予測 ===
アセンブルされたコンセンサス配列(コンティグ)から遺伝子配列([[コーディング領域]])をアノテーションする方法としては、大きく分けて2つのアプローチが取られる<ref>{{Cite journal|last=Kunin|first=V.|last2=Copeland|first2=A.|last3=Lapidus|first3=A.|last4=Mavromatis|first4=K.|last5=Hugenholtz|first5=P.|date=2008-12-01|title=A Bioinformatician's Guide to Metagenomics|url=http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08|journal=Microbiology and Molecular Biology Reviews|volume=72|issue=4|pages=557–578|language=en|doi=10.1128/MMBR.00009-08|issn=1092-2172|pmid=19052320|pmc=PMC2593568}}</ref>。1つ目は、[[BLAST]]等のツールを用いた配列類似性検索により、[[配列データベース]]上で公開されている遺伝子との配列類似性に基づいて遺伝子を識別する方法である。この方法は、例えばMEGAN 4で実装されている<ref>{{Cite journal|last=Huson|first=D. H.|last2=Mitra|first2=S.|last3=Ruscheweyh|first3=H.-J.|last4=Weber|first4=N.|last5=Schuster|first5=S. C.|date=2011-09-01|title=Integrative analysis of environmental sequences using MEGAN4|url=http://genome.cshlp.org/cgi/doi/10.1101/gr.120618.111|journal=Genome Research|volume=21|issue=9|pages=1552–1560|language=en|doi=10.1101/gr.120618.111|issn=1088-9051|pmid=21690186|pmc=PMC3166839}}</ref>。2番目の方法としては、関連する生物種(すなわち、原核生物か真核生物か)に由来した既知の配列情報から、遺伝子配列に関する特徴量を学習し、コンティグ配列から直接遺伝子領域を予測する方法である。例えばGeneMarkやGLIMMERといったプログラムで採用されている<ref>{{Cite journal|last=Zhu|first=Wenhan|last2=Lomsadze|first2=Alexandre|last3=Borodovsky|first3=Mark|date=2010-07|title=Ab initio gene identification in metagenomic sequences|url=https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkq275|journal=Nucleic Acids Research|volume=38|issue=12|pages=e132–e132|language=en|doi=10.1093/nar/gkq275|issn=1362-4962|pmid=20403810|pmc=PMC2896542}}</ref>。この''ab initioな''予測方法では、配列データベースに類似したものがない新規性のあるコーディング領域も検出できることができる<ref>{{Cite journal|last=Wooley|first=John C.|last2=Godzik|first2=Adam|last3=Friedberg|first3=Iddo|editor-last=Bourne|editor-first=Philip E.|date=2010-02-26|title=A Primer on Metagenomics|url=https://dx.plos.org/10.1371/journal.pcbi.1000667|journal=PLoS Computational Biology|volume=6|issue=2|pages=e1000667|language=en|doi=10.1371/journal.pcbi.1000667|issn=1553-7358|pmid=20195499|pmc=PMC2829047}}</ref>。その後、予測された遺伝子配列を元に、公共の遺伝子データベースを用いた配列類似性検索をかけることで、その遺伝子が持つ機能を推定することが一般に行われる。

=== 配列の系統推定 ===
[[ファイル:A_Novel_Representation_Of_The_Tree_Of_Life.png|リンク=https://ja-two.iwiki.icu/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:A_Novel_Representation_Of_The_Tree_Of_Life.png|サムネイル|470x470ピクセル|2016に提唱された「生命の木」<ref>{{Cite journal|last=Hug|first=Laura A.|last2=Baker|first2=Brett J.|last3=Anantharaman|first3=Karthik|last4=Brown|first4=Christopher T.|last5=Probst|first5=Alexander J.|last6=Castelle|first6=Cindy J.|last7=Butterfield|first7=Cristina N.|last8=Hernsdorf|first8=Alex W.|last9=Amano|first9=Yuki|date=11 April 2016|title=A new view of the tree of life|journal=Nature Microbiology|volume=1|issue=5|pages=16048|DOI=10.1038/nmicrobiol.2016.48|PMID=27572647}}</ref>]]
遺伝子アノテーションにより「それが何なのか(どういう機能を持つ遺伝子なのか)」という情報がわかる一方で、配列の由来系統の推定により「それが誰なのか(どういう微生物系統群に由来した配列なのか)」という情報を得ることも重要になる<ref>{{Cite journal|last=Konopka|first=Allan|date=2009-11|title=What is microbial community ecology?|url=http://www.nature.com/articles/ismej200988|journal=The ISME Journal|volume=3|issue=11|pages=1223–1230|language=en|doi=10.1038/ismej.2009.88|issn=1751-7362}}</ref>。すなわち、メタゲノム解析で菌叢の構成と生理学的機能を結び付けるためには、アセンブリされる前のショットガンリードあるいはアセンブリ後に得られるコンティグ配列が、元々どのような生物系統に由来していたのかを推定する、配列の由来系統推定を行う必要がある。配列類似性に基づく方法としては、[[BLAST]]などのツールと既存の公共データベースを利用して、各系統に特異的なマーカー配列や類似したゲノム上の配列を検索することで、その配列やコンティグがどのような系統に由来していたのかを推定する方法がある。このアプローチはMEGANで実装されている<ref>{{Cite journal|last=Huson|first=D. H.|last2=Auch|first2=A. F.|last3=Qi|first3=J.|last4=Schuster|first4=S. C.|date=2007-02-06|title=MEGAN analysis of metagenomic data|url=http://www.genome.org/cgi/doi/10.1101/gr.5969107|journal=Genome Research|volume=17|issue=3|pages=377–386|language=en|doi=10.1101/gr.5969107|issn=1088-9051|pmid=17255551|pmc=PMC1800929}}</ref>。異なる手法としては補間マルコフモデルを使用した方法があり、PhymmBLなどで実装されている。[http://huttenhower.sph.harvard.edu/metaphlan MetaPhlAn]およびAMPHORAでは、より高速に生物の相対存在量を推定するための、マーカー遺伝子をベースとした手法が実装されている<ref>{{Cite journal|last=Segata|first=Nicola|last2=Waldron|first2=Levi|last3=Ballarini|first3=Annalisa|last4=Narasimhan|first4=Vagheesh|last5=Jousson|first5=Olivier|last6=Huttenhower|first6=Curtis|date=2012-08|title=Metagenomic microbial community profiling using unique clade-specific marker genes|url=http://www.nature.com/articles/nmeth.2066|journal=Nature Methods|volume=9|issue=8|pages=811–814|language=en|doi=10.1038/nmeth.2066|issn=1548-7091|pmid=22688413|pmc=PMC3443552}}</ref>。[https://motu-tool.org/ mOTU]<ref>{{Cite journal|last=Liu|first=Bo|last2=Gibbons|first2=Theodore|last3=Ghodsi|first3=Mohammad|last4=Treangen|first4=Todd|last5=Pop|first5=Mihai|date=2011|title=Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences|url=http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4|journal=BMC Genomics|volume=12|issue=Suppl 2|pages=S4|language=en|doi=10.1186/1471-2164-12-S2-S4|issn=1471-2164|pmid=21989143|pmc=PMC3194235}}</ref><ref>{{Cite journal|last=Milanese|first=Alessio|last2=Mende|first2=Daniel R|last3=Paoli|first3=Lucas|last4=Salazar|first4=Guillem|last5=Ruscheweyh|first5=Hans-Joachim|last6=Cuenca|first6=Miguelangel|last7=Hingamp|first7=Pascal|last8=Alves|first8=Renato|last9=Costea|first9=Paul I|date=2019-12|title=Microbial abundance, activity and population genomic profiling with mOTUs2|url=http://www.nature.com/articles/s41467-019-08844-4|journal=Nature Communications|volume=10|issue=1|pages=1014|language=en|doi=10.1038/s41467-019-08844-4|issn=2041-1723|pmid=30833550|pmc=PMC6399450}}</ref>やMetaPhyler<ref>{{Cite journal|last=Liu|first=Bo|last2=Gibbons|first2=Theodore|last3=Ghodsi|first3=Mohammad|last4=Treangen|first4=Todd|last5=Pop|first5=Mihai|date=2011|title=Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences|url=http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4|journal=BMC Genomics|volume=12|issue=Suppl 2|pages=S4|language=en|doi=10.1186/1471-2164-12-S2-S4|issn=1471-2164|pmid=21989143|pmc=PMC3194235}}</ref>などのツールでは、ユニバーサルなマーカー遺伝子を使用して原核生物種のプロファイルを作成する。[https://motu-tool.org/ mOTUsプロファイラー]を使用すると、参照ゲノムなしで系統をプロファイリングでき、微生物群集の多様性の推定ができる<ref>{{Cite journal|last=Milanese|first=Alessio|last2=Mende|first2=Daniel R|last3=Paoli|first3=Lucas|last4=Salazar|first4=Guillem|last5=Ruscheweyh|first5=Hans-Joachim|last6=Cuenca|first6=Miguelangel|last7=Hingamp|first7=Pascal|last8=Alves|first8=Renato|last9=Costea|first9=Paul I|date=2019-12|title=Microbial abundance, activity and population genomic profiling with mOTUs2|url=http://www.nature.com/articles/s41467-019-08844-4|journal=Nature Communications|volume=10|issue=1|pages=1014|language=en|doi=10.1038/s41467-019-08844-4|issn=2041-1723|pmid=30833550|pmc=PMC6399450}}</ref>。[https://github.com/seqan/slimm SLIMM]などの手法では、個々のリファレンスゲノムにおけるリードカバレッジの分布を調べることで、偽陽性を最小限に抑えて信頼性のある相対存在量を計算する<ref>{{Cite journal|last=Dadi|first=Temesgen Hailemariam|last2=Renard|first2=Bernhard Y.|last3=Wieler|first3=Lothar H.|last4=Semmler|first4=Torsten|last5=Reinert|first5=Knut|date=2017-03-28|title=SLIMM: species level identification of microorganisms from metagenomes|url=https://peerj.com/articles/3138|journal=PeerJ|volume=5|pages=e3138|language=en|doi=10.7717/peerj.3138|issn=2167-8359|pmid=28367376|pmc=PMC5372838}}</ref>。一方、組成に基づく系統推定の手法では、オリゴヌクレオチドの頻度やコドン使用頻度のバイアスなどの情報を利用する<ref>{{Cite journal|last=Wooley|first=John C.|last2=Godzik|first2=Adam|last3=Friedberg|first3=Iddo|editor-last=Bourne|editor-first=Philip E.|date=2010-02-26|title=A Primer on Metagenomics|url=https://dx.plos.org/10.1371/journal.pcbi.1000667|journal=PLoS Computational Biology|volume=6|issue=2|pages=e1000667|language=en|doi=10.1371/journal.pcbi.1000667|issn=1553-7358|pmid=20195499|pmc=PMC2829047}}</ref>。配列の由来系統が推定できることで、はじめて菌叢の系統的多様性が比較分析できるようになる。

=== メタデータとの統合 ===
今日、メタゲノムを含むあらゆるゲノム配列データは指数関数的に増加しており、膨大な量のデータがデータベースに蓄積されている。特にメタゲノム解析では、個々のメタゲノム解析プロジェクトとそれに関連するメタデータとの関係が複雑であり、データ量が増加することでより一層全体が複雑化することが課題となっている。メタデータには、メタゲノム解析に用いるために採取された環境サンプルの3次元的な地理情報(どのような緯度、経度、深度または標高から採取されたサンプルなのか)、環境特性(海水、淡水、土壌、など)、サンプリングサイトに関する物理学的なデータ(気温や気圧、水圧、溶存化学成分、など)、サンプリングの方法論、などに関する詳細情報が含まれる<ref name=":5">{{Cite book|title=The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet|url=http://www.nap.edu/catalog/11902|publisher=National Academies Press|date=2007-05-24|location=Washington, D.C.|isbn=978-0-309-10676-4|doi=10.17226/11902}}</ref>。これらの情報は、メタゲノム解析の再現可能性を確保し、さらなる発展的な解析を可能にするために必要な情報となる。この重要性のため、Genomes OnLine Database(GOLD)などでは、メタデータと付属するデータはレビューとキュレーションを受け、標準化されたデータ形式としてデータベース化されている<ref>{{Cite journal|last=Pagani|first=I.|last2=Liolios|first2=K.|last3=Jansson|first3=J.|last4=Chen|first4=I.-M. A.|last5=Smirnova|first5=T.|last6=Nosrat|first6=B.|last7=Markowitz|first7=V. M.|last8=Kyrpides|first8=N. C.|date=2012-01-01|title=The Genomes OnLine Database (GOLD) v.4: status of genomic and metagenomic projects and their associated metadata|url=https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkr1100|journal=Nucleic Acids Research|volume=40|issue=D1|pages=D571–D579|language=en|doi=10.1093/nar/gkr1100|issn=0305-1048|pmid=22135293|pmc=PMC3245063}}</ref>。

メタデータとシーケンスデータを統合的に管理し解析するために、いくつかのツールが開発されており、異なるデータセットを様々な生態学的指標を使用して比較解析することが可能になっている。例えば2007年、Folker MeyerとRobert Edwards、および[[アルゴンヌ国立研究所]]と[[シカゴ大学]]のチームは、メタゲノムデータセット分析のためのコミュニティリソースとして<u>M</u>eta<u>g</u>enomics <u>R</u>apid <u>A</u>nnotation using <u>S</u>ubsystem <u>T</u>echnology(MG-RAST)サーバをリリースした<ref>{{Cite journal|last=Meyer|first=F|last2=Paarmann|first2=D|last3=D'Souza|first3=M|last4=Olson|first4=R|last5=Glass|first5=Em|last6=Kubal|first6=M|last7=Paczian|first7=T|last8=Rodriguez|first8=A|last9=Stevens|first9=R|date=2008-12|title=The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes|url=https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-9-386|journal=BMC Bioinformatics|volume=9|issue=1|pages=386|language=en|doi=10.1186/1471-2105-9-386|issn=1471-2105|pmid=18803844|pmc=PMC2563014}}</ref>。このサーバでは2012年6月の時点で8,000人を超えるユーザーが計50,000を超えるメタゲノムプロジェクトの配列を投稿しており、14.8TB(14x10<sup>12</sup> bp)を超える配列が分析されている他、10,000を超える公開データセットをMG-RAST内で比較することもできる。また、Integrated Microbial Genomes / Metagenomes (IMG/M)システムは、[http://img.jgi.doe.gov/cgi-bin/w/main.cgi Integrated Microbial Genomes] (IMG)システムおよび [http://jgi.doe.gov/programs/GEBA/index.html Genomic Encyclopedia of Bacteria and Archaea (GEBA)]に含まれる単離株のリファレンスゲノムに基づいた、メタゲノム解析による微生物群集機能解析のためのツール群を提供している<ref>{{Cite journal|last=Markowitz|first=V. M.|last2=Chen|first2=I.-M. A.|last3=Chu|first3=K.|last4=Szeto|first4=E.|last5=Palaniappan|first5=K.|last6=Grechkin|first6=Y.|last7=Ratner|first7=A.|last8=Jacob|first8=B.|last9=Pati|first9=A.|date=2012-01-01|title=IMG/M: the integrated metagenome data management and comparative analysis system|url=https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkr975|journal=Nucleic Acids Research|volume=40|issue=D1|pages=D123–D129|language=en|doi=10.1093/nar/gkr975|issn=0305-1048|pmid=22086953|pmc=PMC3245048}}</ref>。

ハイスループットのメタゲノム解析データを分析するために初期に開発されたスタンドアローンなツールの1つは{{仮リンク|MEGAN|en|MEGAN}}である<ref>{{Cite journal|last=Huson|first=D. H.|last2=Mitra|first2=S.|last3=Ruscheweyh|first3=H.-J.|last4=Weber|first4=N.|last5=Schuster|first5=S. C.|date=2011-09-01|title=Integrative analysis of environmental sequences using MEGAN4|url=http://genome.cshlp.org/cgi/doi/10.1101/gr.120618.111|journal=Genome Research|volume=21|issue=9|pages=1552–1560|language=en|doi=10.1101/gr.120618.111|issn=1088-9051|pmid=21690186|pmc=PMC3166839}}</ref><ref>{{Cite journal|last=Huson|first=D. H.|last2=Auch|first2=A. F.|last3=Qi|first3=J.|last4=Schuster|first4=S. C.|date=2007-02-06|title=MEGAN analysis of metagenomic data|url=http://www.genome.org/cgi/doi/10.1101/gr.5969107|journal=Genome Research|volume=17|issue=3|pages=377–386|language=en|doi=10.1101/gr.5969107|issn=1088-9051|pmid=17255551|pmc=PMC1800929}}</ref>。このプログラムは、マンモスの骨から得られたメタゲノム配列を分析するために2005年に使用された<ref>{{Cite journal|last=Poinar|first=Hendrik N.|last2=Schwarz|first2=Carsten|last3=Qi|first3=Ji|last4=Shapiro|first4=Beth|last5=MacPhee|first5=Ross D. E.|last6=Buigues|first6=Bernard|last7=Tikhonov|first7=Alexei|last8=Huson|first8=Daniel H.|last9=Tomsho|first9=Lynn P.|date=2006-01-20|title=Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA|url=https://www.sciencemag.org/lookup/doi/10.1126/science.1123360|journal=Science|volume=311|issue=5759|pages=392–394|language=en|doi=10.1126/science.1123360|issn=0036-8075}}</ref>。このツールはリファレンスゲノムのデータベースとのBLAST検索の結果に基づき、単純な共通祖先(LCA)探索アルゴリズムを使用してリードをNCBI分類のノードに紐付けたり、あるいはリードを[http://www.theseed.org/wiki/Main_Page SEED]や[[KEGG]]の分類ノードに紐付けることにより、系統分類と遺伝子機能の両方を解析することができる<ref>{{Cite journal|last=Mitra|first=Suparna|last2=Rupek|first2=Paul|last3=Richter|first3=Daniel C|last4=Urich|first4=Tim|last5=Gilbert|first5=Jack A|last6=Meyer|first6=Folker|last7=Wilke|first7=Andreas|last8=Huson|first8=Daniel H|date=2011-12|title=Functional analysis of metagenomes and metatranscriptomes using SEED and KEGG|url=https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-S1-S21|journal=BMC Bioinformatics|volume=12|issue=S1|pages=S21|language=en|doi=10.1186/1471-2105-12-S1-S21|issn=1471-2105|pmid=21342551|pmc=PMC3044276}}</ref>。

上述のように今日では、NCBI GenBankのようなゲノム配列データベースは指数関数的に成長している<ref>{{Cite journal|last=Benson|first=Dennis A.|last2=Cavanaugh|first2=Mark|last3=Clark|first3=Karen|last4=Karsch-Mizrachi|first4=Ilene|last5=Lipman|first5=David J.|last6=Ostell|first6=James|last7=Sayers|first7=Eric W.|date=2012-11-26|title=GenBank|url=http://academic.oup.com/nar/article/41/D1/D36/1068219/GenBank|journal=Nucleic Acids Research|volume=41|issue=D1|pages=D36–D42|language=en|doi=10.1093/nar/gks1195|issn=0305-1048|pmid=23193287|pmc=PMC3531190}}</ref>。MG-RASTやMEGANなどのような配列類似性検索ベースのアプローチは、大規模な配列データにアノテーションを付けるには非常に遅く、たとえば中小規模のデータセットに対してでさえ数時間もの実行時間を要してしまうため、より高速で効率的なツールが必要とされており研究が進められている<ref>{{Cite journal|last=Bazinet|first=Adam L|last2=Cummings|first2=Michael P|date=2012-12|title=A comparative evaluation of sequence classification programs|url=https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-92|journal=BMC Bioinformatics|volume=13|issue=1|pages=92|language=en|doi=10.1186/1471-2105-13-92|issn=1471-2105|pmid=22574964|pmc=PMC3428669}}</ref>。たとえばCLARKというツールでは、著者らによると「1分あたり3200万のメタゲノムショートリードを分類可能」と宣伝されており、実際に非常に高速に分類アノテーションを実行できる<ref>{{Cite journal|last=Ounit|first=Rachid|last2=Wanamaker|first2=Steve|last3=Close|first3=Timothy J|last4=Lonardi|first4=Stefano|date=2015-12|title=CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers|url=http://www.biomedcentral.com/1471-2164/16/236|journal=BMC Genomics|volume=16|issue=1|pages=236|language=en|doi=10.1186/s12864-015-1419-2|issn=1471-2164|pmid=25879410|pmc=PMC4428112}}</ref>。この速度であれば、10億本のショートリードであっても30分程度で処理できる。

また、古代DNAではそのサンプルの性質上、DNAの損傷に起因する不確実性(シーケンスのエラー等)が大きい。このような不確実性を超えて保守的な配列類似性を推定できる[https://github.com/pratas/falcon FALCON]のようなツールも登場している<ref name="falcon">{{cite biorxiv|author=Pratas D|author2=Pinho AJ|author3=Silva RM|author4=Rodrigues JMOS|author5=Hosseini M|author6=Caetano T|author7=Ferreira PJSG|title=FALCON: a method to infer metagenomic composition of ancient DNA|date=February 2018|biorxiv=267179}}</ref>。著者らによると、メモリと速度のパフォーマンスに影響を与えることなく、緩いしきい値を使用して配列間距離を計算することが可能である。

=== 比較メタゲノム解析 ===
複雑な微生物群集が持つ[[生理学]]的な機能やその生息環境との関連を調べる上で、さまざまな異なるメタゲノムデータと比較的に解析することは有用である<ref>{{Cite journal|last=Kurokawa|first=Ken|last2=Itoh|first2=Takehiko|last3=Kuwahara|first3=Tomomi|last4=Oshima|first4=Kenshiro|last5=Toh|first5=Hidehiro|last6=Toyoda|first6=Atsushi|last7=Takami|first7=Hideto|last8=Morita|first8=Hidetoshi|last9=Sharma|first9=Vineet K.|date=2007|title=Comparative Metagenomics Revealed Commonly Enriched Gene Sets in Human Gut Microbiomes|url=https://academic.oup.com/dnaresearch/article-lookup/doi/10.1093/dnares/dsm018|journal=DNA Research|volume=14|issue=4|pages=169–181|language=en|doi=10.1093/dnares/dsm018|issn=1756-1663|pmid=17916580|pmc=PMC2533590}}</ref>。メタゲノムデータ間の比較は、配列構成(例えば[[GC含量|GC含有量]]やゲノムサイズの比較)、分類学的多様性(どのような系統の細菌がどのような割合でいるのか)、そして遺伝子機能(どのような機能遺伝子がどのような割合で存在するのか)、といったレベルで行うことができる。群集構造や系統的多様性の比較では、例えば[[16S rRNA系統解析|16S rRNA]]やその他の系統マーカー遺伝子に基づいて行ったり、または多様性の低いコミュニティの場合であればゲノム再構築を経て行うことができる<ref name=":3">{{Cite journal|last=Simon|first=Carola|last2=Daniel|first2=Rolf|date=2011-02-15|title=Metagenomic Analyses: Past and Future Trends|url=http://aem.asm.org/lookup/doi/10.1128/AEM.02345-10|journal=Applied and Environmental Microbiology|volume=77|issue=4|pages=1153–1161|language=en|doi=10.1128/AEM.02345-10|issn=0099-2240|pmid=21169428|pmc=PMC3067235}}</ref>。メタゲノムデータ間の遺伝子機能の比較解析では、例えばCOGや[[KEGG]]といった機能遺伝子のリファレンスデータベースを対象に配列類似性検索にかけ、カテゴリ別に相対存在量を集計して統計的に検証することで、データセット間の違いを評価することができる。系統分類類的な解析とは異なり、このような遺伝子ベースの解析では、''コミュニティ''全体の遺伝子機能の特徴が明らかになる。そして一般には、たとえ別の環境であっても類似した環境条件下であれば、同じような遺伝子機能が分布していることが多い<ref name=":3" />(例えば外洋の海洋表層で取られたサンプルであれば、太平洋でも大西洋でも概ね同じような遺伝子機能の分布を示す)。同時にこのことは、メタゲノムサンプルに付随している環境条件に関するメタデータは、コミュニティの構造と機能に対する生息地の影響を研究する上で、非常に重要である<ref name=":2" />。

さらにいくつかの他の研究では、[[オリゴヌクレオチド]]の出現パターンを利用して、微生物群集全体の差を比較している。そのような方法論の例には、Willnerらが提唱したジヌクレオチド相対存在量によるアプローチや<ref name="willner2009">{{Cite journal|last=Willner|first=D|last2=RV Thurber|last3=F Rohwer|year=2009|title=Metagenomic signatures of 86 microbial and viral metagenomes.|journal=Environmental Microbiology|volume=11|issue=7|pages=1752–66|DOI=10.1111/j.1462-2920.2009.01901.x|PMID=19302541}}</ref>、Ghoshらが提唱したHabiSignアプローチ<ref name="ghosh2011">{{Cite journal|last=Ghosh|first=Tarini Shankar|last2=Monzoorul Haque Mohammed|last3=Hannah Rajasingh|last4=Sudha Chadaram|last5=Sharmila S Mande|year=2011|title=HabiSign: a novel approach for comparison of metagenomes and rapid identification of habitat-specific sequences.|journal=BMC Bioinformatics|volume=12|issue=Supplement 13|pages=S9|DOI=10.1186/1471-2105-12-s13-s9|PMID=22373355|PMC=3278849}}</ref>がある。後者の研究では、特定のサンプリングサイトを特徴づけるような遺伝子配列(またはメタゲノムリード)を特定するために、テトラヌクレオチドの使用パターンの違いも使用できることを示している。さらにTriageTools<ref>{{Cite journal|last=Fimereli|first=Danai|last2=Detours|first2=Vincent|last3=Konopka|first3=Tomasz|date=2013-04-01|title=TriageTools: tools for partitioning and prioritizing analysis of high-throughput sequencing data|url=https://academic.oup.com/nar/article/41/7/e86/1071278|journal=Nucleic Acids Research|volume=41|issue=7|pages=e86–e86|language=en|doi=10.1093/nar/gkt094|issn=1362-4962|pmid=23408855|pmc=PMC3627586}}</ref>やCompareads<ref>{{Cite journal|last=Maillet|first=Nicolas|last2=Lemaitre|first2=Claire|last3=Chikhi|first3=Rayan|last4=Lavenier|first4=Dominique|last5=Peterlongo|first5=Pierre|date=2012-12|title=Compareads: comparing huge metagenomic experiments|url=https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-S19-S10|journal=BMC Bioinformatics|volume=13|issue=S19|pages=S10|language=en|doi=10.1186/1471-2105-13-S19-S10|issn=1471-2105|pmid=23282463|pmc=PMC3526429}}</ref>などの手法では、2つのデータセット間で類似したリードを検出する。この際に使われる類似性の尺度としては、リードのペア間で共有される長さ''kの配列''の数に基づいている。

比較メタゲノム解析の重要な目標の一つは、特定の環境において特定の特性を付与するような、主要な微生物群を特定することである。ただし、これを行う上で、metagenomeSeqというツールで実装されているように、異なるシーケンステクノロジを利用した際のデータバイアスを考慮する必要がある<ref>{{Cite journal|last=Paulson|first=Joseph N|last2=Stine|first2=O Colin|last3=Bravo|first3=Héctor Corrada|last4=Pop|first4=Mihai|date=2013-12|title=Differential abundance analysis for microbial marker-gene surveys|url=http://www.nature.com/articles/nmeth.2658|journal=Nature Methods|volume=10|issue=12|pages=1200–1202|language=en|doi=10.1038/nmeth.2658|issn=1548-7091|pmid=24076764|pmc=PMC4010126}}</ref>。またいくつかの研究においては、微生物群間の微生物間相互作用を解析している。例えば、Community-Analyzerと呼ばれる[[グラフィカルユーザインタフェース|GUI]]ベースの比較メタゲノム解析アプリケーションが、Kuntalらによって開発されている<ref name="kuntal2013">{{Cite journal|last=Bhusan|first=Kuntal Kumar|last2=Tarini Shankar Ghosh|last3=Sharmila S Mande|year=2013|title=Community-analyzer: a platform for visualizing and comparing microbial community structure across microbiomes|journal=Genomics|volume=102|issue=4|pages=409–418|DOI=10.1016/j.ygeno.2013.08.004|PMID=23978768}}</ref>。このツールでは相関ベースのグラフアルゴリズムを実装し、系統分類学的な微生物群集構造の違いを視覚化し、さらにそのサンプル固有の微生物間相互作用を推測できる。

== 発展的・派生的な解析技術 ==

=== 細菌コミュニティにおける代謝 ===
天然の環境や人工的な環境([[バイオリアクター]]など)下では、多くの細菌のコミュニティで分業的(共生的)な代謝活動を行っており、例えばある生物種が生産する代謝廃棄物が他の生物の代謝産物のベース(餌)になる、というような関係が往々にして見られる<ref>{{Cite journal|last=Werner|first=J. J.|last2=Knights|first2=D.|last3=Garcia|first3=M. L.|last4=Scalfone|first4=N. B.|last5=Smith|first5=S.|last6=Yarasheski|first6=K.|last7=Cummings|first7=T. A.|last8=Beers|first8=A. R.|last9=Knight|first9=R.|date=2011-03-08|title=Bacterial community structures are unique and resilient in full-scale bioenergy systems|url=http://www.pnas.org/cgi/doi/10.1073/pnas.1015676108|journal=Proceedings of the National Academy of Sciences|volume=108|issue=10|pages=4158–4163|language=en|doi=10.1073/pnas.1015676108|issn=0027-8424|pmid=21368115|pmc=PMC3053989}}</ref>。例えば[[メタン菌|メタン生成]]バイオリアクターにおいては、その機能的な安定性を確保しつつ原料を完全に[[メタン]]に分解するために、いくつかの共生種([[シントロフォバクター目|Syntrophobacterales]]および[[シネルギステス門|Synergistia]])を共存させる必要がある<ref>{{Cite journal|last=McInerney|first=Michael J|last2=Sieber|first2=Jessica R|last3=Gunsalus|first3=Robert P|date=2009-12|title=Syntrophy in anaerobic global carbon cycles|url=https://linkinghub.elsevier.com/retrieve/pii/S0958166909001293|journal=Current Opinion in Biotechnology|volume=20|issue=6|pages=623–632|language=en|doi=10.1016/j.copbio.2009.10.001|pmid=19897353|pmc=PMC2790021}}</ref>。[[マイクロアレイ]]などによる遺伝子研究や[[プロテオーム解析|プロテオミクス]]による遺伝子発現測定を行うことで、種の境界を超えて代謝ネットワークをつなぎ合わせることができる。このような研究では、どのような機能タンパク質がどの系統群、種、株などによって保持されているかについて、詳細な知識が必要となる。そのため、メタゲノム解析から得られるコミュニティのゲノム情報は、[[メタボロミクス]]やプロテオミクスによる代謝ネットワーク解析においても、重要な情報となる<ref>{{Cite journal|last=Klitgord|first=Niels|last2=Segrè|first2=Daniel|date=2011-08|title=Ecosystems biology of microbial metabolism|url=https://linkinghub.elsevier.com/retrieve/pii/S0958166911000814|journal=Current Opinion in Biotechnology|volume=22|issue=4|pages=541–546|language=en|doi=10.1016/j.copbio.2011.04.018}}</ref>。

=== メタトランスクリプトーム解析 ===
メタゲノム解析により、微生物群集の機能的および代謝的な多様性を観測できるが、ゲノム情報からのみでは、どの代謝プロセスが活発に活動しているのか(遺伝子の転写が活発に起きているのか)を示すことはできない<ref name=":3" />。メタゲノム解析と似たような考え方で、細菌コミュニティから[[伝令RNA|mRNA]]を網羅的に抽出して解析する、いわゆる'''メタトランスクリプトーム解析(Metatranscriptome)'''の登場により、コミュニティにおける遺伝子発現のプロファイルを得ることができるようになった<ref name=":3" />。この技術は、最初に土壌中のアンモニア酸化に関する解析に用いられた<ref>{{Cite journal|last=Leininger|first=S.|last2=Urich|first2=T.|last3=Schloter|first3=M.|last4=Schwark|first4=L.|last5=Qi|first5=J.|last6=Nicol|first6=G. W.|last7=Prosser|first7=J. I.|last8=Schuster|first8=S. C.|last9=Schleper|first9=C.|date=2006-08|title=Archaea predominate among ammonia-oxidizing prokaryotes in soils|url=http://www.nature.com/articles/nature04983|journal=Nature|volume=442|issue=7104|pages=806–809|language=en|doi=10.1038/nature04983|issn=0028-0836}}</ref>。一方で、mRNAはDNAに比べて圧倒的に分解されやすいため、環境サンプルからRNAを収集することには様々な技術的困難がある<ref name=":3" />。

=== ウイルスを対象としたメタゲノム解析(Virome) ===
メタゲノム解析はバクテリアやアーキアといった原核微生物がターゲットになることが多いが、[[ウイルス]](特にDNA2本鎖ウイルス)に対しても応用することができる。ウイルスには系統間で共通の普遍的なマーカー遺伝子(例えば細菌や古細菌における[[16S rRNA系統解析|16S RNA]]や、真核生物における[[18SリボソームRNA|18S RNA]]など)がないため、PCRを介した系統解析が難しい。そのため、環境サンプルからウイルスコミュニティの遺伝的多様性にアクセスする方法として、ウイルスをターゲットとしたメタゲノム解析が有力な方法となっている。このようなウイルスのメタゲノム解析は'''Virome'''(日本語では'''ビローム'''、'''ウイローム'''、'''ヴァイローム'''、などと発音される)と呼ばれ、ウイルスの多様性や進化に関して有力な解析手段となっている<ref>{{Cite journal|date=August 2016|title=Uncovering Earth's virome|url=http://www.escholarship.org/uc/item/4zh090xt|journal=Nature|volume=536|issue=7617|pages=425–30|bibcode=2016Natur.536..425P|DOI=10.1038/nature19094|PMID=27533034}}</ref><ref>{{Cite journal|date=January 2017|title=IMG/VR: a database of cultured and uncultured DNA Viruses and retroviruses|journal=Nucleic Acids Research|volume=45|issue=D1|pages=D457-D465|DOI=10.1093/nar/gkw1030|PMID=27799466|PMC=5210529}}</ref><ref>{{Cite journal|date=January 2019|title=IMG/VR v.2.0: an integrated data management and analysis system for cultivated and environmental viral genomes|journal=Nucleic Acids Research|volume=47|issue=D1|pages=D678-D686|DOI=10.1093/nar/gky1127|PMID=30407573|PMC=6323928}}</ref><ref>{{Cite journal|last=Paez-Espino|first=David|last2=Pavlopoulos|first2=Georgios A|last3=Ivanova|first3=Natalia N|last4=Kyrpides|first4=Nikos C|date=2017-08|title=Nontargeted virus sequence discovery pipeline and virus clustering for metagenomic data|url=http://www.nature.com/articles/nprot.2017.063|journal=Nature Protocols|volume=12|issue=8|pages=1673–1682|language=en|doi=10.1038/nprot.2017.063|issn=1754-2189}}</ref><ref>{{Cite journal|last=Kristensen|first=David M.|last2=Mushegian|first2=Arcady R.|last3=Dolja|first3=Valerian V.|last4=Koonin|first4=Eugene V.|date=2010-01|title=New dimensions of the virus world discovered through metagenomics|url=https://linkinghub.elsevier.com/retrieve/pii/S0966842X0900242X|journal=Trends in Microbiology|volume=18|issue=1|pages=11–19|language=en|doi=10.1016/j.tim.2009.11.003|pmid=19942437|pmc=PMC3293453}}</ref>。たとえば、Giant Virus Finderと呼ばれる解析パイプラインでは、塩性砂漠や南極に巨大ウイルスが存在する最初の証拠を示した<ref name="connectome">{{Cite journal|date=March 2016|title=Giant viruses of the Kutch Desert|journal=Archives of Virology|volume=161|issue=3|pages=721–4|arxiv=1410.1278|DOI=10.1007/s00705-015-2720-8|PMID=26666442}}</ref><ref name="kettes">{{Cite journal|date=June 2017|title=The "Giant Virus Finder" discovers an abundance of giant viruses in the Antarctic dry valleys|journal=Archives of Virology|volume=162|issue=6|pages=1671–1676|arxiv=1503.05575|DOI=10.1007/s00705-017-3286-4|PMID=28247094}}</ref>。

== メタゲノム解析の応用 ==
メタゲノム解析は、[[医学]]や[[工学]]、[[農業]]、[[生態学]]などの様々な分野に応用されており、課題解決に役立つ可能性がある<ref name=":5" /><ref>{{Cite journal|date=Sep-Oct 2017|title=The World Within Us|url=http://claudiacopeland.com/uploads/3/5/5/6/35560346/_hjno_the_world_within_us.pdf|journal=Healthcare Journal of New Orleans|volume=|pages=21-26}}</ref>。

=== 農業への応用 ===
植物が成長しているような一般的な[[土壌]]には、1グラムあたり10<sup>9</sup>-10<sup>10</sup>細胞もの微生物が生息している<ref>{{Cite journal|last=Jansson|first=Janet|date=2011-01-01|title=Towards “Tera-Terra”: Terabase Sequencing of Terrestrial Metagenomes: Microbial ecologists are taking a metagenomics approach to analyze complex and diverse soil microbial communities|url=http://www.asmscience.org/content/journal/microbe/10.1128/microbe.6.309.1|journal=Microbe Magazine|volume=6|issue=7|pages=309–315|language=en|doi=10.1128/microbe.6.309.1|issn=1558-7452}}</ref><ref>{{Cite journal|last=Vogel|first=Timothy M.|last2=Simonet|first2=Pascal|last3=Jansson|first3=Janet K.|last4=Hirsch|first4=Penny R.|last5=Tiedje|first5=James M.|last6=van Elsas|first6=Jan Dirk|last7=Bailey|first7=Mark J.|last8=Nalin|first8=Renaud|last9=Philippot|first9=Laurent|date=2009-04|title=TerraGenome: a consortium for the sequencing of a soil metagenome|url=http://www.nature.com/articles/nrmicro2119|journal=Nature Reviews Microbiology|volume=7|issue=4|pages=252–252|language=en|doi=10.1038/nrmicro2119|issn=1740-1526}}</ref>。土壌に生息する微生物群集は非常に複雑であるため、農業等で経済的に重要であるにもかかわらず、土壌細菌叢の理解は不十分なままである。土壌中の細菌叢は、大気中の窒素の固定や栄養循環、病気の抑制、[[シデロフォア]]による[[鉄]]やその他の[[金属]]の隔離など、植物の成長を手助けするさまざまな[[生態系サービス]]の役割を担っている。メタゲノム解析により、これらの微生物群集の非培養的な研究を通じて、植物と微生物間の相互作用を解析する研究が進められている<ref>{{Cite book|title=Metagenomics : theory, methods, and applications|url=https://www.worldcat.org/oclc/351318426|publisher=Caister Academic Press|date=2010|location=Wymondham|isbn=978-1-904455-54-7|oclc=351318426|others=Marco, Diana.}}</ref><ref>{{Cite journal|date=22 May 2015|title=Pivotal roles of phyllosphere microorganisms at the interface between plant functioning and atmospheric trace gas dynamics|journal=Frontiers in Microbiology|volume=6|pages=486|DOI=10.3389/fmicb.2015.00486|PMID=26052316|PMC=4440916}}</ref>。メタゲノム解析によるアプローチでは、これまでに培養されていない、あるいは存在量は少ない微生物系統が持つ、栄養循環と植物成長の促進における役割について、有力な情報を提供する可能性がある。このことにより、例えば[[農作物|作物]]や[[家畜]]の感染症の検出や農作物の生育改善といった、農作業プロセスの改善に繋がると考えられている<ref name=":5" />。

=== バイオ燃料への応用 ===
[[ファイル:Pg166_bioreactor.jpg|リンク=https://ja-two.iwiki.icu/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Pg166_bioreactor.jpg|サムネイル|[[バイオリアクター]]では、微生物群集の活動により、[[バイオマス]]を[[セルロシック・エタノール|セルロース系エタノール]]に変換している。]]
[[バイオ燃料]]とは、[[トウモロコシ]]の茎やスイッチグラスといったバイオマスに含まれる[[セルロース]]を変換し、[[セルロシック・エタノール|セルロース系エタノール]]にして得られる燃料である<ref name=":5" />。この変換プロセスでは、細菌叢の活動によってセルロースが[[砂糖|糖]]に変換され、その後さらに糖が[[エタノール]]へと[[アルコール発酵|発酵]]される。また他にも、[[メタン菌|メタン]]や[[水素]]などのさまざまな生物エネルギー源も微生物が生成することが知られている<ref name=":5" />。

バイオマスを効率的に分解し、産業規模でバイオ燃料を生産するためには、より高い生産性と低コストな新規[[酵素]]が必要となる<ref name=":4" />。メタゲノム解析を用いて複雑な微生物群集を解析することで、[[グリコシダーゼ|グリコシド加水分解酵素]]などのバイオ燃料生産における有用な[[酵素]]のスクリーニングが可能になる<ref>{{Cite journal|last=Li|first=Luen-Luen|last2=McCorkle|first2=Sean R|last3=Monchy|first3=Sebastien|last4=Taghavi|first4=Safiyh|last5=van der Lelie|first5=Daniel|date=2009|title=Bioprospecting metagenomes: glycosyl hydrolases for converting biomass|url=http://biotechnologyforbiofuels.biomedcentral.com/articles/10.1186/1754-6834-2-10|journal=Biotechnology for Biofuels|volume=2|issue=1|pages=10|language=en|doi=10.1186/1754-6834-2-10|issn=1754-6834|pmid=19450243|pmc=PMC2694162}}</ref>。また、これらの微生物群集がどのような生態系を営んでいるかを理解することは、その細菌叢を制御する上でために必要であり、メタゲノム解析は有用な解析手法となり得る。メタゲノム解析によって、[[バイオガス]]発酵槽<ref>{{Cite journal|last=Jaenicke|first=Sebastian|last2=Ander|first2=Christina|last3=Bekel|first3=Thomas|last4=Bisdorf|first4=Regina|last5=Dröge|first5=Marcus|last6=Gartemann|first6=Karl-Heinz|last7=Jünemann|first7=Sebastian|last8=Kaiser|first8=Olaf|last9=Krause|first9=Lutz|editor-last=Aziz|editor-first=Ramy K.|date=2011-01-26|title=Comparative and Joint Analysis of Two Metagenomic Datasets from a Biogas Fermenter Obtained by 454-Pyrosequencing|url=https://dx.plos.org/10.1371/journal.pone.0014519|journal=PLoS ONE|volume=6|issue=1|pages=e14519|language=en|doi=10.1371/journal.pone.0014519|issn=1932-6203|pmid=21297863|pmc=PMC3027613}}</ref>や[[ハキリアリ|ハキリバチ]]の共生真菌<ref>{{Cite journal|last=Suen|first=Garret|last2=Scott|first2=Jarrod J.|last3=Aylward|first3=Frank O.|last4=Adams|first4=Sandra M.|last5=Tringe|first5=Susannah G.|last6=Pinto-Tomás|first6=Adrián A.|last7=Foster|first7=Clifton E.|last8=Pauly|first8=Markus|last9=Weimer|first9=Paul J.|editor-last=Sonnenburg|editor-first=Justin|date=2010-09-23|title=An Insect Herbivore Microbiome with High Plant Biomass-Degrading Capacity|url=https://dx.plos.org/10.1371/journal.pgen.1001129|journal=PLoS Genetics|volume=6|issue=9|pages=e1001129|language=en|doi=10.1371/journal.pgen.1001129|issn=1553-7404|pmid=20885794|pmc=PMC2944797}}</ref>といった環境中に生息する細菌叢の比較解析研究が報告されている。

=== バイオテクノロジーへの応用 ===
微生物群集は、菌叢の内部で繰り広げられる競争とコミュニケーションで使用される、生理学的に活性な化学物質を生産している。今日使用されている薬物の多くは、もともと微生物で発見されたものが多く存在する。そして、未培養系統の微生物が持つ豊富な遺伝資源の探索することで、新しい酵素や天然物及びそれらをコードする遺伝子の発見がなされている<ref>{{Cite journal|last=Simon|first=Carola|last2=Daniel|first2=Rolf|date=2009-11|title=Achievements and new knowledge unraveled by metagenomic approaches|url=http://link.springer.com/10.1007/s00253-009-2233-z|journal=Applied Microbiology and Biotechnology|volume=85|issue=2|pages=265–276|language=en|doi=10.1007/s00253-009-2233-z|issn=0175-7598|pmid=19760178|pmc=PMC2773367}}</ref>。メタゲノム解析の応用により、[[ファインケミカル]]の生産や[[農薬]]、[[医薬品]]等に応用可能な新規遺伝子の探索が進められており、また新規な酵素触媒による[[キラル]]合成なども注目を集めている<ref>{{Cite book|title=Metagenomics : theory, methods, and applications|url=https://www.worldcat.org/oclc/351318426|publisher=Caister Academic Press|date=2010|location=Wymondham|isbn=978-1-904455-54-7|oclc=351318426|others=Marco, Diana.}}</ref>。

メタゲノム解析をバイオテクノロジーへ応用する際には、大きく分けて2種類の方針がとられる。一つは発現形質に基づく機能駆動型スクリーニングであり、もう一つはDNA配列に基づく配列駆動型スクリーニングである<ref name=":6">{{Cite journal|last=Schloss|first=Patrick D|last2=Handelsman|first2=Jo|date=2003-06|title=Biotechnological prospects from metagenomics|url=https://linkinghub.elsevier.com/retrieve/pii/S0958166903000673|journal=Current Opinion in Biotechnology|volume=14|issue=3|pages=303–310|language=en|doi=10.1016/S0958-1669(03)00067-3}}</ref>。機能駆動のスクリーニングでは、目的の特性や有用な活性を示すような配列をDNAクローニングと遺伝子発現実験から特定し、続いて生化学的特性評価と配列解析を行う。このアプローチでは、適切なスクリーニングの利用可能性や、求めている形質が宿主細胞で発現されるかどうか、といった要件によって制限される。さらに、一般的にこのアプローチは発見率が低く(1,000もの配列をクローニングしてスクリーニングしても、1配列も当たらないことが往々にしてある)、労働集約的な作業が必要となる<ref name=":7">{{Cite journal|last=Kakirde|first=Kavita S.|last2=Parsley|first2=Larissa C.|last3=Liles|first3=Mark R.|date=2010-11|title=Size does matter: Application-driven approaches for soil metagenomics|url=https://linkinghub.elsevier.com/retrieve/pii/S0038071710002695|journal=Soil Biology and Biochemistry|volume=42|issue=11|pages=1911–1923|language=en|doi=10.1016/j.soilbio.2010.07.021|pmid=21076656|pmc=PMC2976544}}</ref>。対照的に配列駆動のアプローチでは、既知のDNA配列を使用して[[プライマー (生物)|PCRプライマー]]を設計し、目的配列のPCR増幅を配列決定経てスクリーニングを行う<ref name=":6" />。前者のクローニングベースのアプローチと比較して、後者のシーケンスのみのアプローチでは、必要な実験量が大幅に少ない。また、次世代シーケンサーの適用により、膨大な量の配列データを生み出すこともできるが、得られたデータの解析にはバイオインフォマティクス解析が必要になる<ref name=":7" />。配列駆動型アプローチは、配列データベースに含まれる遺伝子機能の量と精度によって制限される。そのため現実的には、目的の機能やスクリーニングするサンプルの複雑さ、およびその他の要因に基づいて、機能駆動形と配列駆動形の両方アプローチを組み合わせて利用することが多い<ref name=":7" /><ref>{{Cite journal|last=Parachin|first=Nádia|last2=Gorwa-Grauslund|first2=Marie F|date=2011|title=Isolation of xylose isomerases by sequence- and function-based screening from a soil metagenomic library|url=http://biotechnologyforbiofuels.biomedcentral.com/articles/10.1186/1754-6834-4-9|journal=Biotechnology for Biofuels|volume=4|issue=1|pages=9|language=en|doi=10.1186/1754-6834-4-9|issn=1754-6834|pmid=21545702|pmc=PMC3113934}}</ref>。メタゲノム解析から得られた有用物質の例としては、マラシジンという抗生物質などが知られている<ref name="Hover_2018">{{Cite journal|date=April 2018|title=Culture-independent discovery of the malacidins as calcium-dependent antibiotics with activity against multidrug-resistant Gram-positive pathogens|journal=Nature Microbiology|volume=3|issue=4|pages=415–422|DOI=10.1038/s41564-018-0110-1|PMID=29434326|PMC=5874163}}</ref>。

=== 生態学研究への応用 ===
メタゲノム解析は、環境コミュニティが持つ機能生態学に関する貴重な洞察を提供する<ref name="raes2011">{{Cite journal|date=March 2011|title=Toward molecular trait-based ecology through integration of biogeochemical, geographical and metagenomic data|journal=Molecular Systems Biology|volume=7|pages=473|DOI=10.1038/msb.2011.6|PMID=21407210|PMC=3094067}}</ref>。例えば[[オーストラリア]]の[[アシカ]]の排便を対象としたメタゲノム解析では、栄養豊富なアシカの糞が、沿岸生態系の栄養源として重要である可能性を示唆している。これは、排便と同時に排出される細菌が、糞中の栄養素を分解し、食物連鎖に組み込みやすい形に変換しているからである<ref name="lavery2012">{{Cite journal|year=2012|title=High nutrient transport and cycling potential revealed in the microbial metagenome of Australian sea lion (Neophoca cinerea) faeces|journal=PloS One|volume=7|issue=5|pages=e36478|bibcode=2012PLoSO...736478L|DOI=10.1371/journal.pone.0036478|PMID=22606263|PMC=3350522}}</ref>。

=== バイオレメディエーションへの応用 ===
メタゲノム解析は、[[生態系]]に対する[[汚染物質]]の影響をモニタリングし、[[汚染物質|汚染]]された環境を浄化するための戦略の策定に利用できる。具体的には、汚染環境下に生息する微生物群集がどのようにしてその汚染物質に対処するか(代謝的に分解しているのか、あるいは無力化しているのか、など)を解明することで、汚染環境の評価方法を向上させたり、生物的な汚染物質の除去、すなわち[[バイオレメディエーション]]の技術開発に繋がると考えられている<ref>{{Cite book|title=Metagenomics : theory, methods, and applications|url=https://www.worldcat.org/oclc/351318426|publisher=Caister Academic Press|date=2010|location=Wymondham|isbn=978-1-904455-54-7|oclc=351318426|others=Marco, Diana.}}</ref>。

=== ヒト常在細菌叢への応用 ===
[[腸内細菌]]を含むヒト常在菌は、[[健康]]を維持する上で重要な役割を果たしていると考えられているが、その菌叢構造や生態学的メカニズムは十分には分かっておらず様々な人種や体組織において、メタゲノム解析による大規模なシーケンス研究が進められている。例えばHuman Microbiomeプロジェクトでは、250人以上の個人の15〜18の身体部位について解析がなされている。このプロジェクトでは、ヒトの健康と相関する可能性のある[[ヒトマイクロバイオーム]]を理解し、その目標のために必要となる新しい実験的および[[バイオインフォマティクス]]技術を開発するということを目標としている<ref>{{Cite book|title=Metagenomics : theory, methods, and applications|url=https://www.worldcat.org/oclc/351318426|publisher=Caister Academic Press|date=2010|location=Wymondham|isbn=978-1-904455-54-7|oclc=351318426|others=Marco, Diana.}}</ref>。

また別のプロジェクトであるMetaHit(Metagenomics of the Human Intestinal Tract、ヒト腸管のメタゲノミクス)の一部として行われた研究は、健常者や肥満者、過敏性腸疾患患者などからなる124人のデンマークとスペインの個人を解析している。この研究は、胃腸に生息する細菌叢が消化管の深さに応じてどのような系統的多様性を持つのかに関して調べている。その結果、[[バクテロイデス門|バクテロイデス]](Bacteroidetes)と[[ファーミキューテス]](Firmicutes)の2つの細菌門が、腸内細菌叢の90%以上を構成する系統群であるということを実証した。また、メタゲノム解析から得られた遺伝子配列の出現頻度を利用して、腸管の健康にとって重要な可能性がある1,244個の遺伝子クラスターを特定した。このクラスターには、ハウスキーピング遺伝子の他に、腸特有の機能を持つ遺伝子の2タイプが含まれていた。前者はあらゆる細菌に必須なハウスキーピング遺伝子から構成されており、炭素代謝やアミノ酸合成などの主要な代謝経路に関連した機能を持っていた。一方で後者の腸特有の機能には、宿主タンパク質への接着やグロボシリーズ[[糖脂質]]からの糖生成に関する機能が見られた。過敏性腸症候群の患者は、健常者と比較して菌叢中の遺伝子と系統多様性が25%低く、腸内細菌叢の多様性の変化がこの疾患状態に関連している可能性が示唆された。この研究では、いくつかの潜在的に価値のある医学的応用が強調されているている。しかしながらが、リード全体では31–48.8%程度のリードしか194の既知のヒト腸内細菌ゲノムにマップされず、7.6–21.2%のゲノムしか[[GenBank]]で利用可能な細菌ゲノムと整合していなかったため、さらなる未解読の新規細菌ゲノムを明らかにしていく研究を進めていく必要がある<ref>{{Cite journal|date=March 2010|title=A human gut microbial gene catalogue established by metagenomic sequencing|journal=Nature|volume=464|issue=7285|pages=59–65|bibcode=2010Natur.464...59.|DOI=10.1038/nature08821|PMID=20203603|PMC=3779803}}</ref>。

=== 感染症診断への応用 ===
感染症を診断し、その感染の根底にある病因を特定することは、困難であることが多い。例えば[[脳炎]]の症例の半数以上は、最先端の臨床検査法を用いた広範な検査であっても診断がつかないことがある。メタゲノム解析では、患者のサンプルに含まれる遺伝物質を、何千もの細菌、ウイルス、その他の病原体のゲノムデータが含まれたデータベースと比較することで、高感度に感染の診断を行うことができるため、診断手法として応用が期待されている。

== 歴史と背景 ==
従来のDNAシーケンスは、単一の細菌株を培養することが最初に必要であった。しかし初期のメタゲノム解析の研究により、多くの環境には培養が不可能でシーケンスが困難な微生物が多く存在することが明らかにされた。これらの初期の研究では[[16S rRNA]]遺伝子配列を調べることに焦点が当てられた。この遺伝子配列は比較的短く、原核生物種内において保存性が高い一方で、異なる種間で変化が見られるため、ゲノム全体をシーケンスするよりも簡便に環境中の微生物群集を系統的に調べることが出来る。多くの環境サンプルに対して16S rRNA遺伝子配列のDNAシーケンスが実施され、その結果、培養されている既知の生物種には当てはまらない配列が多数見つかった。このことはすなわち、環境中には極めて多様な未培養系統群の微生物が存在していることを示している。このようにして16S rRNA遺伝子配列を培養を経ず環境中から直接得た研究により、培養を元にした方法で見つけられる試料中の[[真性細菌]]・[[古細菌]]は全体の1%に満たないことが論文で報告された<ref>Hugenholz, P; Goebel BM; Pace NR (1 September 1998). "Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity". ''J. Bacteriol'' '''180'''(18): 4765–74. PMC 107498.PMID 9733676</ref>。

[[ポリメラーゼ連鎖反応|PCR]]を使用してリボソームRNA配列の多様性を調査するという初期の分子生物学的な研究は、ノーマンR.ペースと同僚によって行われた<ref>{{Cite journal|last=Lane|first=D. J.|last2=Pace|first2=B.|last3=Olsen|first3=G. J.|last4=Stahl|first4=D. A.|last5=Sogin|first5=M. L.|last6=Pace|first6=N. R.|date=1985-10|title=Rapid determination of 16S ribosomal RNA sequences for phylogenetic analyses|url=https://www.ncbi.nlm.nih.gov/pubmed/2413450|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=82|issue=20|pages=6955–6959|doi=10.1073/pnas.82.20.6955|issn=0027-8424|pmid=2413450|pmc=PMC391288}}</ref>。これらの先駆的な研究から得られた知見から発展して、環境試料から直接DNAをクローニングするアイデアが1985年に発表された<ref>{{Cite book|title=Advances in Microbial Ecology|last=Pace|editor-first=K. C.|last4=Olsen|first4=Gary J.|last3=Lane|first3=David J.|last2=Stahl|first2=David A.|first=Norman R.|url=https://doi.org/10.1007/978-1-4757-0611-6_1|language=en|doi=10.1007/978-1-4757-0611-6_1|pages=1–55|isbn=978-1-4757-0611-6|location=Boston, MA|date=1986|publisher=Springer US|editor-last=Marshall}}</ref>。そして、実際に大西洋の海水という環境サンプルからDNAを抽出してクローニングした最初の報告が、Paceらによって1991年に発表された<ref>{{Cite journal|last=Schmidt|first=T M|last2=DeLong|first2=E F|last3=Pace|first3=N R|date=1991|title=Analysis of a marine picoplankton community by 16S rRNA gene cloning and sequencing.|url=https://jb.asm.org/content/173/14/4371|journal=Journal of Bacteriology|volume=173|issue=14|pages=4371–4378|language=en|doi=10.1128/JB.173.14.4371-4378.1991|issn=0021-9193|pmid=2066334|pmc=PMC208098}}</ref>。これらが[[ポリメラーゼ連鎖反応|PCR]]偽陽性ではないことが相当な努力により示され、未探索の系統群によって形作られる複雑な微生物コミュニティの存在が示唆された。この方法論は、高度に保存された非タンパク質コード遺伝子の探索に限定されていたが、培養方法で知られていたよりもはるかに複雑な多様性が存在するという、初期の微生物形態ベースの観察結果をサポートしていた。すぐその後、Healyは実験室に置いていた乾燥した草の上で増殖していた環境微生物の複合培養物から構築した「動物園ライブラリ」(zoolibraries)とでも呼ぶべきものから、機能遺伝子をメタゲノム的に単離したと1995年に報告した<ref>{{Cite journal|last=Healy|first=F. G.|last2=Ray|first2=R. M.|last3=Aldrich|first3=H. C.|last4=Wilkie|first4=A. C.|last5=Ingram|first5=L. O.|last6=Shanmugam|first6=K. T.|date=1995-09|title=Direct isolation of functional genes encoding cellulases from the microbial consortia in a thermophilic, anaerobic digester maintained on lignocellulose|url=http://link.springer.com/10.1007/BF00164771|journal=Applied Microbiology and Biotechnology|volume=43|issue=4|pages=667–674|language=en|doi=10.1007/BF00164771|issn=0175-7598}}</ref>。その後Edward DeLongらは、[[生物海洋学|海洋]]サンプルからライブラリー構築と[[16S rRNA]]シーケンスを実施し、環境中の原核生物を系統的に解析する研究の基礎を築いた<ref>{{Cite journal|last=Stein|first=J L|last2=Marsh|first2=T L|last3=Wu|first3=K Y|last4=Shizuya|first4=H|last5=DeLong|first5=E F|date=1996|title=Characterization of uncultivated prokaryotes: isolation and analysis of a 40-kilobase-pair genome fragment from a planktonic marine archaeon.|url=https://jb.asm.org/content/178/3/591|journal=Journal of bacteriology|volume=178|issue=3|pages=591–599|language=en|doi=10.1128/JB.178.3.591-599.1996|issn=0021-9193|pmid=8550487|pmc=PMC177699}}</ref>。

2002年、Mya BreitbartとForest Rohwerらは、ショットガンシーケンスを使用して、200リットルの海水に5000種類以上のウイルスが含まれていることを示した<ref>{{Cite journal|last=Breitbart|first=M.|last2=Salamon|first2=P.|last3=Andresen|first3=B.|last4=Mahaffy|first4=J. M.|last5=Segall|first5=A. M.|last6=Mead|first6=D.|last7=Azam|first7=F.|last8=Rohwer|first8=F.|date=2002-10-29|title=Genomic analysis of uncultured marine viral communities|url=http://www.pnas.org/cgi/doi/10.1073/pnas.202488399|journal=Proceedings of the National Academy of Sciences|volume=99|issue=22|pages=14250–14255|language=en|doi=10.1073/pnas.202488399|issn=0027-8424|pmid=12384570|pmc=PMC137870}}</ref>。その後の研究により、ヒトの糞便には1000種以上の[[ウイルスの分類|ウイルス種]]が存在し、また海洋堆積物1キログラムあたりには多くの[[ファージ|バクテリオファージ]]を含む百万種ものウイルスが存在する可能性があることが示された。そして、これらの研究で見つかったウイルスは大半が新種であった。2004年には、Gene TysonとJill Banfieldらは、酸性の鉱山排水システムから抽出された細菌叢DNAの配列を決定した<ref>{{Cite journal|last=Tyson|first=Gene W.|last2=Chapman|first2=Jarrod|last3=Hugenholtz|first3=Philip|last4=Allen|first4=Eric E.|last5=Ram|first5=Rachna J.|last6=Richardson|first6=Paul M.|last7=Solovyev|first7=Victor V.|last8=Rubin|first8=Edward M.|last9=Rokhsar|first9=Daniel S.|date=2004-03|title=Community structure and metabolism through reconstruction of microbial genomes from the environment|url=http://www.nature.com/articles/nature02340|journal=Nature|volume=428|issue=6978|pages=37–43|language=en|doi=10.1038/nature02340|issn=0028-0836}}</ref>。この研究では、培養が試みられつつも成功していなかった少数の細菌および[[古細菌]]系統の、完全またはほぼ完全なゲノムが得られている。

2003年からは、[[ヒトゲノム計画|ヒトゲノムプロジェクト]]に並行して進められた民間資金ベースの[[ヒトゲノム計画|プロジェクト]]をリーダーとして率いていた[[クレイグ・ヴェンター|Craig Venter]]が、[[グローバル・オーシャン・サンプリング・エクスペディション]] (GOS)を主導し、世界中を周回する旅を通じてメタゲノムサンプルを蒐集した。得られたサンプルはすべて、新規なゲノム(すなわち新規生物)が特定されることを期待して、ショットガンシーケンスが実施された。これに先駆けて実施されたパイロットプロジェクトでは、[[サルガッソ海|サルガッソー海]]で採取したサンプルの解析を行い、約2000種もの異なるDNAを発見し、内148種は新規な[[細菌]]種に由来すると考えられた<ref>{{Cite journal|last=Venter|first=J. C.|date=2004-04-02|title=Environmental Genome Shotgun Sequencing of the Sargasso Sea|url=https://www.sciencemag.org/lookup/doi/10.1126/science.1093857|journal=Science|volume=304|issue=5667|pages=66–74|language=en|doi=10.1126/science.1093857|issn=0036-8075}}</ref>。ベンターは地球を一周し、[[アメリカ合衆国西海岸|米国西海岸]]を集中的にサンプリングし、さらに2年間をかけて[[バルト海]]、[[地中海]]、[[黒海]]でサンプリングを行った。この間に収集されたメタゲノムデータの分析により海洋表層の細菌層は、富栄養/貧栄養の環境条件に適応した分類群と、比較的少ないがより豊富で広く分布する主に[[プランクトン]]で構成される分類群という、2つのグループによって構成されていることが判明した<ref>{{Cite journal|last=Yooseph|first=Shibu|last2=Nealson|first2=Kenneth H.|last3=Rusch|first3=Douglas B.|last4=McCrow|first4=John P.|last5=Dupont|first5=Christopher L.|last6=Kim|first6=Maria|last7=Johnson|first7=Justin|last8=Montgomery|first8=Robert|last9=Ferriera|first9=Steve|date=2010-11|title=Genomic and functional adaptation in surface ocean planktonic prokaryotes|url=http://www.nature.com/articles/nature09530|journal=Nature|volume=468|issue=7320|pages=60–66|language=en|doi=10.1038/nature09530|issn=0028-0836}}</ref>。

2005年、[[ペンシルベニア州立大学]]のStephan C. Schusterらは、[[DNAシークエンシング|ハイスループットシーケンス]]で生成された環境サンプルの最初のシーケンスを公開した<ref>{{Cite journal|last=Poinar|first=Hendrik N.|last2=Schwarz|first2=Carsten|last3=Qi|first3=Ji|last4=Shapiro|first4=Beth|last5=MacPhee|first5=Ross D. E.|last6=Buigues|first6=Bernard|last7=Tikhonov|first7=Alexei|last8=Huson|first8=Daniel H.|last9=Tomsho|first9=Lynn P.|date=2006-01-20|title=Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA|url=https://www.sciencemag.org/lookup/doi/10.1126/science.1123360|journal=Science|volume=311|issue=5759|pages=392–394|language=en|doi=10.1126/science.1123360|issn=0036-8075}}</ref>。これは454 Life Sciences社が開発した超並列パイロ[[DNAシークエンシング|シーケンス]]によるものであった。この分野の別の初期の論文は、2006年に[[サンディエゴ州立大学]]のRobert EdwardsとForest Rohwerらよって発表された<ref>{{Cite journal|last=Edwards|first=Robert A|last2=Rodriguez-Brito|first2=Beltran|last3=Wegley|first3=Linda|last4=Haynes|first4=Matthew|last5=Breitbart|first5=Mya|last6=Peterson|first6=Dean M|last7=Saar|first7=Martin O|last8=Alexander|first8=Scott|last9=Alexander|first9=E Calvin|date=2006-12|title=Using pyrosequencing to shed light on deep mine microbial ecology|url=https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-7-57|journal=BMC Genomics|volume=7|issue=1|pages=57|language=en|doi=10.1186/1471-2164-7-57|issn=1471-2164|pmid=16549033|pmc=PMC1483832}}</ref>。

== 関連項目 ==
* [[微生物生態学]]
*[[16S rRNA]]
*[[環境DNA]]
* [[ゲノムプロジェクト]]
* [[微生物生態学|微生物生態学会]]
* [[日本ゲノム微生物学会]]


== 脚注 ==
== 脚注 ==
{{脚注ヘルプ}}
{{脚注ヘルプ}}
{{Reflist}}
{{Reflist}}

{{sci-stub}}


{{DEFAULTSORT:めたけのみくす}}
{{DEFAULTSORT:めたけのみくす}}

2020年4月20日 (月) 11:35時点における版

露天掘り炭鉱からの酸性排水を受けるこの河川にも、環境に適応した微生物群集が存在している。メタゲノム解析により、このような微生物群集の研究が可能になる。

メタゲノミクス(英:Metagenomics)は、環境サンプルから直接回収されたゲノムDNAを扱う微生物学ウイルス学の研究分野である。広義には環境ゲノミクスエコゲノミクス群集ゲノミクスとも呼ばれる[1]メタゲノム解析(Metagenomic analysis)、あるいは単純にメタゲノム(Metagenome)とも呼称される。従来の微生物のゲノム解析では、単一の菌株を環境サンプルから分離培養する過程を経る必要があったが、メタゲノム解析はこの過程を経ることなく、微生物コミュニティ(細菌叢)から直接ゲノムDNAを抽出し、様々な系統由来のDNAがミックスされた状態でDNAシーケンスを行う。そのため、メタゲノム解析では従来の培養を基本とする方法では困難であった難培養・未培養系統に属する微生物のゲノム情報が入手可能である。一説には、地球上に棲息する細菌の99%以上は単独では培養できない系統であると推察されており[2]、メタゲノム解析は環境中に埋没する膨大な数の未知の細菌、未知の遺伝子を解明できる手法として期待されている。DNAシークエンシングのコストは年々安価になってきており、より大規模で詳細なメタゲノム解析研究が行われることも見込まれる[3]。狭義には、メタゲノム解析はショットガンシーケンス(後述)により得られたゲノム全体の配列情報を解析することを指し、ターゲット遺伝子を絞りPCRを経た増幅シーケンス(16S rRNAタグシーケンスなど)とは区別されるが[4]、後者を広義のメタゲノム解析に含めて扱われることもある[5]

今日では、海洋や土壌、ヒト腸内細菌叢などを始め、海底の鯨骨細菌群、鉱山廃水中のバイオフィルム、南極氷床、温泉、大深層の地殻など、様々な環境を対象としたメタゲノム解析が論文として報告されている。

語源

メタゲノムという用語は、「ゲノム」に高次元を表す「メタ」という言葉を付け加えて命名された[6]。単一生物のゲノムを研究するのと同じように、環境中からゲノムの遺伝子配列を収集し纏めて(メタ的に)解析をすることが可能である、という考えが元にある。この用語はJo Handelsman, Jon Clardy, Robert M. Goodman, Sean F Bradyらにより1998年に初めて論文内で使用された[6]。Kevin ChenとLior Pachterは2005年にメタゲノム解析を「個々の菌を研究室内で単離したり培養したりする必要がない現代ゲノム技術の応用分野」と定義している[7]

ゲノムシーケンシング

BACライブラリによる環境ショットガンシーケンス。(A)生息地からのサンプリング。(B)通常、サイズによる粒子のフィルタリングを行う。(C)細胞溶解およびDNA抽出(D)クローニングとライブラリ構築。E)クローンのシーケンス。(F)コンティグとスキャフォールドへの配列アセンブリ。

かつては環境サンプルから数千塩基対よりも長いDNA断片の回収することは困難であったが、分子クローニング用のベクターとしてBAC(bacterial artificial chromosomes)が開発されたことにより、ライブラリーの構築が可能になった。現在では次世代シーケンサーの登場により、BACライブラリを経ることなくより大量の配列情報を取得することが可能である。(詳細はDNAシーケンシングを参照)

典型的なメタゲノムプロジェクトのフロー図[8]

ショットガンシーケンシングの登場

バイオインフォマティクスの進歩、DNA増幅(PCR)法の改良、および計算機能力の急増により、環境サンプルから得られるDNA配列の分析能力は飛躍的に向上し、ショットガンシーケンスをメタゲノムサンプルに応用することが可能になった。これは全メタゲノムショットガンシーケンス、または英語(Whole Metagenome Shotgun Sequence)からWMGSと呼ばれることがある。培養微生物からヒトゲノムに至るまで、大半の全ゲノム解読を行う研究においては、DNAをランダムに短く切断し、それらのDNA断片を大量にシーケンスし、得られた配列情報のアセンブリを経てコンセンサス配列を再構築する、というステップを経る。このようなプロセスを経ることで、ショットガンシーケンシングを行ったメタゲノム解析では、環境サンプル中に存在する細菌叢に由来するゲノム配列を系統網羅的に取得することが可能である。歴史的には、このようなショットガンシーケンスを容易にするために、BAC等を利用したクローンライブラリが使用されてきた。ショットガンシーケンスを解析することで、菌叢内でどのような系統群の生物が存在し、どのような代謝プロセスが行われているのか、等について明らかにすることができる。原理的には、環境サンプル中に含まれているそれぞれの微生物系統の細胞量の違いによって回収されるDNA量も変わってくるため、その環境サンプル内で最も多く存在する生物種(優占種)は大量にシーケンスされ、配列情報も多く得ることができる。一方で、存在量の少ない生物種(そのサンプルにおける希少種)では解析に十分な量の配列情報が得られない可能性があり、そのような希少生物種のゲノムを完全に決定するためにはより高いカバレッジが必要になり、合わせて非常に多くのサンプルが必要となる。このことは反面、ショットガンシーケンスは原理的には完全ランダムにDNA断片のシーケンスを行うため、従来の培養ベースの手法では見過ごされていた未培養微生物系統であっても、大なり小なりゲノム情報を得ることができる、ということでもある。

次世代シーケンシング技術の活用

今日では次世代シーケンサー(ハイスループットシーケンシング技術)の登場と進歩により、クローニングのステップを省略してシーケンスデータの収量を増やすことが可能である。次世代シーケンスを使用して実施された最初のメタゲノム研究では、454パイロシーケンシングが利用された[9]。その後、Ion Torrent Personal Genome Machineや、Illumina MiSeq、HiSeq、Applied Biosystems SOLiDシステム等が登場し、メタゲノム解析に利用されるようになった[10]。これらの次世代DNAシーケンシング技術で得られるリードはサンガーシーケンスよりも短い。具体的には、サンガー法では750bp程度のリードを得られるのに対し、Ion Torrent PGM Systemや454パイロシーケンシングでは約400bp、Illumina MiSeqでは400-700bp、SOLiDは25-75bp程度である(2008年のカタログスペック値)[11]。一方で、次世代シーケンシングでは圧倒的に多量のDNA配列を読むことができ、具体的には454パイロシーケンスでは200〜500Mb、Illuminaプラットフォームでは20〜50Gbもの配列情報を排出し(2009年のカタログスペック値)、またこの値は年々増加している[12]

新しい技術の活用

2010年にPacBio RSが発売されたことを皮切りに、次世代シーケンサーよりも更に長いロングリードを読むことができる、いわゆる第3世代シーケンサーがPacBioやNanopore社から登場している。このような第3世代シーケンシング技術をメタゲノム解析に応用することで、ロングリードのショットガンシーケンスの取得とさらに効率できなゲノムアセンブリが可能になると考えられる[13]。また、ショットガンシーケンスと染色体コンフォメーションキャプチャ(Hi-C)法を組み合わせることで、同じ細胞内で近接するDNA断片の情報を得ることができ、この情報を活用して微生物ゲノムのアセンブリを効率化する研究も報告されている[14]

バイオインフォマティクス解析

ショットガンシーケンスから得られるデータは膨大であり、ノイズが多く、ときには数万を超える生物種に由来するDNA配列がミックスされている。例えば牛のルーメンをサンプルとして実施されたメタゲノム解析では279Gpもの配列データが得られ[15]、またヒト腸内細菌叢を対象とした研究では567.7Gbの配列情報から330万個の遺伝子カタログを作成した研究が報告されている[16]。このようなビッグデータから有用な生物学的情報を収集、管理、抽出することは、本質的に重要なバイオインフォマティクス上の課題となっている[17][13]

シーケンス配列のフィルタリング

メタゲノムデータ分析の最初のステップでは、冗長な配列や低品質な配列、そしてヒトを含む真核生物に由来すると思われる配列の除去などを行う、事前フィルタリングを行うことが多い[18][19]。混入した真核生物ゲノムDNA配列の除去には、Eu-DetectやDeConseqなどのツールが利用可能である[20][21]

ゲノムアセンブリ

ゲノムプロジェクトやメタゲノムプロジェクトにおいては、扱うDNA配列データの基本的構造は同じである。しなしながら、前者では単一種由来の配列データをより高いカバレッジで得ることが容易である一方で、後者は異なる生物種由来の配列がミックスされている分、データの冗長性が非常に低い(データセット中で同じ配列が低頻度でしか現れない)ことが多い。さらに、第2世代のシーケンシング技術はリード長が短く、そのためゲノムアセンブリでエラー(ミスアセンブリ)が頻発し、得られた結果の信頼性が低くなる事がある。特にトランスポゾンなどに代表されるゲノム中の反復配列の存在は、このようなミスアセンブリを誘発しやすい[22]。また、異なる複数種由来の配列を誤ってアセンブリしてしまう、いわゆるキメラコンティグを作り出すようなミスアセンブリも起きうる[23]

このようなエラーを最小限にし、かつできるだけ長くアセンブリが繋がるように、様々なツール(アセンブラ)が現在も開発されている。多くアセンブラは精度を向上させるためにIlluminaのペアエンドリードの情報を利用する。PhrapやCelera Assemblerなどの一部のプログラムは、単一のゲノムをアセンブルするために設計されているが、それにも関わらずメタゲノムデータセットにおいても良好なアセンブル結果を生み出すことが経験的に知られている[24]。Velvetなどの他のプログラムでは内部でde Bruijnグラフのアルゴリズムを使用しており、第2世代シーケンサーから生成されるショートリード用に最適化されている[25][26]。リファレンスゲノムを使用することでアセンブリを改善するアプローチも提案されているが、この方法は既にゲノムが読まれている限られた微生物系統にしか適応できない[27]。アセンブリが作成された後、そのコンティグがどの系統に由来しているのかを推定することも、技術上の課題である[28]

配列からの遺伝子予測

アセンブルされたコンセンサス配列(コンティグ)から遺伝子配列(コーディング領域)をアノテーションする方法としては、大きく分けて2つのアプローチが取られる[29]。1つ目は、BLAST等のツールを用いた配列類似性検索により、配列データベース上で公開されている遺伝子との配列類似性に基づいて遺伝子を識別する方法である。この方法は、例えばMEGAN 4で実装されている[30]。2番目の方法としては、関連する生物種(すなわち、原核生物か真核生物か)に由来した既知の配列情報から、遺伝子配列に関する特徴量を学習し、コンティグ配列から直接遺伝子領域を予測する方法である。例えばGeneMarkやGLIMMERといったプログラムで採用されている[31]。このab initioな予測方法では、配列データベースに類似したものがない新規性のあるコーディング領域も検出できることができる[32]。その後、予測された遺伝子配列を元に、公共の遺伝子データベースを用いた配列類似性検索をかけることで、その遺伝子が持つ機能を推定することが一般に行われる。

配列の系統推定

2016に提唱された「生命の木」[33]

遺伝子アノテーションにより「それが何なのか(どういう機能を持つ遺伝子なのか)」という情報がわかる一方で、配列の由来系統の推定により「それが誰なのか(どういう微生物系統群に由来した配列なのか)」という情報を得ることも重要になる[34]。すなわち、メタゲノム解析で菌叢の構成と生理学的機能を結び付けるためには、アセンブリされる前のショットガンリードあるいはアセンブリ後に得られるコンティグ配列が、元々どのような生物系統に由来していたのかを推定する、配列の由来系統推定を行う必要がある。配列類似性に基づく方法としては、BLASTなどのツールと既存の公共データベースを利用して、各系統に特異的なマーカー配列や類似したゲノム上の配列を検索することで、その配列やコンティグがどのような系統に由来していたのかを推定する方法がある。このアプローチはMEGANで実装されている[35]。異なる手法としては補間マルコフモデルを使用した方法があり、PhymmBLなどで実装されている。MetaPhlAnおよびAMPHORAでは、より高速に生物の相対存在量を推定するための、マーカー遺伝子をベースとした手法が実装されている[36]mOTU[37][38]やMetaPhyler[39]などのツールでは、ユニバーサルなマーカー遺伝子を使用して原核生物種のプロファイルを作成する。mOTUsプロファイラーを使用すると、参照ゲノムなしで系統をプロファイリングでき、微生物群集の多様性の推定ができる[40]SLIMMなどの手法では、個々のリファレンスゲノムにおけるリードカバレッジの分布を調べることで、偽陽性を最小限に抑えて信頼性のある相対存在量を計算する[41]。一方、組成に基づく系統推定の手法では、オリゴヌクレオチドの頻度やコドン使用頻度のバイアスなどの情報を利用する[42]。配列の由来系統が推定できることで、はじめて菌叢の系統的多様性が比較分析できるようになる。

メタデータとの統合

今日、メタゲノムを含むあらゆるゲノム配列データは指数関数的に増加しており、膨大な量のデータがデータベースに蓄積されている。特にメタゲノム解析では、個々のメタゲノム解析プロジェクトとそれに関連するメタデータとの関係が複雑であり、データ量が増加することでより一層全体が複雑化することが課題となっている。メタデータには、メタゲノム解析に用いるために採取された環境サンプルの3次元的な地理情報(どのような緯度、経度、深度または標高から採取されたサンプルなのか)、環境特性(海水、淡水、土壌、など)、サンプリングサイトに関する物理学的なデータ(気温や気圧、水圧、溶存化学成分、など)、サンプリングの方法論、などに関する詳細情報が含まれる[43]。これらの情報は、メタゲノム解析の再現可能性を確保し、さらなる発展的な解析を可能にするために必要な情報となる。この重要性のため、Genomes OnLine Database(GOLD)などでは、メタデータと付属するデータはレビューとキュレーションを受け、標準化されたデータ形式としてデータベース化されている[44]

メタデータとシーケンスデータを統合的に管理し解析するために、いくつかのツールが開発されており、異なるデータセットを様々な生態学的指標を使用して比較解析することが可能になっている。例えば2007年、Folker MeyerとRobert Edwards、およびアルゴンヌ国立研究所シカゴ大学のチームは、メタゲノムデータセット分析のためのコミュニティリソースとしてMetagenomics Rapid Annotation using Subsystem Technology(MG-RAST)サーバをリリースした[45]。このサーバでは2012年6月の時点で8,000人を超えるユーザーが計50,000を超えるメタゲノムプロジェクトの配列を投稿しており、14.8TB(14x1012 bp)を超える配列が分析されている他、10,000を超える公開データセットをMG-RAST内で比較することもできる。また、Integrated Microbial Genomes / Metagenomes (IMG/M)システムは、Integrated Microbial Genomes (IMG)システムおよび Genomic Encyclopedia of Bacteria and Archaea (GEBA)に含まれる単離株のリファレンスゲノムに基づいた、メタゲノム解析による微生物群集機能解析のためのツール群を提供している[46]

ハイスループットのメタゲノム解析データを分析するために初期に開発されたスタンドアローンなツールの1つはMEGAN英語版である[47][48]。このプログラムは、マンモスの骨から得られたメタゲノム配列を分析するために2005年に使用された[49]。このツールはリファレンスゲノムのデータベースとのBLAST検索の結果に基づき、単純な共通祖先(LCA)探索アルゴリズムを使用してリードをNCBI分類のノードに紐付けたり、あるいはリードをSEEDKEGGの分類ノードに紐付けることにより、系統分類と遺伝子機能の両方を解析することができる[50]

上述のように今日では、NCBI GenBankのようなゲノム配列データベースは指数関数的に成長している[51]。MG-RASTやMEGANなどのような配列類似性検索ベースのアプローチは、大規模な配列データにアノテーションを付けるには非常に遅く、たとえば中小規模のデータセットに対してでさえ数時間もの実行時間を要してしまうため、より高速で効率的なツールが必要とされており研究が進められている[52]。たとえばCLARKというツールでは、著者らによると「1分あたり3200万のメタゲノムショートリードを分類可能」と宣伝されており、実際に非常に高速に分類アノテーションを実行できる[53]。この速度であれば、10億本のショートリードであっても30分程度で処理できる。

また、古代DNAではそのサンプルの性質上、DNAの損傷に起因する不確実性(シーケンスのエラー等)が大きい。このような不確実性を超えて保守的な配列類似性を推定できるFALCONのようなツールも登場している[54]。著者らによると、メモリと速度のパフォーマンスに影響を与えることなく、緩いしきい値を使用して配列間距離を計算することが可能である。

比較メタゲノム解析

複雑な微生物群集が持つ生理学的な機能やその生息環境との関連を調べる上で、さまざまな異なるメタゲノムデータと比較的に解析することは有用である[55]。メタゲノムデータ間の比較は、配列構成(例えばGC含有量やゲノムサイズの比較)、分類学的多様性(どのような系統の細菌がどのような割合でいるのか)、そして遺伝子機能(どのような機能遺伝子がどのような割合で存在するのか)、といったレベルで行うことができる。群集構造や系統的多様性の比較では、例えば16S rRNAやその他の系統マーカー遺伝子に基づいて行ったり、または多様性の低いコミュニティの場合であればゲノム再構築を経て行うことができる[56]。メタゲノムデータ間の遺伝子機能の比較解析では、例えばCOGやKEGGといった機能遺伝子のリファレンスデータベースを対象に配列類似性検索にかけ、カテゴリ別に相対存在量を集計して統計的に検証することで、データセット間の違いを評価することができる。系統分類類的な解析とは異なり、このような遺伝子ベースの解析では、コミュニティ全体の遺伝子機能の特徴が明らかになる。そして一般には、たとえ別の環境であっても類似した環境条件下であれば、同じような遺伝子機能が分布していることが多い[56](例えば外洋の海洋表層で取られたサンプルであれば、太平洋でも大西洋でも概ね同じような遺伝子機能の分布を示す)。同時にこのことは、メタゲノムサンプルに付随している環境条件に関するメタデータは、コミュニティの構造と機能に対する生息地の影響を研究する上で、非常に重要である[24]

さらにいくつかの他の研究では、オリゴヌクレオチドの出現パターンを利用して、微生物群集全体の差を比較している。そのような方法論の例には、Willnerらが提唱したジヌクレオチド相対存在量によるアプローチや[57]、Ghoshらが提唱したHabiSignアプローチ[58]がある。後者の研究では、特定のサンプリングサイトを特徴づけるような遺伝子配列(またはメタゲノムリード)を特定するために、テトラヌクレオチドの使用パターンの違いも使用できることを示している。さらにTriageTools[59]やCompareads[60]などの手法では、2つのデータセット間で類似したリードを検出する。この際に使われる類似性の尺度としては、リードのペア間で共有される長さkの配列の数に基づいている。

比較メタゲノム解析の重要な目標の一つは、特定の環境において特定の特性を付与するような、主要な微生物群を特定することである。ただし、これを行う上で、metagenomeSeqというツールで実装されているように、異なるシーケンステクノロジを利用した際のデータバイアスを考慮する必要がある[61]。またいくつかの研究においては、微生物群間の微生物間相互作用を解析している。例えば、Community-Analyzerと呼ばれるGUIベースの比較メタゲノム解析アプリケーションが、Kuntalらによって開発されている[62]。このツールでは相関ベースのグラフアルゴリズムを実装し、系統分類学的な微生物群集構造の違いを視覚化し、さらにそのサンプル固有の微生物間相互作用を推測できる。

発展的・派生的な解析技術

細菌コミュニティにおける代謝

天然の環境や人工的な環境(バイオリアクターなど)下では、多くの細菌のコミュニティで分業的(共生的)な代謝活動を行っており、例えばある生物種が生産する代謝廃棄物が他の生物の代謝産物のベース(餌)になる、というような関係が往々にして見られる[63]。例えばメタン生成バイオリアクターにおいては、その機能的な安定性を確保しつつ原料を完全にメタンに分解するために、いくつかの共生種(SyntrophobacteralesおよびSynergistia)を共存させる必要がある[64]マイクロアレイなどによる遺伝子研究やプロテオミクスによる遺伝子発現測定を行うことで、種の境界を超えて代謝ネットワークをつなぎ合わせることができる。このような研究では、どのような機能タンパク質がどの系統群、種、株などによって保持されているかについて、詳細な知識が必要となる。そのため、メタゲノム解析から得られるコミュニティのゲノム情報は、メタボロミクスやプロテオミクスによる代謝ネットワーク解析においても、重要な情報となる[65]

メタトランスクリプトーム解析

メタゲノム解析により、微生物群集の機能的および代謝的な多様性を観測できるが、ゲノム情報からのみでは、どの代謝プロセスが活発に活動しているのか(遺伝子の転写が活発に起きているのか)を示すことはできない[56]。メタゲノム解析と似たような考え方で、細菌コミュニティからmRNAを網羅的に抽出して解析する、いわゆるメタトランスクリプトーム解析(Metatranscriptome)の登場により、コミュニティにおける遺伝子発現のプロファイルを得ることができるようになった[56]。この技術は、最初に土壌中のアンモニア酸化に関する解析に用いられた[66]。一方で、mRNAはDNAに比べて圧倒的に分解されやすいため、環境サンプルからRNAを収集することには様々な技術的困難がある[56]

ウイルスを対象としたメタゲノム解析(Virome)

メタゲノム解析はバクテリアやアーキアといった原核微生物がターゲットになることが多いが、ウイルス(特にDNA2本鎖ウイルス)に対しても応用することができる。ウイルスには系統間で共通の普遍的なマーカー遺伝子(例えば細菌や古細菌における16S RNAや、真核生物における18S RNAなど)がないため、PCRを介した系統解析が難しい。そのため、環境サンプルからウイルスコミュニティの遺伝的多様性にアクセスする方法として、ウイルスをターゲットとしたメタゲノム解析が有力な方法となっている。このようなウイルスのメタゲノム解析はVirome(日本語ではビロームウイロームヴァイローム、などと発音される)と呼ばれ、ウイルスの多様性や進化に関して有力な解析手段となっている[67][68][69][70][71]。たとえば、Giant Virus Finderと呼ばれる解析パイプラインでは、塩性砂漠や南極に巨大ウイルスが存在する最初の証拠を示した[72][73]

メタゲノム解析の応用

メタゲノム解析は、医学工学農業生態学などの様々な分野に応用されており、課題解決に役立つ可能性がある[43][74]

農業への応用

植物が成長しているような一般的な土壌には、1グラムあたり109-1010細胞もの微生物が生息している[75][76]。土壌に生息する微生物群集は非常に複雑であるため、農業等で経済的に重要であるにもかかわらず、土壌細菌叢の理解は不十分なままである。土壌中の細菌叢は、大気中の窒素の固定や栄養循環、病気の抑制、シデロフォアによるやその他の金属の隔離など、植物の成長を手助けするさまざまな生態系サービスの役割を担っている。メタゲノム解析により、これらの微生物群集の非培養的な研究を通じて、植物と微生物間の相互作用を解析する研究が進められている[77][78]。メタゲノム解析によるアプローチでは、これまでに培養されていない、あるいは存在量は少ない微生物系統が持つ、栄養循環と植物成長の促進における役割について、有力な情報を提供する可能性がある。このことにより、例えば作物家畜の感染症の検出や農作物の生育改善といった、農作業プロセスの改善に繋がると考えられている[43]

バイオ燃料への応用

バイオリアクターでは、微生物群集の活動により、バイオマスセルロース系エタノールに変換している。

バイオ燃料とは、トウモロコシの茎やスイッチグラスといったバイオマスに含まれるセルロースを変換し、セルロース系エタノールにして得られる燃料である[43]。この変換プロセスでは、細菌叢の活動によってセルロースがに変換され、その後さらに糖がエタノールへと発酵される。また他にも、メタン水素などのさまざまな生物エネルギー源も微生物が生成することが知られている[43]

バイオマスを効率的に分解し、産業規模でバイオ燃料を生産するためには、より高い生産性と低コストな新規酵素が必要となる[15]。メタゲノム解析を用いて複雑な微生物群集を解析することで、グリコシド加水分解酵素などのバイオ燃料生産における有用な酵素のスクリーニングが可能になる[79]。また、これらの微生物群集がどのような生態系を営んでいるかを理解することは、その細菌叢を制御する上でために必要であり、メタゲノム解析は有用な解析手法となり得る。メタゲノム解析によって、バイオガス発酵槽[80]ハキリバチの共生真菌[81]といった環境中に生息する細菌叢の比較解析研究が報告されている。

バイオテクノロジーへの応用

微生物群集は、菌叢の内部で繰り広げられる競争とコミュニケーションで使用される、生理学的に活性な化学物質を生産している。今日使用されている薬物の多くは、もともと微生物で発見されたものが多く存在する。そして、未培養系統の微生物が持つ豊富な遺伝資源の探索することで、新しい酵素や天然物及びそれらをコードする遺伝子の発見がなされている[82]。メタゲノム解析の応用により、ファインケミカルの生産や農薬医薬品等に応用可能な新規遺伝子の探索が進められており、また新規な酵素触媒によるキラル合成なども注目を集めている[83]

メタゲノム解析をバイオテクノロジーへ応用する際には、大きく分けて2種類の方針がとられる。一つは発現形質に基づく機能駆動型スクリーニングであり、もう一つはDNA配列に基づく配列駆動型スクリーニングである[84]。機能駆動のスクリーニングでは、目的の特性や有用な活性を示すような配列をDNAクローニングと遺伝子発現実験から特定し、続いて生化学的特性評価と配列解析を行う。このアプローチでは、適切なスクリーニングの利用可能性や、求めている形質が宿主細胞で発現されるかどうか、といった要件によって制限される。さらに、一般的にこのアプローチは発見率が低く(1,000もの配列をクローニングしてスクリーニングしても、1配列も当たらないことが往々にしてある)、労働集約的な作業が必要となる[85]。対照的に配列駆動のアプローチでは、既知のDNA配列を使用してPCRプライマーを設計し、目的配列のPCR増幅を配列決定経てスクリーニングを行う[84]。前者のクローニングベースのアプローチと比較して、後者のシーケンスのみのアプローチでは、必要な実験量が大幅に少ない。また、次世代シーケンサーの適用により、膨大な量の配列データを生み出すこともできるが、得られたデータの解析にはバイオインフォマティクス解析が必要になる[85]。配列駆動型アプローチは、配列データベースに含まれる遺伝子機能の量と精度によって制限される。そのため現実的には、目的の機能やスクリーニングするサンプルの複雑さ、およびその他の要因に基づいて、機能駆動形と配列駆動形の両方アプローチを組み合わせて利用することが多い[85][86]。メタゲノム解析から得られた有用物質の例としては、マラシジンという抗生物質などが知られている[87]

生態学研究への応用

メタゲノム解析は、環境コミュニティが持つ機能生態学に関する貴重な洞察を提供する[88]。例えばオーストラリアアシカの排便を対象としたメタゲノム解析では、栄養豊富なアシカの糞が、沿岸生態系の栄養源として重要である可能性を示唆している。これは、排便と同時に排出される細菌が、糞中の栄養素を分解し、食物連鎖に組み込みやすい形に変換しているからである[89]

バイオレメディエーションへの応用

メタゲノム解析は、生態系に対する汚染物質の影響をモニタリングし、汚染された環境を浄化するための戦略の策定に利用できる。具体的には、汚染環境下に生息する微生物群集がどのようにしてその汚染物質に対処するか(代謝的に分解しているのか、あるいは無力化しているのか、など)を解明することで、汚染環境の評価方法を向上させたり、生物的な汚染物質の除去、すなわちバイオレメディエーションの技術開発に繋がると考えられている[90]

ヒト常在細菌叢への応用

腸内細菌を含むヒト常在菌は、健康を維持する上で重要な役割を果たしていると考えられているが、その菌叢構造や生態学的メカニズムは十分には分かっておらず様々な人種や体組織において、メタゲノム解析による大規模なシーケンス研究が進められている。例えばHuman Microbiomeプロジェクトでは、250人以上の個人の15〜18の身体部位について解析がなされている。このプロジェクトでは、ヒトの健康と相関する可能性のあるヒトマイクロバイオームを理解し、その目標のために必要となる新しい実験的およびバイオインフォマティクス技術を開発するということを目標としている[91]

また別のプロジェクトであるMetaHit(Metagenomics of the Human Intestinal Tract、ヒト腸管のメタゲノミクス)の一部として行われた研究は、健常者や肥満者、過敏性腸疾患患者などからなる124人のデンマークとスペインの個人を解析している。この研究は、胃腸に生息する細菌叢が消化管の深さに応じてどのような系統的多様性を持つのかに関して調べている。その結果、バクテロイデス(Bacteroidetes)とファーミキューテス(Firmicutes)の2つの細菌門が、腸内細菌叢の90%以上を構成する系統群であるということを実証した。また、メタゲノム解析から得られた遺伝子配列の出現頻度を利用して、腸管の健康にとって重要な可能性がある1,244個の遺伝子クラスターを特定した。このクラスターには、ハウスキーピング遺伝子の他に、腸特有の機能を持つ遺伝子の2タイプが含まれていた。前者はあらゆる細菌に必須なハウスキーピング遺伝子から構成されており、炭素代謝やアミノ酸合成などの主要な代謝経路に関連した機能を持っていた。一方で後者の腸特有の機能には、宿主タンパク質への接着やグロボシリーズ糖脂質からの糖生成に関する機能が見られた。過敏性腸症候群の患者は、健常者と比較して菌叢中の遺伝子と系統多様性が25%低く、腸内細菌叢の多様性の変化がこの疾患状態に関連している可能性が示唆された。この研究では、いくつかの潜在的に価値のある医学的応用が強調されているている。しかしながらが、リード全体では31–48.8%程度のリードしか194の既知のヒト腸内細菌ゲノムにマップされず、7.6–21.2%のゲノムしかGenBankで利用可能な細菌ゲノムと整合していなかったため、さらなる未解読の新規細菌ゲノムを明らかにしていく研究を進めていく必要がある[92]

感染症診断への応用

感染症を診断し、その感染の根底にある病因を特定することは、困難であることが多い。例えば脳炎の症例の半数以上は、最先端の臨床検査法を用いた広範な検査であっても診断がつかないことがある。メタゲノム解析では、患者のサンプルに含まれる遺伝物質を、何千もの細菌、ウイルス、その他の病原体のゲノムデータが含まれたデータベースと比較することで、高感度に感染の診断を行うことができるため、診断手法として応用が期待されている。

歴史と背景

従来のDNAシーケンスは、単一の細菌株を培養することが最初に必要であった。しかし初期のメタゲノム解析の研究により、多くの環境には培養が不可能でシーケンスが困難な微生物が多く存在することが明らかにされた。これらの初期の研究では16S rRNA遺伝子配列を調べることに焦点が当てられた。この遺伝子配列は比較的短く、原核生物種内において保存性が高い一方で、異なる種間で変化が見られるため、ゲノム全体をシーケンスするよりも簡便に環境中の微生物群集を系統的に調べることが出来る。多くの環境サンプルに対して16S rRNA遺伝子配列のDNAシーケンスが実施され、その結果、培養されている既知の生物種には当てはまらない配列が多数見つかった。このことはすなわち、環境中には極めて多様な未培養系統群の微生物が存在していることを示している。このようにして16S rRNA遺伝子配列を培養を経ず環境中から直接得た研究により、培養を元にした方法で見つけられる試料中の真性細菌古細菌は全体の1%に満たないことが論文で報告された[93]

PCRを使用してリボソームRNA配列の多様性を調査するという初期の分子生物学的な研究は、ノーマンR.ペースと同僚によって行われた[94]。これらの先駆的な研究から得られた知見から発展して、環境試料から直接DNAをクローニングするアイデアが1985年に発表された[95]。そして、実際に大西洋の海水という環境サンプルからDNAを抽出してクローニングした最初の報告が、Paceらによって1991年に発表された[96]。これらがPCR偽陽性ではないことが相当な努力により示され、未探索の系統群によって形作られる複雑な微生物コミュニティの存在が示唆された。この方法論は、高度に保存された非タンパク質コード遺伝子の探索に限定されていたが、培養方法で知られていたよりもはるかに複雑な多様性が存在するという、初期の微生物形態ベースの観察結果をサポートしていた。すぐその後、Healyは実験室に置いていた乾燥した草の上で増殖していた環境微生物の複合培養物から構築した「動物園ライブラリ」(zoolibraries)とでも呼ぶべきものから、機能遺伝子をメタゲノム的に単離したと1995年に報告した[97]。その後Edward DeLongらは、海洋サンプルからライブラリー構築と16S rRNAシーケンスを実施し、環境中の原核生物を系統的に解析する研究の基礎を築いた[98]

2002年、Mya BreitbartとForest Rohwerらは、ショットガンシーケンスを使用して、200リットルの海水に5000種類以上のウイルスが含まれていることを示した[99]。その後の研究により、ヒトの糞便には1000種以上のウイルス種が存在し、また海洋堆積物1キログラムあたりには多くのバクテリオファージを含む百万種ものウイルスが存在する可能性があることが示された。そして、これらの研究で見つかったウイルスは大半が新種であった。2004年には、Gene TysonとJill Banfieldらは、酸性の鉱山排水システムから抽出された細菌叢DNAの配列を決定した[100]。この研究では、培養が試みられつつも成功していなかった少数の細菌および古細菌系統の、完全またはほぼ完全なゲノムが得られている。

2003年からは、ヒトゲノムプロジェクトに並行して進められた民間資金ベースのプロジェクトをリーダーとして率いていたCraig Venterが、グローバル・オーシャン・サンプリング・エクスペディション (GOS)を主導し、世界中を周回する旅を通じてメタゲノムサンプルを蒐集した。得られたサンプルはすべて、新規なゲノム(すなわち新規生物)が特定されることを期待して、ショットガンシーケンスが実施された。これに先駆けて実施されたパイロットプロジェクトでは、サルガッソー海で採取したサンプルの解析を行い、約2000種もの異なるDNAを発見し、内148種は新規な細菌種に由来すると考えられた[101]。ベンターは地球を一周し、米国西海岸を集中的にサンプリングし、さらに2年間をかけてバルト海地中海黒海でサンプリングを行った。この間に収集されたメタゲノムデータの分析により海洋表層の細菌層は、富栄養/貧栄養の環境条件に適応した分類群と、比較的少ないがより豊富で広く分布する主にプランクトンで構成される分類群という、2つのグループによって構成されていることが判明した[102]

2005年、ペンシルベニア州立大学のStephan C. Schusterらは、ハイスループットシーケンスで生成された環境サンプルの最初のシーケンスを公開した[103]。これは454 Life Sciences社が開発した超並列パイロシーケンスによるものであった。この分野の別の初期の論文は、2006年にサンディエゴ州立大学のRobert EdwardsとForest Rohwerらよって発表された[104]

関連項目

脚注

  1. ^ 木暮(2011), 「海洋における環境ゲノミクス」『地球環境』 Vol.16 No.1 p,71-79, NAID 40018854028
  2. ^ 工藤俊章 『難培養微生物の利用技術』 シーエムシー出版、2010年、はじめに
  3. ^ Eisen, Jonathan A (2007-03-13). Simon Levin. ed. “Environmental Shotgun Sequencing: Its Potential and Challenges for Studying the Hidden World of Microbes” (英語). PLoS Biology 5 (3): e82. doi:10.1371/journal.pbio.0050082. ISSN 1545-7885. PMC PMC1821061. PMID 17355177. http://dx.plos.org/10.1371/journal.pbio.0050082. 
  4. ^ Rausch, Philipp; Rühlemann, Malte; Hermes, Britt M.; Doms, Shauni; Dagan, Tal; Dierking, Katja; Domin, Hanna; Fraune, Sebastian et al. (2019-12). “Comparative analysis of amplicon and metagenomic sequencing methods reveals key features in the evolution of animal metaorganisms” (英語). Microbiome 7 (1): 133. doi:10.1186/s40168-019-0743-1. ISSN 2049-2618. PMC PMC6744666. PMID 31521200. https://microbiomejournal.biomedcentral.com/articles/10.1186/s40168-019-0743-1. 
  5. ^ イルミナ「総説:メタゲノム研究」”. 2020年3月23日閲覧。
  6. ^ a b Handelsman, J.; Rondon, M. R.; Brady, S. F.; Clardy, J.; Goodman, R. M. (1998-10). “Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products”. Chemistry & Biology 5 (10): R245–249. doi:10.1016/s1074-5521(98)90108-9. ISSN 1074-5521. PMID 9818143. https://www.ncbi.nlm.nih.gov/pubmed/9818143. 
  7. ^ Chen, K.; Pachter, L. (2005). "Bioinformatics for Whole-Genome Shotgun Sequencing of Microbial Communities". PLoS Computational Biology 1 (2): e24. doi:10.1371/journal.pcbi.0010024
  8. ^ Thomas, T.; Gilbert, J.; Meyer, F. (2012). “Metagenomics - a guide from sampling to data analysis”. Microbial Informatics and Experimentation 2 (1): 3. doi:10.1186/2042-5783-2-3. PMC 3351745. PMID 22587947. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3351745/. 
  9. ^ Poinar, Hendrik N.; Schwarz, Carsten; Qi, Ji; Shapiro, Beth; MacPhee, Ross D. E.; Buigues, Bernard; Tikhonov, Alexei; Huson, Daniel H. et al. (2006-01-20). “Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA” (英語). Science 311 (5759): 392–394. doi:10.1126/science.1123360. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1123360. 
  10. ^ Rodrigue, Sébastien; Materna, Arne C.; Timberlake, Sonia C.; Blackburn, Matthew C.; Malmstrom, Rex R.; Alm, Eric J.; Chisholm, Sallie W. (2010-07-28). Gilbert, Jack Anthony. ed. “Unlocking Short Read Sequencing for Metagenomics” (英語). PLoS ONE 5 (7): e11840. doi:10.1371/journal.pone.0011840. ISSN 1932-6203. PMC PMC2911387. PMID 20676378. https://dx.plos.org/10.1371/journal.pone.0011840. 
  11. ^ Schuster, Stephan C (2008-01). “Next-generation sequencing transforms today's biology” (英語). Nature Methods 5 (1): 16–18. doi:10.1038/nmeth1156. ISSN 1548-7091. http://www.nature.com/articles/nmeth1156. 
  12. ^ “Metagenomics versus Moore's law” (英語). Nature Methods 6 (9): 623–623. (2009-09). doi:10.1038/nmeth0909-623. ISSN 1548-7091. http://www.nature.com/articles/nmeth0909-623. 
  13. ^ a b Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). “Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond” (英語). Microbes and environments 31 (3): 204–212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC PMC5017796. PMID 27383682. https://doi.org/10.1264/jsme2.ME16024. 
  14. ^ Watson, Mick; Roehe, Rainer; Walker, Alan W.; Dewhurst, Richard J.; Snelling, Timothy J.; Ivan Liachko; Langford, Kyle W.; Press, Maximilian O. et al. (28 February 2018). “Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen” (英語). Nature Communications 9 (1): 870. Bibcode2018NatCo...9..870S. doi:10.1038/s41467-018-03317-6. ISSN 2041-1723. PMC 5830445. PMID 29491419. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5830445/. 
  15. ^ a b Hess, M.; Sczyrba, A.; Egan, R.; Kim, T.-W.; Chokhawala, H.; Schroth, G.; Luo, S.; Clark, D. S. et al. (2011-01-28). “Metagenomic Discovery of Biomass-Degrading Genes and Genomes from Cow Rumen” (英語). Science 331 (6016): 463–467. doi:10.1126/science.1200387. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1200387. 
  16. ^ MetaHIT Consortium; Qin, Junjie; Li, Ruiqiang; Raes, Jeroen; Arumugam, Manimozhiyan; Burgdorf, Kristoffer Solvsten; Manichanh, Chaysavanh; Nielsen, Trine et al. (2010-03). “A human gut microbial gene catalogue established by metagenomic sequencing” (英語). Nature 464 (7285): 59–65. doi:10.1038/nature08821. ISSN 0028-0836. PMC PMC3779803. PMID 20203603. http://www.nature.com/articles/nature08821. 
  17. ^ Oulas, A; Pavloudi, C; Polymenakou, P; Pavlopoulos, GA; Papanikolaou, N; Kotoulas, G; Arvanitidis, C; Iliopoulos, I (2015). “Metagenomics: tools and insights for analyzing next-generation sequencing data derived from biodiversity studies”. Bioinformatics and Biology Insights 9: 75–88. doi:10.4137/BBI.S12462. PMC 4426941. PMID 25983555. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4426941/. 
  18. ^ Mende, Daniel R.; Alison S. Waller; Shinichi Sunagawa; Aino I. Järvelin; Michelle M. Chan; Manimozhiyan Arumugam; Jeroen Raes; Peer Bork (23 February 2012). “Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data”. PLoS ONE 7 (2): e31386. Bibcode2012PLoSO...731386M. doi:10.1371/journal.pone.0031386. ISSN 1932-6203. PMC 3285633. PMID 22384016. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3285633/. 
  19. ^ Balzer, S.; Malde, K.; Grohme, M. A.; Jonassen, I. (2013). “Filtering duplicate reads from 454 pyrosequencing data”. Bioinformatics 29 (7): 830–836. doi:10.1093/bioinformatics/btt047. PMC 3605598. PMID 23376350. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605598/. 
  20. ^ Mohammed, MH; Sudha Chadaram; Dinakar Komanduri; Tarini Shankar Ghosh; Sharmila S Mande (2011). “Eu-Detect: an algorithm for detecting eukaryotic sequences in metagenomic data sets”. Journal of Biosciences 36 (4): 709–717. doi:10.1007/s12038-011-9105-2. PMID 21857117. 
  21. ^ R, Schmeider; R Edwards (2011). “Fast identification and removal of sequence contamination from genomic and metagenomic datasets”. PLoS ONE 6 (3): e17288. Bibcode2011PLoSO...617288S. doi:10.1371/journal.pone.0017288. PMC 3052304. PMID 21408061. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3052304/. 
  22. ^ Kunin, V.; Copeland, A.; Lapidus, A.; Mavromatis, K.; Hugenholtz, P. (2008-12-01). “A Bioinformatician's Guide to Metagenomics” (英語). Microbiology and Molecular Biology Reviews 72 (4): 557–578. doi:10.1128/MMBR.00009-08. ISSN 1092-2172. PMC PMC2593568. PMID 19052320. http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08. 
  23. ^ Burton, Joshua N.; Liachko, Ivan; Dunham, Maitreya J.; Shendure, Jay (2014-07). “Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps” (英語). G3&#58; Genes|Genomes|Genetics 4 (7): 1339–1346. doi:10.1534/g3.114.011825. ISSN 2160-1836. PMC PMC4455782. PMID 24855317. http://g3journal.org/lookup/doi/10.1534/g3.114.011825. 
  24. ^ a b Wooley, John C.; Godzik, Adam; Friedberg, Iddo (2010-02-26). Bourne, Philip E.. ed. “A Primer on Metagenomics” (英語). PLoS Computational Biology 6 (2): e1000667. doi:10.1371/journal.pcbi.1000667. ISSN 1553-7358. PMC PMC2829047. PMID 20195499. https://dx.plos.org/10.1371/journal.pcbi.1000667. 
  25. ^ Zerbino, D. R.; Birney, E. (2008-02-21). “Velvet: Algorithms for de novo short read assembly using de Bruijn graphs” (英語). Genome Research 18 (5): 821–829. doi:10.1101/gr.074492.107. ISSN 1088-9051. PMC PMC2336801. PMID 18349386. http://www.genome.org/cgi/doi/10.1101/gr.074492.107. 
  26. ^ Namiki, Toshiaki; Hachiya, Tsuyoshi; Tanaka, Hideaki; Sakakibara, Yasubumi (2012-11-01). “MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads” (英語). Nucleic Acids Research 40 (20): e155–e155. doi:10.1093/nar/gks678. ISSN 1362-4962. PMC PMC3488206. PMID 22821567. https://academic.oup.com/nar/article/40/20/e155/2414459. 
  27. ^ Kunin, V.; Copeland, A.; Lapidus, A.; Mavromatis, K.; Hugenholtz, P. (2008-12-01). “A Bioinformatician's Guide to Metagenomics” (英語). Microbiology and Molecular Biology Reviews 72 (4): 557–578. doi:10.1128/MMBR.00009-08. ISSN 1092-2172. PMC PMC2593568. PMID 19052320. http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08. 
  28. ^ Burton, Joshua N.; Liachko, Ivan; Dunham, Maitreya J.; Shendure, Jay (2014-07). “Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps” (英語). G3&#58; Genes|Genomes|Genetics 4 (7): 1339–1346. doi:10.1534/g3.114.011825. ISSN 2160-1836. PMC PMC4455782. PMID 24855317. http://g3journal.org/lookup/doi/10.1534/g3.114.011825. 
  29. ^ Kunin, V.; Copeland, A.; Lapidus, A.; Mavromatis, K.; Hugenholtz, P. (2008-12-01). “A Bioinformatician's Guide to Metagenomics” (英語). Microbiology and Molecular Biology Reviews 72 (4): 557–578. doi:10.1128/MMBR.00009-08. ISSN 1092-2172. PMC PMC2593568. PMID 19052320. http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08. 
  30. ^ Huson, D. H.; Mitra, S.; Ruscheweyh, H.-J.; Weber, N.; Schuster, S. C. (2011-09-01). “Integrative analysis of environmental sequences using MEGAN4” (英語). Genome Research 21 (9): 1552–1560. doi:10.1101/gr.120618.111. ISSN 1088-9051. PMC PMC3166839. PMID 21690186. http://genome.cshlp.org/cgi/doi/10.1101/gr.120618.111. 
  31. ^ Zhu, Wenhan; Lomsadze, Alexandre; Borodovsky, Mark (2010-07). “Ab initio gene identification in metagenomic sequences” (英語). Nucleic Acids Research 38 (12): e132–e132. doi:10.1093/nar/gkq275. ISSN 1362-4962. PMC PMC2896542. PMID 20403810. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkq275. 
  32. ^ Wooley, John C.; Godzik, Adam; Friedberg, Iddo (2010-02-26). Bourne, Philip E.. ed. “A Primer on Metagenomics” (英語). PLoS Computational Biology 6 (2): e1000667. doi:10.1371/journal.pcbi.1000667. ISSN 1553-7358. PMC PMC2829047. PMID 20195499. https://dx.plos.org/10.1371/journal.pcbi.1000667. 
  33. ^ Hug, Laura A.; Baker, Brett J.; Anantharaman, Karthik; Brown, Christopher T.; Probst, Alexander J.; Castelle, Cindy J.; Butterfield, Cristina N.; Hernsdorf, Alex W. et al. (11 April 2016). “A new view of the tree of life”. Nature Microbiology 1 (5): 16048. doi:10.1038/nmicrobiol.2016.48. PMID 27572647. 
  34. ^ Konopka, Allan (2009-11). “What is microbial community ecology?” (英語). The ISME Journal 3 (11): 1223–1230. doi:10.1038/ismej.2009.88. ISSN 1751-7362. http://www.nature.com/articles/ismej200988. 
  35. ^ Huson, D. H.; Auch, A. F.; Qi, J.; Schuster, S. C. (2007-02-06). “MEGAN analysis of metagenomic data” (英語). Genome Research 17 (3): 377–386. doi:10.1101/gr.5969107. ISSN 1088-9051. PMC PMC1800929. PMID 17255551. http://www.genome.org/cgi/doi/10.1101/gr.5969107. 
  36. ^ Segata, Nicola; Waldron, Levi; Ballarini, Annalisa; Narasimhan, Vagheesh; Jousson, Olivier; Huttenhower, Curtis (2012-08). “Metagenomic microbial community profiling using unique clade-specific marker genes” (英語). Nature Methods 9 (8): 811–814. doi:10.1038/nmeth.2066. ISSN 1548-7091. PMC PMC3443552. PMID 22688413. http://www.nature.com/articles/nmeth.2066. 
  37. ^ Liu, Bo; Gibbons, Theodore; Ghodsi, Mohammad; Treangen, Todd; Pop, Mihai (2011). “Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences” (英語). BMC Genomics 12 (Suppl 2): S4. doi:10.1186/1471-2164-12-S2-S4. ISSN 1471-2164. PMC PMC3194235. PMID 21989143. http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4. 
  38. ^ Milanese, Alessio; Mende, Daniel R; Paoli, Lucas; Salazar, Guillem; Ruscheweyh, Hans-Joachim; Cuenca, Miguelangel; Hingamp, Pascal; Alves, Renato et al. (2019-12). “Microbial abundance, activity and population genomic profiling with mOTUs2” (英語). Nature Communications 10 (1): 1014. doi:10.1038/s41467-019-08844-4. ISSN 2041-1723. PMC PMC6399450. PMID 30833550. http://www.nature.com/articles/s41467-019-08844-4. 
  39. ^ Liu, Bo; Gibbons, Theodore; Ghodsi, Mohammad; Treangen, Todd; Pop, Mihai (2011). “Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences” (英語). BMC Genomics 12 (Suppl 2): S4. doi:10.1186/1471-2164-12-S2-S4. ISSN 1471-2164. PMC PMC3194235. PMID 21989143. http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4. 
  40. ^ Milanese, Alessio; Mende, Daniel R; Paoli, Lucas; Salazar, Guillem; Ruscheweyh, Hans-Joachim; Cuenca, Miguelangel; Hingamp, Pascal; Alves, Renato et al. (2019-12). “Microbial abundance, activity and population genomic profiling with mOTUs2” (英語). Nature Communications 10 (1): 1014. doi:10.1038/s41467-019-08844-4. ISSN 2041-1723. PMC PMC6399450. PMID 30833550. http://www.nature.com/articles/s41467-019-08844-4. 
  41. ^ Dadi, Temesgen Hailemariam; Renard, Bernhard Y.; Wieler, Lothar H.; Semmler, Torsten; Reinert, Knut (2017-03-28). “SLIMM: species level identification of microorganisms from metagenomes” (英語). PeerJ 5: e3138. doi:10.7717/peerj.3138. ISSN 2167-8359. PMC PMC5372838. PMID 28367376. https://peerj.com/articles/3138. 
  42. ^ Wooley, John C.; Godzik, Adam; Friedberg, Iddo (2010-02-26). Bourne, Philip E.. ed. “A Primer on Metagenomics” (英語). PLoS Computational Biology 6 (2): e1000667. doi:10.1371/journal.pcbi.1000667. ISSN 1553-7358. PMC PMC2829047. PMID 20195499. https://dx.plos.org/10.1371/journal.pcbi.1000667. 
  43. ^ a b c d e The New Science of Metagenomics: Revealing the Secrets of Our Microbial Planet. Washington, D.C.: National Academies Press. (2007-05-24). doi:10.17226/11902. ISBN 978-0-309-10676-4. http://www.nap.edu/catalog/11902 
  44. ^ Pagani, I.; Liolios, K.; Jansson, J.; Chen, I.-M. A.; Smirnova, T.; Nosrat, B.; Markowitz, V. M.; Kyrpides, N. C. (2012-01-01). “The Genomes OnLine Database (GOLD) v.4: status of genomic and metagenomic projects and their associated metadata” (英語). Nucleic Acids Research 40 (D1): D571–D579. doi:10.1093/nar/gkr1100. ISSN 0305-1048. PMC PMC3245063. PMID 22135293. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkr1100. 
  45. ^ Meyer, F; Paarmann, D; D'Souza, M; Olson, R; Glass, Em; Kubal, M; Paczian, T; Rodriguez, A et al. (2008-12). “The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes” (英語). BMC Bioinformatics 9 (1): 386. doi:10.1186/1471-2105-9-386. ISSN 1471-2105. PMC PMC2563014. PMID 18803844. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-9-386. 
  46. ^ Markowitz, V. M.; Chen, I.-M. A.; Chu, K.; Szeto, E.; Palaniappan, K.; Grechkin, Y.; Ratner, A.; Jacob, B. et al. (2012-01-01). “IMG/M: the integrated metagenome data management and comparative analysis system” (英語). Nucleic Acids Research 40 (D1): D123–D129. doi:10.1093/nar/gkr975. ISSN 0305-1048. PMC PMC3245048. PMID 22086953. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkr975. 
  47. ^ Huson, D. H.; Mitra, S.; Ruscheweyh, H.-J.; Weber, N.; Schuster, S. C. (2011-09-01). “Integrative analysis of environmental sequences using MEGAN4” (英語). Genome Research 21 (9): 1552–1560. doi:10.1101/gr.120618.111. ISSN 1088-9051. PMC PMC3166839. PMID 21690186. http://genome.cshlp.org/cgi/doi/10.1101/gr.120618.111. 
  48. ^ Huson, D. H.; Auch, A. F.; Qi, J.; Schuster, S. C. (2007-02-06). “MEGAN analysis of metagenomic data” (英語). Genome Research 17 (3): 377–386. doi:10.1101/gr.5969107. ISSN 1088-9051. PMC PMC1800929. PMID 17255551. http://www.genome.org/cgi/doi/10.1101/gr.5969107. 
  49. ^ Poinar, Hendrik N.; Schwarz, Carsten; Qi, Ji; Shapiro, Beth; MacPhee, Ross D. E.; Buigues, Bernard; Tikhonov, Alexei; Huson, Daniel H. et al. (2006-01-20). “Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA” (英語). Science 311 (5759): 392–394. doi:10.1126/science.1123360. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1123360. 
  50. ^ Mitra, Suparna; Rupek, Paul; Richter, Daniel C; Urich, Tim; Gilbert, Jack A; Meyer, Folker; Wilke, Andreas; Huson, Daniel H (2011-12). “Functional analysis of metagenomes and metatranscriptomes using SEED and KEGG” (英語). BMC Bioinformatics 12 (S1): S21. doi:10.1186/1471-2105-12-S1-S21. ISSN 1471-2105. PMC PMC3044276. PMID 21342551. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-12-S1-S21. 
  51. ^ Benson, Dennis A.; Cavanaugh, Mark; Clark, Karen; Karsch-Mizrachi, Ilene; Lipman, David J.; Ostell, James; Sayers, Eric W. (2012-11-26). “GenBank” (英語). Nucleic Acids Research 41 (D1): D36–D42. doi:10.1093/nar/gks1195. ISSN 0305-1048. PMC PMC3531190. PMID 23193287. http://academic.oup.com/nar/article/41/D1/D36/1068219/GenBank. 
  52. ^ Bazinet, Adam L; Cummings, Michael P (2012-12). “A comparative evaluation of sequence classification programs” (英語). BMC Bioinformatics 13 (1): 92. doi:10.1186/1471-2105-13-92. ISSN 1471-2105. PMC PMC3428669. PMID 22574964. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-92. 
  53. ^ Ounit, Rachid; Wanamaker, Steve; Close, Timothy J; Lonardi, Stefano (2015-12). “CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers” (英語). BMC Genomics 16 (1): 236. doi:10.1186/s12864-015-1419-2. ISSN 1471-2164. PMC PMC4428112. PMID 25879410. http://www.biomedcentral.com/1471-2164/16/236. 
  54. ^ Pratas D; Pinho AJ; Silva RM; Rodrigues JMOS; Hosseini M; Caetano T; Ferreira PJSG (February 2018). "FALCON: a method to infer metagenomic composition of ancient DNA". bioRxiv 267179 {{cite bioRxiv}}: |biorxiv=の値が不正です。 (説明)
  55. ^ Kurokawa, Ken; Itoh, Takehiko; Kuwahara, Tomomi; Oshima, Kenshiro; Toh, Hidehiro; Toyoda, Atsushi; Takami, Hideto; Morita, Hidetoshi et al. (2007). “Comparative Metagenomics Revealed Commonly Enriched Gene Sets in Human Gut Microbiomes” (英語). DNA Research 14 (4): 169–181. doi:10.1093/dnares/dsm018. ISSN 1756-1663. PMC PMC2533590. PMID 17916580. https://academic.oup.com/dnaresearch/article-lookup/doi/10.1093/dnares/dsm018. 
  56. ^ a b c d e Simon, Carola; Daniel, Rolf (2011-02-15). “Metagenomic Analyses: Past and Future Trends” (英語). Applied and Environmental Microbiology 77 (4): 1153–1161. doi:10.1128/AEM.02345-10. ISSN 0099-2240. PMC PMC3067235. PMID 21169428. http://aem.asm.org/lookup/doi/10.1128/AEM.02345-10. 
  57. ^ Willner, D; RV Thurber; F Rohwer (2009). “Metagenomic signatures of 86 microbial and viral metagenomes.”. Environmental Microbiology 11 (7): 1752–66. doi:10.1111/j.1462-2920.2009.01901.x. PMID 19302541. 
  58. ^ Ghosh, Tarini Shankar; Monzoorul Haque Mohammed; Hannah Rajasingh; Sudha Chadaram; Sharmila S Mande (2011). “HabiSign: a novel approach for comparison of metagenomes and rapid identification of habitat-specific sequences.”. BMC Bioinformatics 12 (Supplement 13): S9. doi:10.1186/1471-2105-12-s13-s9. PMC 3278849. PMID 22373355. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3278849/. 
  59. ^ Fimereli, Danai; Detours, Vincent; Konopka, Tomasz (2013-04-01). “TriageTools: tools for partitioning and prioritizing analysis of high-throughput sequencing data” (英語). Nucleic Acids Research 41 (7): e86–e86. doi:10.1093/nar/gkt094. ISSN 1362-4962. PMC PMC3627586. PMID 23408855. https://academic.oup.com/nar/article/41/7/e86/1071278. 
  60. ^ Maillet, Nicolas; Lemaitre, Claire; Chikhi, Rayan; Lavenier, Dominique; Peterlongo, Pierre (2012-12). “Compareads: comparing huge metagenomic experiments” (英語). BMC Bioinformatics 13 (S19): S10. doi:10.1186/1471-2105-13-S19-S10. ISSN 1471-2105. PMC PMC3526429. PMID 23282463. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-S19-S10. 
  61. ^ Paulson, Joseph N; Stine, O Colin; Bravo, Héctor Corrada; Pop, Mihai (2013-12). “Differential abundance analysis for microbial marker-gene surveys” (英語). Nature Methods 10 (12): 1200–1202. doi:10.1038/nmeth.2658. ISSN 1548-7091. PMC PMC4010126. PMID 24076764. http://www.nature.com/articles/nmeth.2658. 
  62. ^ Bhusan, Kuntal Kumar; Tarini Shankar Ghosh; Sharmila S Mande (2013). “Community-analyzer: a platform for visualizing and comparing microbial community structure across microbiomes”. Genomics 102 (4): 409–418. doi:10.1016/j.ygeno.2013.08.004. PMID 23978768. 
  63. ^ Werner, J. J.; Knights, D.; Garcia, M. L.; Scalfone, N. B.; Smith, S.; Yarasheski, K.; Cummings, T. A.; Beers, A. R. et al. (2011-03-08). “Bacterial community structures are unique and resilient in full-scale bioenergy systems” (英語). Proceedings of the National Academy of Sciences 108 (10): 4158–4163. doi:10.1073/pnas.1015676108. ISSN 0027-8424. PMC PMC3053989. PMID 21368115. http://www.pnas.org/cgi/doi/10.1073/pnas.1015676108. 
  64. ^ McInerney, Michael J; Sieber, Jessica R; Gunsalus, Robert P (2009-12). “Syntrophy in anaerobic global carbon cycles” (英語). Current Opinion in Biotechnology 20 (6): 623–632. doi:10.1016/j.copbio.2009.10.001. PMC PMC2790021. PMID 19897353. https://linkinghub.elsevier.com/retrieve/pii/S0958166909001293. 
  65. ^ Klitgord, Niels; Segrè, Daniel (2011-08). “Ecosystems biology of microbial metabolism” (英語). Current Opinion in Biotechnology 22 (4): 541–546. doi:10.1016/j.copbio.2011.04.018. https://linkinghub.elsevier.com/retrieve/pii/S0958166911000814. 
  66. ^ Leininger, S.; Urich, T.; Schloter, M.; Schwark, L.; Qi, J.; Nicol, G. W.; Prosser, J. I.; Schuster, S. C. et al. (2006-08). “Archaea predominate among ammonia-oxidizing prokaryotes in soils” (英語). Nature 442 (7104): 806–809. doi:10.1038/nature04983. ISSN 0028-0836. http://www.nature.com/articles/nature04983. 
  67. ^ “Uncovering Earth's virome”. Nature 536 (7617): 425–30. (August 2016). Bibcode2016Natur.536..425P. doi:10.1038/nature19094. PMID 27533034. http://www.escholarship.org/uc/item/4zh090xt. 
  68. ^ “IMG/VR: a database of cultured and uncultured DNA Viruses and retroviruses”. Nucleic Acids Research 45 (D1): D457-D465. (January 2017). doi:10.1093/nar/gkw1030. PMC 5210529. PMID 27799466. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5210529/. 
  69. ^ “IMG/VR v.2.0: an integrated data management and analysis system for cultivated and environmental viral genomes”. Nucleic Acids Research 47 (D1): D678-D686. (January 2019). doi:10.1093/nar/gky1127. PMC 6323928. PMID 30407573. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6323928/. 
  70. ^ Paez-Espino, David; Pavlopoulos, Georgios A; Ivanova, Natalia N; Kyrpides, Nikos C (2017-08). “Nontargeted virus sequence discovery pipeline and virus clustering for metagenomic data” (英語). Nature Protocols 12 (8): 1673–1682. doi:10.1038/nprot.2017.063. ISSN 1754-2189. http://www.nature.com/articles/nprot.2017.063. 
  71. ^ Kristensen, David M.; Mushegian, Arcady R.; Dolja, Valerian V.; Koonin, Eugene V. (2010-01). “New dimensions of the virus world discovered through metagenomics” (英語). Trends in Microbiology 18 (1): 11–19. doi:10.1016/j.tim.2009.11.003. PMC PMC3293453. PMID 19942437. https://linkinghub.elsevier.com/retrieve/pii/S0966842X0900242X. 
  72. ^ “Giant viruses of the Kutch Desert”. Archives of Virology 161 (3): 721–4. (March 2016). arXiv:1410.1278. doi:10.1007/s00705-015-2720-8. PMID 26666442. 
  73. ^ “The "Giant Virus Finder" discovers an abundance of giant viruses in the Antarctic dry valleys”. Archives of Virology 162 (6): 1671–1676. (June 2017). arXiv:1503.05575. doi:10.1007/s00705-017-3286-4. PMID 28247094. 
  74. ^ “The World Within Us”. Healthcare Journal of New Orleans: 21-26. (Sep-Oct 2017). http://claudiacopeland.com/uploads/3/5/5/6/35560346/_hjno_the_world_within_us.pdf. 
  75. ^ Jansson, Janet (2011-01-01). “Towards “Tera-Terra”: Terabase Sequencing of Terrestrial Metagenomes: Microbial ecologists are taking a metagenomics approach to analyze complex and diverse soil microbial communities” (英語). Microbe Magazine 6 (7): 309–315. doi:10.1128/microbe.6.309.1. ISSN 1558-7452. http://www.asmscience.org/content/journal/microbe/10.1128/microbe.6.309.1. 
  76. ^ Vogel, Timothy M.; Simonet, Pascal; Jansson, Janet K.; Hirsch, Penny R.; Tiedje, James M.; van Elsas, Jan Dirk; Bailey, Mark J.; Nalin, Renaud et al. (2009-04). “TerraGenome: a consortium for the sequencing of a soil metagenome” (英語). Nature Reviews Microbiology 7 (4): 252–252. doi:10.1038/nrmicro2119. ISSN 1740-1526. http://www.nature.com/articles/nrmicro2119. 
  77. ^ Metagenomics : theory, methods, and applications. Marco, Diana.. Wymondham: Caister Academic Press. (2010). ISBN 978-1-904455-54-7. OCLC 351318426. https://www.worldcat.org/oclc/351318426 
  78. ^ “Pivotal roles of phyllosphere microorganisms at the interface between plant functioning and atmospheric trace gas dynamics”. Frontiers in Microbiology 6: 486. (22 May 2015). doi:10.3389/fmicb.2015.00486. PMC 4440916. PMID 26052316. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4440916/. 
  79. ^ Li, Luen-Luen; McCorkle, Sean R; Monchy, Sebastien; Taghavi, Safiyh; van der Lelie, Daniel (2009). “Bioprospecting metagenomes: glycosyl hydrolases for converting biomass” (英語). Biotechnology for Biofuels 2 (1): 10. doi:10.1186/1754-6834-2-10. ISSN 1754-6834. PMC PMC2694162. PMID 19450243. http://biotechnologyforbiofuels.biomedcentral.com/articles/10.1186/1754-6834-2-10. 
  80. ^ Jaenicke, Sebastian; Ander, Christina; Bekel, Thomas; Bisdorf, Regina; Dröge, Marcus; Gartemann, Karl-Heinz; Jünemann, Sebastian; Kaiser, Olaf et al. (2011-01-26). Aziz, Ramy K.. ed. “Comparative and Joint Analysis of Two Metagenomic Datasets from a Biogas Fermenter Obtained by 454-Pyrosequencing” (英語). PLoS ONE 6 (1): e14519. doi:10.1371/journal.pone.0014519. ISSN 1932-6203. PMC PMC3027613. PMID 21297863. https://dx.plos.org/10.1371/journal.pone.0014519. 
  81. ^ Suen, Garret; Scott, Jarrod J.; Aylward, Frank O.; Adams, Sandra M.; Tringe, Susannah G.; Pinto-Tomás, Adrián A.; Foster, Clifton E.; Pauly, Markus et al. (2010-09-23). Sonnenburg, Justin. ed. “An Insect Herbivore Microbiome with High Plant Biomass-Degrading Capacity” (英語). PLoS Genetics 6 (9): e1001129. doi:10.1371/journal.pgen.1001129. ISSN 1553-7404. PMC PMC2944797. PMID 20885794. https://dx.plos.org/10.1371/journal.pgen.1001129. 
  82. ^ Simon, Carola; Daniel, Rolf (2009-11). “Achievements and new knowledge unraveled by metagenomic approaches” (英語). Applied Microbiology and Biotechnology 85 (2): 265–276. doi:10.1007/s00253-009-2233-z. ISSN 0175-7598. PMC PMC2773367. PMID 19760178. http://link.springer.com/10.1007/s00253-009-2233-z. 
  83. ^ Metagenomics : theory, methods, and applications. Marco, Diana.. Wymondham: Caister Academic Press. (2010). ISBN 978-1-904455-54-7. OCLC 351318426. https://www.worldcat.org/oclc/351318426 
  84. ^ a b Schloss, Patrick D; Handelsman, Jo (2003-06). “Biotechnological prospects from metagenomics” (英語). Current Opinion in Biotechnology 14 (3): 303–310. doi:10.1016/S0958-1669(03)00067-3. https://linkinghub.elsevier.com/retrieve/pii/S0958166903000673. 
  85. ^ a b c Kakirde, Kavita S.; Parsley, Larissa C.; Liles, Mark R. (2010-11). “Size does matter: Application-driven approaches for soil metagenomics” (英語). Soil Biology and Biochemistry 42 (11): 1911–1923. doi:10.1016/j.soilbio.2010.07.021. PMC PMC2976544. PMID 21076656. https://linkinghub.elsevier.com/retrieve/pii/S0038071710002695. 
  86. ^ Parachin, Nádia; Gorwa-Grauslund, Marie F (2011). “Isolation of xylose isomerases by sequence- and function-based screening from a soil metagenomic library” (英語). Biotechnology for Biofuels 4 (1): 9. doi:10.1186/1754-6834-4-9. ISSN 1754-6834. PMC PMC3113934. PMID 21545702. http://biotechnologyforbiofuels.biomedcentral.com/articles/10.1186/1754-6834-4-9. 
  87. ^ “Culture-independent discovery of the malacidins as calcium-dependent antibiotics with activity against multidrug-resistant Gram-positive pathogens”. Nature Microbiology 3 (4): 415–422. (April 2018). doi:10.1038/s41564-018-0110-1. PMC 5874163. PMID 29434326. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5874163/. 
  88. ^ “Toward molecular trait-based ecology through integration of biogeochemical, geographical and metagenomic data”. Molecular Systems Biology 7: 473. (March 2011). doi:10.1038/msb.2011.6. PMC 3094067. PMID 21407210. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3094067/. 
  89. ^ “High nutrient transport and cycling potential revealed in the microbial metagenome of Australian sea lion (Neophoca cinerea) faeces”. PloS One 7 (5): e36478. (2012). Bibcode2012PLoSO...736478L. doi:10.1371/journal.pone.0036478. PMC 3350522. PMID 22606263. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3350522/. 
  90. ^ Metagenomics : theory, methods, and applications. Marco, Diana.. Wymondham: Caister Academic Press. (2010). ISBN 978-1-904455-54-7. OCLC 351318426. https://www.worldcat.org/oclc/351318426 
  91. ^ Metagenomics : theory, methods, and applications. Marco, Diana.. Wymondham: Caister Academic Press. (2010). ISBN 978-1-904455-54-7. OCLC 351318426. https://www.worldcat.org/oclc/351318426 
  92. ^ “A human gut microbial gene catalogue established by metagenomic sequencing”. Nature 464 (7285): 59–65. (March 2010). Bibcode2010Natur.464...59.. doi:10.1038/nature08821. PMC 3779803. PMID 20203603. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3779803/. 
  93. ^ Hugenholz, P; Goebel BM; Pace NR (1 September 1998). "Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity". J. Bacteriol 180(18): 4765–74. PMC 107498.PMID 9733676
  94. ^ Lane, D. J.; Pace, B.; Olsen, G. J.; Stahl, D. A.; Sogin, M. L.; Pace, N. R. (1985-10). “Rapid determination of 16S ribosomal RNA sequences for phylogenetic analyses”. Proceedings of the National Academy of Sciences of the United States of America 82 (20): 6955–6959. doi:10.1073/pnas.82.20.6955. ISSN 0027-8424. PMC PMC391288. PMID 2413450. https://www.ncbi.nlm.nih.gov/pubmed/2413450. 
  95. ^ Pace, Norman R.; Stahl, David A.; Lane, David J.; Olsen, Gary J. (1986). Marshall, K. C.. ed (英語). Advances in Microbial Ecology. Boston, MA: Springer US. pp. 1–55. doi:10.1007/978-1-4757-0611-6_1. ISBN 978-1-4757-0611-6. https://doi.org/10.1007/978-1-4757-0611-6_1 
  96. ^ Schmidt, T M; DeLong, E F; Pace, N R (1991). “Analysis of a marine picoplankton community by 16S rRNA gene cloning and sequencing.” (英語). Journal of Bacteriology 173 (14): 4371–4378. doi:10.1128/JB.173.14.4371-4378.1991. ISSN 0021-9193. PMC PMC208098. PMID 2066334. https://jb.asm.org/content/173/14/4371. 
  97. ^ Healy, F. G.; Ray, R. M.; Aldrich, H. C.; Wilkie, A. C.; Ingram, L. O.; Shanmugam, K. T. (1995-09). “Direct isolation of functional genes encoding cellulases from the microbial consortia in a thermophilic, anaerobic digester maintained on lignocellulose” (英語). Applied Microbiology and Biotechnology 43 (4): 667–674. doi:10.1007/BF00164771. ISSN 0175-7598. http://link.springer.com/10.1007/BF00164771. 
  98. ^ Stein, J L; Marsh, T L; Wu, K Y; Shizuya, H; DeLong, E F (1996). “Characterization of uncultivated prokaryotes: isolation and analysis of a 40-kilobase-pair genome fragment from a planktonic marine archaeon.” (英語). Journal of bacteriology 178 (3): 591–599. doi:10.1128/JB.178.3.591-599.1996. ISSN 0021-9193. PMC PMC177699. PMID 8550487. https://jb.asm.org/content/178/3/591. 
  99. ^ Breitbart, M.; Salamon, P.; Andresen, B.; Mahaffy, J. M.; Segall, A. M.; Mead, D.; Azam, F.; Rohwer, F. (2002-10-29). “Genomic analysis of uncultured marine viral communities” (英語). Proceedings of the National Academy of Sciences 99 (22): 14250–14255. doi:10.1073/pnas.202488399. ISSN 0027-8424. PMC PMC137870. PMID 12384570. http://www.pnas.org/cgi/doi/10.1073/pnas.202488399. 
  100. ^ Tyson, Gene W.; Chapman, Jarrod; Hugenholtz, Philip; Allen, Eric E.; Ram, Rachna J.; Richardson, Paul M.; Solovyev, Victor V.; Rubin, Edward M. et al. (2004-03). “Community structure and metabolism through reconstruction of microbial genomes from the environment” (英語). Nature 428 (6978): 37–43. doi:10.1038/nature02340. ISSN 0028-0836. http://www.nature.com/articles/nature02340. 
  101. ^ Venter, J. C. (2004-04-02). “Environmental Genome Shotgun Sequencing of the Sargasso Sea” (英語). Science 304 (5667): 66–74. doi:10.1126/science.1093857. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1093857. 
  102. ^ Yooseph, Shibu; Nealson, Kenneth H.; Rusch, Douglas B.; McCrow, John P.; Dupont, Christopher L.; Kim, Maria; Johnson, Justin; Montgomery, Robert et al. (2010-11). “Genomic and functional adaptation in surface ocean planktonic prokaryotes” (英語). Nature 468 (7320): 60–66. doi:10.1038/nature09530. ISSN 0028-0836. http://www.nature.com/articles/nature09530. 
  103. ^ Poinar, Hendrik N.; Schwarz, Carsten; Qi, Ji; Shapiro, Beth; MacPhee, Ross D. E.; Buigues, Bernard; Tikhonov, Alexei; Huson, Daniel H. et al. (2006-01-20). “Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA” (英語). Science 311 (5759): 392–394. doi:10.1126/science.1123360. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1123360. 
  104. ^ Edwards, Robert A; Rodriguez-Brito, Beltran; Wegley, Linda; Haynes, Matthew; Breitbart, Mya; Peterson, Dean M; Saar, Martin O; Alexander, Scott et al. (2006-12). “Using pyrosequencing to shed light on deep mine microbial ecology” (英語). BMC Genomics 7 (1): 57. doi:10.1186/1471-2164-7-57. ISSN 1471-2164. PMC PMC1483832. PMID 16549033. https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-7-57.