最大節約法
最大節約法(さいだいせつやくほう、英:Maximum parsimony)は、生物の系統進化を示す系統樹を推定する手法の一つ。ただし、系統樹を作製するための確率論的または決定論的なアルゴリズムは多数あるが、最大節約法はその答を求めるためのアルゴリズムではなく、複数の候補の中から最適な系統樹を選択するのに使う方法である。最大節約法においては、最も少ない変化の数で説明できる樹形が最適樹として扱われる[1]。
理論
[編集]基本的な理論
[編集]考えられる多くの系統樹のうちある特定の規準を満たすものを最適樹と呼称する。最大節約法においては、最大節約規準により、あるデータセットに対する最短樹が最適樹となる[2]。言い換えると、最大節約法はオッカムの剃刀による考え方である「一番単純な説明が一番優れている」という仮定を根拠としており、進化の事象数が最も少ない系統樹を最良のものとして選択する方法である[3]。最大節約法では、構築された系統樹について進化の数を算出し、樹形を変化させて再び計算を行う。この2ステップを繰り返して、進化の回数が最小となる樹形を探索するのである[3]。
最大節約規準の下では、ある特定の系統樹の樹形における、ある特定の相同形質の集合の配置が最適と考えられる。この最適な配置においては、同形形質の数が最小で、派生形質の数が最大となる。ただし、この基準の下で自由に系統樹を構築するわけではなく、あくまで形成・変形された系統樹を事後的に評価することに注意が必要である。すなわち、同形形質の数を0にするような自由な系統樹の構築は不可能で、ある特定の系統樹の樹形において同形形質の数が最も数が少なくなる、というのみである[2]。
Swofford and Olsen (1990) では、以下の4つの最節約規準が総括されている[2]。
- ワグナーの最大節約規準
- 相同形質の集合内の形質状態の配列は決定されている。すなわち、ある形質状態aから形質状態cへの変化は、間に入る形質状態bを経る。形質状態の消失と再出現は無制限に認められる。
- フィッチの最大節約規準
- 相同形質の集合内の形質状態の配列は決定されていない。すなわち、形質状態aから形質状態cへの変化において、形質状態bが介在する必要はない。形質状態の消失と再出現は無制限に認められる。
- 一つ一つの共有派生形質が固有に派生する。すなわち、共有派生形質は系統樹上で一度しか発生しない(二次的な消失は認められるが、その場合再度共有派生形質が出現することはできない)。
- カミン・ソーカルの最節約性
- 形質状態の進化は不可逆である(派生形質の二次的な消失はそれ自体が新たな派生形質として解釈される)。
これらの最節約規準を状況に応じて使い分けることで、形質状態の扱い方を変え、個々の形質に対する知見を系統樹推定に反映できる。このバランスを取る規準が、Swofford and Olsen (1990) で提案された総合最節約性である[2]。
アルゴリズム
[編集]解析に含む内群が多い場合計算に膨大な時間を要するため、探索を開始するための初期系統樹(Initial Tree)を作成しておくのが通常の手法である[4]。初期系統樹はランダムなものか、非加重結合法あるいは近隣結合法により求められたものであることが多い[3]。形質(DNAの場合はある部分の塩基配列[1])iにおける形質状態aを節(ノード)kに割り当てた場合、pとqと節kと枝で繋がる次の節とし、を状態aから状態bへの進化回数(ステップ数)[注 1]とすると、この系統樹における最小の進化数は以下の再帰関数で定義される[3]。
ただしkが葉、すなわち次の節と枝で繋がることのない系統寿の末端の節である場合、形質の状態がaのときは、a以外のときはとする。また、全ての形質について、aと異なる形質bについてと定義すると、重みづけを行っていない非加重最大節約法となる。それ以外の場合には重みづけを行っている加重最大節約法となる[3]。この"重み"は、研究者が選択した最節約性の種類に反映される、形質進化の性質に関連する研究者側の仮定を表現している[2]。
別の形質ではそれぞれ異なるステップ数が必要となるため、樹形全体の最小ステップ数Cは全ての形質の最小ステップ数の総和に等しい[1][注 2]。ここで、nは配列の長さ、Bは全ての形質状態(DNAの塩基配列の場合はアデニン、チミン、グアニン、シトシンの4塩基)、rootは系統樹の根となる節を指す[3]。
上記の式で系統樹全体の進化数を計算した後、樹形を変化させながらその樹形における最小のステップ数を計算して、最適な樹形を探索していく[3]。この探索は発見的探索法と呼ばれ[4]、Nearest neighbor interchanges(NNI)、Subtree pruning regrafting(SPR)、Tree bisection-reconnection(TBR)などの手法がある。なお、発見的探索法は同じく形質状態法に分類される系統樹推定法である最尤法と共通する[3]。
信頼性の評価
[編集]かつて、最大節約法を含む系統推定法で得られた最適樹の信頼性評価には内部枝検定や下川・長谷川検定が一般に使用されていた。2021年現在では最大節約法・最尤法・近隣結合法ではブートストラップ法が標準的に使用されている[3]。
特徴
[編集]最大節約法はHenning (1966) で形態形質を用いた系統推定法として提唱された。2021年現在、最大節約法は同形形質や長枝誘引の問題があるため、塩基配列やアミノ酸配列などの分子系統解析に用いられることは多くない。ただし、分子データが保存されていない化石種の系統推定など、形態形質に基づいて系統樹を推定する場合にはよく用いられている。 近隣結合法や最尤法など最大節約法以外の系統推定法も数多く存在するが、松井 (2021) では形態に基づく解析の場合には最大節約法が推奨されている[3]。
最大節約法は他の形質状態法(最尤法とベイズ法)と同様に、計算量が多く、計算時間が長いという欠点がある。追加された節に繋がる可能性が全ての枝に存在するため、内群の生物群を1つ追加すると可能な系統樹の数は2倍となり、2つ追加すると4倍、3つ追加すると8倍、と指数関数的成長を見せる[6]。数式的に表すと、系統樹の樹形の総数はn個のOTU(操作上分類単位、系統樹の葉にあたる分類群)に対してだけ存在するため、トータルの計算量はOTUの数に対して階乗のオーダーとなる[7]。このため、最尤法ほどではないにせよ、計算時間の長さが指摘されている[6]。
また、最大節約法はステップ数が最小の樹形を最適樹として扱うため、複数回の進化が同一の形質において起きている場合にその進化を検知できず、進化回数を過小評価してしまう。収斂進化が数多く起きている場合には誤った推定結果が得られることになる[6][7]。長谷川英祐は、実際に起きた進化回数が少ない場合に最大節約法の有効性が高いと考えている[6]。
利用
[編集]最大節約法による系統推定は無償ソフトウェアで実行できる。代表的なソフトウェアにはPHYLIPやPAUP*[1][4]、TNTやPOYがある[8]。
脚注
[編集]注釈
[編集]出典
[編集]- ^ a b c d e 隈啓一、加藤和貴「実践的系統樹推定方法」『化学と生物』第44巻第3号、2006年、185-191頁、doi:10.1271/kagakutoseibutsu1962.44.185。
- ^ a b c d e E・O・ワイリー、D・シーゲル=カウジー、D・R・ブルックス、V・A・ファンク 著、宮正樹 訳『系統分類学入門 分岐分類の基礎と応用』文一総合出版、1992年、69-71頁。ISBN 978-4829930168。
- ^ a b c d e f g h i j 松井求「分子系統解析の最前線」『JSBi Bioinformatics Review』第2巻第1号、2021年、30-57頁、doi:10.11234/jsbibr.2021.7。
- ^ a b c 高松進「分子系統学の基礎」『植物防疫』第59巻第3号、2005年、64-69頁。
- ^ 三中信宏「最節約法に基づく分子系統樹推定:系統樹の森の探検」第19巻Special Issue、1998年、doi:10.5691/jjb.19.S49。
- ^ a b c d 長谷川英祐. “第7章 進化と系統 -進化の歴史を再現する-”. 北海道大学大学院農学研究院・大学院農学院・農学部. 2021年10月23日閲覧。
- ^ a b 益子理絵、山田真介、山名早人「分枝系統樹構成法に関する最新技術動向」『情報処理学会第65回全国大会講演論文集』第1号、2003年、233-234頁。
- ^ 三中信宏「分子系統学:最近の進歩と今後の展望」『植物防疫』第63巻第3号、2009年、192-196頁。