グローバル距離テスト
グローバル距離テスト (global distance test、GDT) は、既知のアミノ酸対応を持ちながら (例えば同一のアミノ酸配列)、三次構造が異なる2つのタンパク質構造間の類似性を測定する尺度であり、「合計スコア」を表すためにGDT_TSとも呼ばれる。これは、タンパク質の構造予測の結果を、X線結晶構造解析またはタンパク質NMRによって測定された実験的に決定された構造と比較するために最も一般的に使用される。著者のAdam Zemla氏[1]が説明するGDT測定値は、より一般的なRMSD測定値よりも正確な測定を目的としており、これは構造中の個々のループ領域のモデル化が不十分なために外れ値領域の影響を受けやすいが、それ以外の場合は適度に正確である。GDT_TS測定値は、タンパク質構造予測精密評価 (CASP、Critical Assessment of Structure Prediction) の結果を作成する際の主要な評価基準として使用される。CASPは、現在のモデリング技術の評価と、その主要な欠陥を特定に特化した構造予測コミュニティでの大規模な実験である[1][2][3]。一般的にGDT_TSが高いほど、参照構造と比較して与えられたモデルが優れている。
算出
[編集]GDTスコアは、2つの構造を重ね合わせた後、実験構造内で位置が定義された距離カットオフ内に収まるような、モデル構造におけるアミノ酸残基のα炭素原子の最大集合として計算される。独自の設計[4]により、GDTアルゴリズムは20個のGDTスコア、すなわち20個の連続した距離カットオフ (0.5Å、1.0Å、1.5Å、...10.0Å) のそれぞれについて計算する。構造類似性評価では、いくつかのカットオフ距離からのGDTスコアを使用することを意図しており、スコアは一般的にカットオフ距離の増加に伴って増加する。この増加の変動が少ない状態( プラトー)は、実験構造と予測構造の間に極端な相違があることを示している可能性があり、妥当な距離の任意のカットオフ内に追加の原子が含まれていないことを示唆する (GDTプロットを参照)。CASPにおける従来のGDT_TSの合計スコアは、1、2、4、8Åのカットオフの平均値である[1][5]。
オリジナルのGDT_TSは、Local Global Alignment (LGA)プログラムを用いて生成された重ね合わせとGDTスコアに基づいて計算される[1]。GDT_HAと呼ばれる高精度版は、より小さなカットオフ距離 (GDT_TSの半分のサイズ) を選択することによって行われ、参照構造からの大きな偏差に大きなペナルティを課す。それはCASP7の高精度カテゴリで使用されていた[6]。CASP8では、GDT_TSから正解近くにクラスタリングされた残基に対するペナルティを差し引いた新しい「TRスコア」を定義している。これは、予測された構造における立体的な衝突にペナルティを与えるもので、時にはGDTのカットオフ値を駆け引きすることもある[7][8]。
一次GDT評価では、α炭素原子のみを使用する。タンパク質の側鎖の機能末端に重ね合わせベースのスコアリングを適用するために、側鎖のグローバル距離計算 (GDC_sc) と呼ばれるGDTに似たスコアが設計され、2008年にLGAプログラム内に実装された[1][9]。GDC_scでは、α炭素原子に基づいて残基位置を比較する代わりに、各側鎖タイプの末端近くにある特徴的な原子を用いて残基-残基距離の偏差を評価する。GDCスコアの「全原子」バリエーション (GDC_all) は、完全なモデル情報を用いて計算され、CASPの主催者や評価者が予測構造モデルの精度を評価するために用いる標準的な尺度の一つである[9][10]。
参照項目
[編集]- 二乗平均平方根偏差 (バイオインフォマティクス) (英語版) - 構造比較尺度
- テンプレートモデリングスコア (英語版) - 構造比較尺度
- 最長連続セグメント (LCS) (英語版) - LGAプログラム内で実装されている構造比較尺度
- グローバル距離計算 (GDC_sc、GDC_all) (英語版) - 類似性を評価するために (α炭素だけでなく) 完全なモデル情報を使用する構造比較尺度
- ローカルグローバルアラインメント (LGA) (英語版) - 構造アラインメントプログラムと構造類似性尺度で、GDT、GDC、LCS、およびLGA_Sがある
参考文献
[編集]- ^ a b c d e Zemla A (2003). “LGA: A method for finding 3D similarities in protein structures”. Nucleic Acids Research 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330 .
- ^ Zemla A, Venclovas C, Moult J, Fidelis K (1999). “Processing and analysis of CASP3 protein structure predictions”. Proteins S3: 22–29. doi:10.1002/(SICI)1097-0134(1999)37:3+<22::AID-PROT5>3.0.CO;2-W. PMID 10526349.
- ^ Zemla A, Venclovas C, Moult J, Fidelis K (2001). “Processing and evaluation of predictions in CASP4”. Proteins 45 (S5): 13–21. doi:10.1002/prot.10052. PMID 11835478.
- ^ US patent 8024127 B2, Adam Zemla, "Local-Global Alignment for Finding 3D Similarities in Protein Structures", issued 20 September 2011, assigned to Lawrence Livermore National Security, LLC
- ^ Kryshtafovych, A; Prlic, A; Dmytriv, Z; Daniluk, P; Milostan, M; Eyrich, V; Hubbard, T; Fidelis, K (2007). “New tools and expanded data analysis capabilities at the Protein Structure Prediction Center.”. Proteins 69 Suppl 8: 19–26. doi:10.1002/prot.21653. PMC 2656758. PMID 17705273 .
- ^ Read, Randy J.; Chavali, Gayatri (2007). “Assessment of CASP7 predictions in the high accuracy template-based modeling category”. Proteins 69 (S8): 27–37. doi:10.1002/prot.21662. PMID 17894351.
- ^ Shi, S; Pei, J; Sadreyev, RI; Kinch, LN; Majumdar, I; Tong, J; Cheng, H; Kim, BH et al. (2009). “Analysis of CASP8 targets, predictions and assessment methods.”. Database: The Journal of Biological Databases and Curation 2009: bap003. doi:10.1093/database/bap003. PMC 2794793. PMID 20157476 .. Related page
- ^ Sadreyev, RI; Shi, S; Baker, D; Grishin, NV (15 May 2009). “Structure similarity measure with penalty for close non-equivalent residues.”. Bioinformatics 25 (10): 1259–63. doi:10.1093/bioinformatics/btp148. PMC 2677741. PMID 19321733 .
- ^ a b Keedy, D.A.; Williams, CJ; Headd, JJ; Arendall, WB; Chen, VB; Kapral, GJ; Gillespie, RA; Block, JN et al. (2009). “The other 90% of the protein: Assessment beyond the α-carbon for CASP8 template-based and high-accuracy models”. Proteins 77 (Suppl 9): 29–49. doi:10.1002/prot.22551. PMC 2877634. PMID 19731372 .
- ^ Modi V, Xu QF, Adhikari S, Dunbrack RL (2016). “Assessment of template‐based modeling of protein structure in CASP11”. Proteins 84: 200–220. doi:10.1002/prot.25049. PMC 5030193. PMID 27081927 .
外部リンク
[編集]- GDTプロット - CASP5実験で評価された構造モデルのGDT解析によるプロット例
- GDC、GDT、LCS、LGA記述 - 構造比較と類似性対策に関するサービスとドキュメント