Phredクオリティスコア
Phredクオリティスコアは、自動DNAシークエンシング用のプログラムPhredに用いられているベースコールのスコアである。
Phredクオリティスコアはトレースからベースコールを行う際に、各塩基に付けられる。DNAの塩基配列の品質を表す指標としてPhredクオリティスコアは広く普及しており、シークエンシング手法間での精度の比較などにも用いられている。
また、Phredクオリティスコアが非常に重要な役割を果たす用途としては、クオリティを利用した配列アセンブリングがある。
歴史
[編集]クオリティスコアの考え方は元をたどればSCF形式までさかのぼることができる。SCFファイル形式はStadenのグループが1992年に考案したものである。[1] 1995年にBonfieldとStadenは、DNAシークエンシングプロジェクトにおいて塩基単位のクオリティスコアをコンセンサス配列の精度の改善に使う手法を提唱した。 [2]
しかし初期の頃の塩基単位でクオリティスコアを予測しようという試みは、あまりうまくいかなかった。
最初に成功を収めたのがPhredというプログラムである。Phredは非常に高い精度でクオリティスコアを算出でき、実際にエラーの確率とよく対応していた。Phredは速やかに主要なゲノムシークエンシングセンターから、各研究室に至るまで広く使われるようになった。ヒトゲノム計画では、そのDNA配列の大部分がPhredを使用して処理されたことになる。
DNAの塩基配列決定において、Phredクオリティスコアが不可欠となった後、Li-CorやABIなどのDNAシーケンサーのメーカーは彼らのベースコール用ソフトウェアで同様のクオリティスコアを出力できるように開発するようになった。
方法
[編集]Phredのベースコールとスコア計算法は、Ewingらによるものである。
クオリティスコアの計算では、Phredはまず各塩基のピーク形状とピーク解像度についていくつかのパラメータを算出する。次にPhredはそれらのパラメータを使用して巨大な参照表群(lookup tables)から対応するクオリティスコアを取得する。この参照表群は既知の塩基配列のトレースから生成されたもので、Phredのプログラムコード中に埋め込まれている。参照表はシークエンシングに使用する機器や反応系によって対応するものが使用される。多数の反応系や機器で行った評価をまとめた報告によれば、Phredが出力するクオリティスコアは非常に正確であったとされている。 [3]
応用
[編集]信頼性
[編集]References
[編集]- ^ Dear S, Staden R (1992): A standard file format for data from DNA sequencing instruments. DNA Sequence, 3, 107-110. PMID 1457811
- ^ Bonfield JK, Staden R (1995): The application of numerical estimates of base calling accuracy to DNA sequencing projects. Nucleic Acids Res. 1995 Apr 25;23(8):1406-10. PMID 7753633
- ^ Richterich P (1998). “Estimation of errors in "raw" DNA sequences: a validation study”. Genome Res. 8 (3): 251–259. PMC 310698. PMID 9521928 .