同時マルチスレッディング
同時マルチスレッディング(どうじマルチスレッディング、英: Simultaneous Multi-Threading、SMT)とは、パイプライン化されたスーパースカラーCPUにおいて、同一パイプラインステージ上で複数のスレッドの命令を処理することを特徴とする、ハードウェアマルチスレッディングの一形態。
概要
[編集]パイプライン全体の命令充填率を上げるため、同一のパイプラインステージに複数スレッドからの命令を充填する機構を実装し、システムの性能(スループット)を改善することを目標としている。
実装は各CPUのアーキテクチャに依存した最適なものが選択され、プログラムカウンタを複数備えるだけの単純なものから、APICを複数実装し疑似的な対称型マルチプロセッシングを実現するもの[1]、Bulldozerのように複雑なマルチスレッディング機構を有しその一部としてSMTを利用するもの、一つのデコーダで複数スレッドの命令を同時にデコードするものまで様々である。
スレッドの供給は一般的にOSがそのスケジューラにより決定する。
誕生の背景
[編集]CPUの性能(スループット)向上については、古典的には高クロック化と命令レベルの並列性(ILP)の実現(スーパースカラーの採用、パイプライン化等によるIPCの向上)、キャッシュの採用により実現されていた[2]。 これらは同時にCPU資源の無駄を発生させていた[3]。 そこで、スレッドレベルの並列性(TLP)の概念が生まれ、TLPはSMPやCMPによる並列化、FGMTのようなマルチスレッド技術で実現されつつあった。 SMTはそれらの技術におけるパイプラインの充填率の低さを欠点とみなし、FGMTのようなパイプラインハザードの隠蔽効果をシングルスレッド性能をなるべく犠牲にせず、CMPに比べて少ないチップ面積で実現することを目指して発明された[4]。
詳細
[編集]単一CPU(単一コア)で複数スレッドを同時実行することで、擬似的な対称型マルチプロセッシング (SMP) 環境を提供することができる。これは主にハードウェアの観点からの見方だが、ソフトウェアの視点からこの技術を見た場合は複数の実行スレッドが単一のプロセッサを共有していると言える。SMTを有効にすることで、見かけのプロセッサ数(論理プロセッサ数、論理コア数)が増加する。オペレーティングシステム (OS) がSMTに対応することで、アプリケーションソフトウェアからは透過的に複数のプロセッサとして利用することができるようになる。SMTにより同時駆動されるスレッドは、タイムスライスで切り替えて疑似的に同時実行するスレッドと対比して、ハードウェアスレッドと呼ばれることがある。
上に「擬似的なSMP環境を提供する」と書いたが、これはSMTの結果であって目的ではない。SMTの本来の目的は、プロセッサ内部の各実行ユニットの使用率を上げることにある。高度にパイプライン化された現代のスーパースカラープロセッサの実行の様子をつぶさに調べると、プロセッサ内部の実行ユニットすべてが動作しているわけではない場合が多いことがわかった。つまり、せっかくプロセッサ内部を高度に並列化しているにも拘らず並列性が最大限に活かされていない。単一スレッドでは完全には使われないプロセッサ内部資源を複数のスレッドに分配することで、プロセッサが本来持つ並列性を最大限に引き出してシステム全体のパフォーマンスを向上させようというのがSMTの本来の目的である。また、CGMTやFGMTといった同時にマルチスレッドを実行しないマルチスレッディング技術同様に、メモリレイテンシを隠蔽する効果もある。
例えて言うと、整数演算ばかり行うスレッドAと浮動小数点演算ばかり行うスレッドBを同時に実行すると、スレッドAは整数演算ユニットばかり使いスレッドBは浮動小数点演算ユニットを使うのでお互いにプロセッサ内部資源の競合が極めて少なく、効率的に両者を実行できると考えられる。特に、浮動小数点命令は複数段のパイプラインで実行されることが多く、実行パイプラインを効率良く埋めるのに有用な技術と言える。
ただし、どれほどうまく資源配分をしても、共有資源の奪い合いが起きて、どちらかのスレッドが調停のために待ち状態となることは完全には避けられないため、2スレッドを同時実行したとしても2倍のシステム性能が得られることは絶対にない。つまりスレッド当たりの性能(シングルコア性能)はSMTを使用しない場合と比較すると必ず低下する。また、物理的にNコアを持っている場合と論理的にNコアを持っている場合を比較したとき、それ以外の性能がまったく同じであれば、物理的にNコアを持っているほうが性能面で有利であることには変わりない。
また、CPU開発動向において実行効率改善のために演算を含む内部リソースを大量に備える方向に進んでおり、SMT有効化後でもリソースが余る程強力な構成が一般化しつつある。現実的な全体性能としてはSMT有効化にて10%〜50%程度の上昇がみられる[要出典]。[注釈 1]
インテルは自社のSMT技術であるハイパースレッディング・テクノロジー (HTT) により、CPUスループットをサーバーアプリケーションで最高30%向上することが可能であると述べている[11]。
PCアプリケーションにおいてもマルチスレッド対応が進み、SMTは追加リソースに比較して性能向上率が大きく[注釈 2]、近年[いつ?]ではマルチコア化の進展に合わせSMT対応も同時に進行している。
消費電力面では、SMTによってパフォーマンスが改善する場合実行ユニットが動作するため、有効化によって見かけ上の電力効率が悪化するケースもある。[要出典]
演算の種類によっては、SMTを有効にしたときの性能向上率よりも消費電力増加率のほうが大きく、実際の電力効率が悪化するケースもある[13]。消費電力はOSのスレッドスケジューリングアルゴリズムにも左右され、OS層には物理コアと論理コアの違いを考慮した対応と最適化が求められる[14]。
PCやモバイルではSMTが積極的に用いられることは少ないが、大量のデータを処理するサーバー向けの分野ではレイテンシ隠蔽を目的にSMTが採用されることもある[15]。
SMTは同時に、つまり同じクロックサイクルで複数のスレッドを動かす技術である。従来のマルチスレッディングではハザードや命令ごと、あるいはクロックごとに実行するスレッドを切り替えており、複数のスレッドを実行できるプロセッサでも、あるクロックサイクルに実行されているスレッドはひとつであった。
単一CPU(単一パッケージ)で同時に複数のスレッドを処理できるものとして、デュアルコア(2コア)、クアッドコア(4コア)、……といったマルチコア技術があるが、これは1つのCPUパッケージの中に2つ以上の物理コアが実装されているものであり、1つのコアの中で2つに分けられている同時マルチスレッディングとは似て非なるものである。同時マルチスレッディングはマルチコア技術と併用することも可能である。Intelはシングルコア設計のNetBurstマイクロアーキテクチャにおいて実装したハイパースレッディング・テクノロジー (HTT) を、マルチコア設計のCoreマイクロアーキテクチャでいったん捨てたが、Nehalemマイクロアーキテクチャ以降で再び採用したことにより、SMTとマルチコアを併用できるようになった。Alder Lake世代のプロセッサでは、高性能コア(Pコア)および高効率コア(Eコア)という2種類のコアをそれぞれ複数個搭載しているが、HTTはPコアでのみ利用可能であり、Eコアではサポートされない[16][17]。
PCやワークステーション向けのプロセッサでは、通例BIOS/UEFI設定によってSMTの有効/無効を切り替えることができる。プロセッサの内部ハードウェア的にはSMT機能を実装しているものの、ブランドやグレードに応じてサポートするかどうか(有効化できるかどうか)を制限している製品もある。
SMTはプロセッサコアあたり2スレッド (2-way) とは限らない。4スレッド (4-way) 以上を同時に実行できるプロセッサも存在する[注釈 3]。
CPUの物理コア数が増えるにつれて、SMTが合理的でなくなってきている、という指摘もある[18]。また、SMTを有効化したときにスレッド上の情報を盗み取られる可能性のある脆弱性などもいくつか見つかっている[19][20]。
商用の実装
[編集]DEC Alphaファミリ
[編集]DEC Alpha EV8はさらにパワフルな4スレッドSMTエンジンを搭載する予定であった[21]が、コンパックはプロジェクトを商用化前に打ち切った。
IBM POWERファミリ
[編集]2004年5月に発表されたIBMのPOWER5はデュアルコアプロセッサで、それぞれのコアに2スレッドのSMTエンジンが組み込まれている。IBMの実装はそれ以前の実装と比較してより洗練されており、異なるスレッドに優先度を与えることや、SMTが性能向上をもたらさないタイプのワークロードをより効率的に処理するため動的にSMTエンジンをオン・オフすることが可能となっている。
2005年に発売されたマイクロソフトのゲーム機Xbox 360のCPUには、PowerPCベースの対称型3コアプロセッサXenonが採用されており、2-way SMTにより最大6つのハードウェアスレッドをサポートする。
2006年に発売されたソニーのゲーム機PlayStation 3のCPUには、PowerPC 970互換のプロセッサが採用されており、2-way SMTをサポートする[22]。
2010年2月に発表されたIBMのPOWER7では、それぞれのコアで同時実行可能なスレッド数が4へと倍増されている。 また2013年8月には同時8スレッドが実行可能なPOWER8を発表している。
Sun UltraSPARCファミリ
[編集]2007年の段階で、サン・マイクロシステムズと富士通が開発中の次世代プロセッサ、コードネーム「Rock」は2009年~2010年に登場が予定されていた。現行の「UltraSPARC IV+」を置き換える予定のRockはマルチコアでコア内でも複数スレッドを同時実行する。Rockは16コアx16スレッドが同時平行的に実行され、1つのプロセッサで256スレッドになる。これらサンの新プロセッサは「Solaris OS」が備える「Solarisコンテナ」機能によってマルチスレッディングに対応する[23]。
x86/x64
[編集]Intel Pentiumファミリ
[編集]NetBurstマイクロアーキテクチャのXeonとPentium 4がSMTを採用した最初の商用プロセッサで、以降さまざまなモデルに同機能が搭載されている。インテルはこの機能を「ハイパースレッディング・テクノロジー (Hyper-Threading Technology)」と呼び、その内容は基本的な2スレッドのSMTエンジンである。
Intel Atomファミリ
[編集]インテルの低消費電力プロセッサであるAtomにはSMTが採用された。Atomはインオーダー実行のプロセッサであり、NetBurstマイクロアーキテクチャとは異なるマイクロアーキテクチャである。
Intel Core iファミリ
[編集]Nehalemマイクロアーキテクチャ以降のCore i/XeonにおいてもSMTが採用されている。インテルのメインストリーム向けプロセッサとしてはNetBurst系以来の採用である。
AMD Ryzen/EPYC
[編集]AMDのZenマイクロアーキテクチャでは、同社史上初のSMTが実装された[24]。
ARM
[編集]ARM Cortex
[編集]ARMは2018年に自動車ソリューション向けのSMT対応プロセッサCortex-A65AEを発表した[25]。
脚注
[編集]注釈
[編集]- ^ SMT (HTT) のサポート有無以外は類似した性能を持つCPUである「Core i9-9900K」と「Core i7-9700K」の比較では、PassMark® Software社が公開しているPassMarkのベンチマークスコアは18,538 vs 14,549となっている[5][6]。CPU-Monkey.com[7]によるCinebench R23 CPU (マルチコア) のスコアは12,450 vs 10,326となっている[8][9][10]。しかし、これら2つのプロセッサは、L3キャッシュの容量や、Intel Turbo Boostが動作したときのターボクロック周波数が異なるため、SMTによる性能向上率の比較としては公平ではない。対照実験の原則の観点から、少なくとも同じCPUを用いて、SMTをONにした場合とOFFにした場合とでベンチマークスコアを比較すべきである。
- ^ 数%のチップ面積増加に対し10%以上スループット性能が向上する[12]。
- ^ IBMのPOWER7以降や、サン・マイクロシステムズ(現オラクル)のUltraSPARC Tシリーズなど。
出典
[編集]- ^ T. Marr et al.,Hyper-Threading Technology Architecture and Microarchitecture,Intel Technology Journal Q1, 2002, HYPER-THREADING TECHNOLOGY ARCHITECTURE節最終パラグラフ他
- ^ T. Marr et al.,Hyper-Threading Technology Architecture and Microarchitecture,Intel Technology Journal Q1, 2002, Processor Microarchitecture節第1パラグラフ
- ^ Dean M. Tullsen, Susan J. Eggers, and Henry M. Levy, ISCA96, Simultaneous Multithreading: Maximizing On-Chip Parallelism (1995), Figure 1
- ^ Dean M. Tullsen, Susan J. Eggers, and Henry M. Levy, ISCA96, Simultaneous Multithreading: Maximizing On-Chip Parallelism (1995), Abstract
- ^ PassMark - Intel Core i9-9900K @ 3.60GHz - Price performance comparison
- ^ PassMark - Intel Core i7-9700K @ 3.60GHz - Price performance comparison
- ^ Benchmark guidelines | cpu-monkey
- ^ Intel Core i9-9900K Benchmark, Test and specs | cpu-monkey
- ^ Intel Core i7-9700K Benchmark, Test and specs | cpu-monkey
- ^ Intel Core i9-9900K vs Intel Core i7-9700K Benchmark, comparison and differences | cpu-monkey
- ^ ハイパースレッディングとは?- インテル
- ^ Hisa Ando 2011, p. 249.
- ^ 完全版!! 「Core i7」極限検証 - 内部アーキテクチャ解析編 (23) | マイナビニュース
- ^ ASCII.jp:マルチコアCPUの消費電力はスケジューリングで変わる? (4/4)
- ^ ASCII.jp:Core iシリーズにも使われる「SMT」の利点と欠点 (4/4)
- ^ Intel次期CPU「Alder Lake」はWindows 11に最適化されたスレッド割り当て機能を搭載 - PC Watch
- ^ ASCII.jp:HotChips 33で判明したAlder Lakeの詳細 インテル CPUロードマップ (1/3)
- ^ 一つのCPUで複数のスレッドを実行する技術「SMT」が合理的でなくなってきているとの指摘 - GIGAZINE
- ^ Hyper-Threading有効時にスレッド上の情報が盗まれる「PortSmash」 ~Intel製品のほかRyzenにも影響か - PC Watch
- ^ Ryzen/EPYCの実行ユニットスケジューラに脆弱性が発見される - PC Watch
- ^ Design of an 8-wide superscalar RISC microprocessor with simultaneous multithreading Preston, R.P.; Badeau, R.W.; Bailey, D.W.; Bell, S.L.; Biro, L.L.; Bowhill, W.J.; Dever, D.E.; Felix, S.; Gammack, R.; Germini, V.; Gowan, M.K.; Gronowski, P.; Jackson, D.B.; Mehta, S.; Morton, S.V.; Pickholtz, J.D.; Reilly, M.H.; Smith, M.J. Solid-State Circuits Conference, 2002. Digest of Technical Papers. ISSCC. 2002 IEEE International Volume 1, Issue , 2002 Page(s):334 - 472 vol.1
- ^ 西川善司の3DゲームファンのためのPS3アーキテクチャ講座
- ^ 日経コンピュータ2007年10月1日号p181
- ^ Ryzenはなぜ「ゲーム性能だけあと一歩」なのか? テストとAMD担当者インタビューからその特性と将来性を本気で考える
- ^ Arm、自動車向けアプリケーションプロセッサIP「Cortex-A65AE」を発表 | マイナビニュース
参考文献
[編集]- Hisa Ando『プロセッサを支える技術 : 果てしなくスピードを追求する世界』技術評論社、2011年1月25日。ISBN 978-4-7741-4521-1。