OpenAI o1

OpenAI o1
開発元	OpenAI
初版	2024年9月12日 (3か月前)
種別	GPT (言語モデル)
公式サイト	https://openai.com/o1/
	テンプレートを表示

OpenAI o1（おーぷんえーあいおーわん）は、2024年9月にOpenAIによってリリースされた大規模言語モデルである^[1]。o1は回答する前に思考時間をとるため、複雑な推論作業^[1]、科学^[1]、およびプログラミング^[1]においてより高度な能力を保持する。2024年9月時点では、OpenAI o1-preview、OpenAI o1-miniモデルのみが公開されており、o1モデル本体は公開されていない。社内ではコードネーム「Strawberry」と呼ばれ、GPT-4oの後継ではなく、GPT-4oを補完するモデルとして位置付けられている^[2]。特に科学、コーディング、数学などの分野において、従来のモデルよりも高度な問題解決能力を示す。2024年9月12日にChatGPTおよびAPIで最初のモデルがプレビューリリースされた。

歴史

背景

リークされた情報によると、o1は以前はOpenAI内部で「Q*」^[3]、後に「Strawberry」^[3]として知られていた。コードネーム「Q*」は、サム・アルトマン解任騒動の頃である2023年11月に初めて浮上し^[3]、この実験モデルが数学的ベンチマークで有望な結果を示したという噂があった^[4]。2024年7月、ロイターは、OpenAIが「Strawberry」として知られるGPTを開発中であると報じた^[3]。

リリース

「o1-preview」と「o1-mini」は、2024年9月12日にChatGPT PlusおよびTeamユーザー向けにリリースされた^[1]。GitHubは同日、Copilotサービスへのo1-previewの統合テストを開始した^[5]。

OpenAIは、o1は一連の「推論」モデルの最初のモデルであり^[6]、すべてのChatGPT無料ユーザーにo1-miniへのアクセスを追加する予定であると述べた^[6]。o1-previewのAPIはGPT-4oよりも数倍高価である^[6]。

能力

OpenAIによると、o1は新しい最適化アルゴリズムと、o1専用に調整されたデータセットを使用してトレーニングされている^[6]。トレーニングには強化学習が活用されている^[6]。

o1は回答を生成する前に追加の思考時間（思考連鎖の生成）を費やすため、複雑な推論作業、特に科学^[1]および数学^[1]においてより効果的である。以前のモデルと比較して、o1は最終的な回答を返す前に長い「思考連鎖」を生成するようにトレーニングされている^[7]^[8]。ミラ・ムラティによると、この応答前に思考する能力は、新しい追加のパラダイムを表しており^[9]、回答の生成時により多くの計算能力を費やすことによってモデルの出力を向上させている。一方、モデルスケーリングパラダイムは、モデルサイズ、トレーニングデータ、およびトレーニング計算能力を増加させることによって出力を向上させる^[10]。OpenAIのテスト結果は、精度と、回答前に思考に費やされた計算量の対数の間に相関関係があることを示唆している^[8]^[7]。

o1-previewは、物理学、化学、生物学に関するベンチマークテストで、ほぼ博士号レベルのパフォーマンスを示した^[11]。アメリカ数学招待競技（英語版）では、GPT-4oの13%（1.8/15）に対し、83%（12.5/15）の問題に正答した^[12]。また、Codeforces（英語版）コーディング競技では89パーセンタイルにランクインした^[13]。o1-miniはo1-previewよりも高速で80%安価である^[14]。プログラミングおよびSTEM関連のタスクに特に適しているが、o1-previewと同じ「幅広い世界知識」は持っていない^[15]。

OpenAIは、o1の推論能力により、プロンプトのコンテキストウィンドウで提供される安全規則をよりよく遵守できると述べている。OpenAIは、テスト中に、o1-previewの1つのインスタンスが、バグのために実行不可能であるはずのタスクを成功させるために、誤設定を悪用したと報告した^[16]^[17]。また、OpenAIは、研究、評価、およびテストのために、英国および米国のAIセーフティ・インスティテュートに早期アクセスを許可した。ダン・ヘンドリックス（英語版）は、「このモデルは、生物兵器に関する質問への回答において、ほとんどの場合、博士号を持つ科学者を凌駕している」と述べた^[18]。彼は、これらの懸念される能力は今後も増加し続けると示唆した^[19]。

制限

o1は、最終的な応答を行う前に長い思考連鎖を生成するため、通常、OpenAIの他のGPTモデルよりも多くの計算時間と電力が必要となる^[7]。

OpenAIによると、o1は約0.38パーセントのケースで「アライメントの偽装」^[20]、つまり、精度とその自身の思考連鎖に反する応答を生成することがある。

OpenAIは、ユーザーがo1の思考連鎖を明らかにしようと試みることを禁じている。これは設計上隠されており、同社のポリシーに準拠するようにトレーニングされていない。プロンプトは監視されており^[21]、意図的または誤ってこれを違反したユーザーは警告を受け、o1へのアクセスを失う可能性がある^[22]。OpenAIは、この制限の理由としてAIの安全性と競争上の優位性を挙げているが^[23]、これは大規模言語モデルを扱う開発者によって透明性の喪失として説明されている^[24]。

ベンチマークスコア

OpenAI o1のベンチマークスコアは以下のようになっている^[25]。

GPT-4o OpenAI o1

機械学習ベンチマーク
ベンチマーク	正答率/%
MATH-500	60.3 / 94.8
MathVista	63.8 / 73.2
MMMU	69.1 / 78.1
MMLU	88.0 / 92.3
PhDレベルの科学問題 (GPQA Diamond)
科目	正答率/%
化学	40.2 / 64.7
物理	59.5 / 92.8
生物	61.6 / 69.2
試験（AP、SAT、LSAT（英語版））
試験	正答率/%
AP英語（言語）	52.0 / 64.0
AP英語（文学）	68.7 / 69.0
AP物理2	69.0 / 89.0
AP微積分	71.3 / 85.2
AP化学	83.0 / 93.0
LSAT	87.8 / 98.9
SAT EBRW	91.3 / 93.8
SAT数学	100.0 / 100.0
MMLU（様々な分野）
カテゴリ	正答率/%
世界的事実	65.1 / 78.4
大学化学	68.9 / 78.1
大学数学	75.2 / 98.1
法律	75.6 / 85.0
広報	76.8 / 80.7
計量経済学	78.8 / 87.1
形式論理学	79.8 / 97.0
道徳	80.3 / 85.8