Wes Roth : ChatGPT o3 Pro：思考の幻想を打ち破るAIシステム

June 18, 2025 · 12 min read

前置き

AI の話題。Wes Roth の Youtube 動画、

https://www.youtube.com/watch?v=vmrm90u0dHs

を AI に整理させた。

音声対話

https://notebooklm.google.com/notebook/3ebb583e-5c6d-422a-84ca-8ae705c165fc/audio

概要

o3 Pro：思考の幻想を打ち破るAIシステム

提供されたYouTubeの動画は、OpenAIがリリースした最新のAIモデルである**「03 Pro」と、その前身である「03」の能力について解説しています。

動画の著者は、特に「03 Pro」がAppleの「錯覚の思考」テストで見られるような複雑な推論問題を解決できること、そして「エージェント・オブ・チェンジ」のような機械学習の研究を再構築できることを強調しています。彼は、「03 Pro」を単なるチャットボットではなく、バックグラウンドでツールを実行できるAIシステム**として扱うべきだと主張しています。また、この新しいモデルは、大量の文脈を与えられたときに最も優れた性能を発揮するため、その真の能力を評価するにはより複雑なタスクが必要であると説明されています。

要旨

O3 Proに関する詳細ブリーフィングドキュメント

主要テーマと重要な事実

OpenAIは、期待の新モデル「O3 Pro」を発表し、同時に既存の「O3」の価格を80%値下げしました。O3 Proは、従来のモデルとは一線を画す「AIシステム」として設計されており、その驚異的な推論能力と問題解決能力が注目されています。

O3 Pro：単なるモデルではなく、ツールを実行するAIシステム

「レポートジェネレーター」としてのアプローチ: O3 Proは、チャットボットのように対話するのではなく、複雑なタスクを提示し、時間をかけて詳細なレポートや計画を生成させる「レポートジェネレーター」として扱うのが最適です。
バックグラウンドでのツール実行: 「これはAIシステムであり、多くのツールをバックグラウンドで実行している。その中には、思考の連鎖や小さなアップデートを追跡しない限り、見ることのできないものもある」と説明されています。
ツールへのアクセス: O3 Proは、ウェブ検索、ファイル分析、視覚入力の推論、Pythonの使用、メモリを使用した応答のパーソナライズなど、ChatGPTを便利にするためのツールにアクセスできます。
隠されたプロセス: Tower of Hanoiの問題を解決する際に、「コメントチャンネルでコードをドラフトしている」という情報が示されたにもかかわらず、ユーザーにはそのコードが見えませんでした。これは、O3 Proが内部で実行しているプロセスの一部がユーザーから隠されていることを示唆しています。

驚異的な推論能力と「思考の幻想」の打破

Tower of Hanoi問題の一撃解決: Appleが提唱した「思考の幻想」テストにおいて、O3 Proは10ディスクのTower of Hanoi問題を一発で解決しました。これは、既存のモデルがほとんど0%の精度であった難問です。
- 「O3 Proは、この論文のこの問題を一撃で解決し、それゆえに思考の幻想を打ち破った、と言えるだろう。」
- 最適な解である1023手の手順を正確に生成しました。
「Agents of Change」論文の応用: Settlers of CatanのAIプレイヤーの自己改善フレームワークを記述した「Agents of Change」論文をアップロードし、O3 Proに「Diplomacy」という別のゲームにそのアーキテクチャを適用する計画を提案させました。
- O3 Proは、論文の要点を理解し、新しいゲームに適用するための詳細な計画を立案しました。
- 「すべてのアイデアを取り入れて、まったく異なるゲームに適用しようとしている」
- 「これを実際にどのように行うか書き出した。したがって、リポジトリをフォークして、元のオープンソースプロジェクトのコピーを作成し、そこから始める。そして、プロジェクトを構築し始める方法を段階的に説明する。」
コード生成能力: 上記の計画に基づき、O3 Proはプロジェクトのブレークダウン、スキャフォールドの構築理由、APIキーの追加方法を含む、詳細なコードを15分21秒で生成しました。
- 「コードを書けと言ったら、15分21秒でやった。プロジェクトの分解を作成し、3万行のモノリスではなくスキャフォールドである理由を説明し、そして、APIキーを追加する方法を含め、それらのものすべてを一行一行構築する。」

評価の課題と「コンテキストの飢え」

単純なテストでは真価が分からない: O3 Proの能力を評価するには、大量のコンテキストと複雑な問題が必要です。単純な質問では、その真価を測ることはできません。
- 「アインシュタインに2足す2は何かと尋ねても、質問が単純すぎて彼の知能レベルを測ることはできないかもしれない。」
O3 Proの「コンテキストの飢え」: Raindrop.aiのBen Hilac氏は、「神はコンテキストに飢えている」と表現し、O3 Proがより賢い一方で、その能力を見るためには「はるかに多くのコンテキスト」を与える必要があると指摘しています。
具体的な計画の生成: Raindrop社は、過去の会議記録、目標、ボイスメモを含む大量のコンテキストをO3 Proにアップロードし、計画の立案を依頼しました。
- O3 Proは、「ターゲット指標、タイムライン、優先順位、そして絶対に削減すべきことに関する厳格な指示を含む、私がいつもLLMに作成してほしかった、まさに具体的で具体的な計画と分析」を生成しました。
- この計画は、「私たちが将来についてどのように考えているかを実際に変えた」ほどのインパクトがありました。
従来の評価基準の限界: 上記のようなO3 Proの能力は、既存のベンチマークや評価方法では捉えきれないと述べられています。「これは評価では捉えにくい。これが私が言っていることだ。これは、どんな指標、どんな評価、どんなベンチマークにも載らないだろう。」 OpenAIの「Paper Bench」（AIが機械学習の研究を再現する能力をテストするもの）が最も近い評価方法として挙げられています。

O3 ProとO3の比較

価格と性能のトレードオフ: O3の価格が80%値下げされたことで、O3はより安価で高速なモデルとして利用可能になりました。一方、O3 Proは「巨大で、遅く、高価な、IQを最大化する推論モデル」として位置づけられています。
ユースケースの違い:
- O3: 日常的なチャットや一般的なタスクに適しています。
- O3 Pro: 深い分析、複雑な問題の一撃解決、純粋な知性の限界を押し広げるタスクに適しています。コンテキストの必要性: O3 Proは、O3と比較して「非常に異なる、昼と夜ほどの違い」がありますが、その能力を引き出すには「コンテキストを大量に与える」必要があります。

今後の展望と懸念

自己改善システムの再現: O3 Proが、人間がコードを書くことなく機械学習論文の概念を抽出し、別のゲームに適用する自己改善アーキテクチャを完全に再現できる場合、「文字通りゲームを少し変える」ほどの意味を持つと述べられています。
潜在的な「恐ろしさ」: O3 Proの能力が「少し怖い、あるいは恐ろしく良い」と表現されており、その進歩に期待と懸念が入り混じっています。
今後のテスト: より多くのユースケースやテストが進行中であり、その結果が待たれます。

まとめ

O3 Proは、単なる高性能な言語モデルを超え、バックグラウンドでツールを実行し、膨大なコンテキストを処理することで、複雑な推論問題やプロジェクト生成において前例のない能力を発揮する「AIシステム」です。その能力は、従来の評価基準では測りきれないほどであり、「思考の幻想」を打ち破り、AIの可能性を大きく広げるものとして注目されています。しかし、その真価を引き出すには、適切なコンテキストと複雑な問題を与える必要があるという、新しいモデルとの付き合い方が求められています。

(2025-06-18)

前置き​

O3 Proに関する詳細ブリーフィングドキュメント

主要テーマと重要な事実​

今後の展望と懸念​

まとめ​

前置き

主要テーマと重要な事実

今後の展望と懸念

まとめ