メインコンテンツまでスキップ

Wes Roth: MIT の SEAL : 自己適応型AIと言語モデル

· 約11分

AI の話題。Wes Roth の Youtube 動画、

https://www.youtube.com/watch?v=7e7iCrUREmE

を AI に整理させた。

概要

自己適応型AIと言語モデル

提供されたYouTubeの動画は、MITが発表した「Self-Adapting Language Models (SEAL)」という新しいAIフレームワークについて解説しています。このフレームワークでは、大規模言語モデル(LLM)が自身で訓練データを生成し、新しい入力に基づいて重みを更新することで、能力を向上させます。

これは、AIが自身の「脳」を改良し、特定のタスクをより良く実行できるようにする初期段階の試みです。動画では、このプロセスを人間が試験勉強のためにノートを作成し、そこから学ぶという例えで説明しており、モデルが知識を同化し、再構成することで、長期的な適応と学習が可能になると強調しています。最終的には、SEALが現在のAIエージェントが抱える長期的な一貫性の欠如という問題を解決し、自律的なAIエージェントの未来に大きく貢献する可能性を示唆しています。


要旨

MITの新しい自己適応型AIモデル「SEAL」に関する詳細ブリーフィング

概要

MITが発表した「自己適応型言語モデル(Self-Adapting Language Models, SEAL)」は、既存のLLM(大規模言語モデル)が静的であるという課題を克服し、モデル自身が訓練データを生成し、自己編集によって重みを更新することで能力を向上させるフレームワークである。これは、AIが自身の「脳」を改良し、リアルタイムで賢くなる初期段階を示しており、将来の自律型AIエージェントの実現に向けた重要な一歩となる可能性がある。 主要テーマと重要なアイデア

  1. 自己編集と重み更新による能力向上
  • 従来のLLMは、一度訓練されると重みが固定され、新しいタスク、知識、または例に対応して適応することができなかった。
  • SEALは、LLMが「自身のファインチューニングデータを生成し、更新指令を発行する」ことで、自己適応を可能にする。
  • 「モデルは、新しい入力が与えられると自己編集(情報を異なる方法で再構築したり、最適化ハイパーパラメータを指定したり、データ拡張や勾配ベースの更新のためにツールを呼び出したりする生成物)を生成する。」
  • これらの自己編集は、教師ありファインチューニングを通じて永続的な重み更新をもたらし、永続的な適応を可能にする。これは、モデルが自身の「脳」を特定のタスクに対してより良くするために変更し、それが永続的な変更となることを意味する。
  1. 教師と生徒モデルのアナロジーと自己生成訓練データ
  • 研究者たちは、このプロセスを「教師と生徒のモデル」として説明している。現状では同じモデルがデータの生成と学習の両方を行うが、将来的には別々のモデルがより強力な効果をもたらす可能性がある。
  • 人間が試験勉強のために講義や教科書の内容を「ノートにまとめる」行為に例えられている。学生が膨大な情報から自分にとって理解しやすいように情報を圧縮・再解釈してノートを作成し、それを学習するのと同じように、SEALは既存の知識と推論を用いて新しいデータから「大量の説明と含意を自身のために生成する」。
  • この自己生成された合成データは、GPT-4によって生成された合成データよりも優れた結果を示し、質問応答性能を向上させている(33.5%から47%へ)。
  • 「彼らは、SEALモデルによって生成された合成データでファインチューニングする。」
  • これは、情報量を減らすだけでなく、LLMの場合は「何倍ものノートを作成し、あらゆる詳細を本当に洗練する」ことが可能である。
  1. 強化学習ループによる自己編集の最適化
  • 効果的な自己編集を生成するモデルを訓練するために、SEALは「更新されたモデルの下流パフォーマンスを報酬信号として使用する強化学習ループ」を利用する。
  • これは、自身のコピーを作成し、その脳を改良してテストを受けさせ、成績が向上すれば報酬を得るという数学の学習の例えで説明されている。モデルは、自己編集の有効性を繰り返し評価し、最適な自己編集戦略を学習する。
  • このプロセスは「メタ学習」の一種であり、「効果的な自己編集を生成する方法をメタ学習する」と述べられている。
  1. ARC AGIベンチマークでの評価とツールの活用
  • SEALは、人間にとっては簡単だがLLMにとっては非常に難しいとされるARC AGI(抽象推論コーパス)ベンチマークで評価された。
  • モデルは、合成データ拡張と最適化ハイパーパラメータの両方を自律的に選択するために「一連のツールを活用する」。
  • 合成データの生成とツールの効果的な使用のための強化学習訓練の組み合わせが、性能向上に不可欠であることが示されている。
  1. データ量の限界と合成データの重要性
  • 「あらゆる公開されている人間が生成したテキストは、その終わりに近づいている」という「データウォール」の問題に直面しており、将来のLLMの訓練には「モデルによって生成された合成データ」が不可欠になる。
  • これは、Google DeepMindのAlphaGeometryやAlphaProofのようなシステムでも実証されており、これらは「桁違いに多くの合成データ」で訓練され、数学オリンピックでほぼ金メダルを獲得するほどの性能を示している。
  1. AIエージェントの長期コヒーレンス問題への解決策
  • SEALの「継続的な洗練ループ」は、長期にわたるインタラクションで動作し、変化する目標に動的に適応できる「エージェントシステム(AIエージェント)」の構築に有望であるとされている。
  • 現在のAIエージェントは、長期的なタスクにおいて「計画を見失いがちで、非常に重要な詳細を忘れがち」という課題がある。これは、彼らがタスク遂行中に獲得した知識を保持しないためである。
  • SEALのアプローチは、「インタラクション後に構造化された自己変更を可能にする」ことで、エージェントが「時間をかけて発展し、以前の経験と行動を整合させ、繰り返しの監督への依存を減らす」ことを可能にする。
  • これは、自律型AIエージェントの未来に対する「大きな修正点」となる可能性があり、人間による監督に頼らずに長期的なタスクを実行できるシステムの実現に貢献するかもしれない。

結論

MITのSEALフレームワークは、LLMが自身の能力を自律的に向上させるための画期的なアプローチである。モデルが自身で訓練データを生成し、重みを更新するという「自己編集」の概念は、従来の静的なLLMの限界を打破する。これは、データウォールの問題に対する解決策となり、特にAIエージェントが長期的なタスクにおいて知識を獲得し保持する能力を劇的に向上させる可能性を秘めている。SEALは、AIが人間のような学習プロセス、すなわち情報を再解釈し、自身の理解を深めるプロセスを模倣する初期段階を示しており、真に自律的なAIシステムの実現に向けた重要な一歩と言える。

(2025-06-18)