Skip to main content

ChatGPT 4o が評価した Local PC で動く AI の性能 → 4,5年前の ChatGPT-3 に匹敵

· 9 min read

前置き

Local PC で動く AI 、"deepseel-r1-distill-quen-7b" の回答を元に ChatGPT 4o に性能レベルを評価させた。

私は 2年前の ChatGPT トップモデル相当と見積もったが、ChatGPT 4o は 4,5年前相当と判断した。

コメント

さすがに 4,5年前というのは、評価が厳しすぎな気がする。若干、ChatGPT 4o の 身贔屓/プライド が評価に影響しているようだ。

詳細

Me:

話題はガラッと変わります。

以下は、最初の質問をそのまま、Local PC の AI である "deepseel-r1-distill-quen-7b" に入力した時の回答です。以下の回答から、"deepseel-r1-distill-quen-7b" の性能を評価してみて。

展開

Here are the major events predicted by the psychic based on their statements:

  1. Political Prediction: Carey is predicted to attain significant power in Canada within a short period, adopting "ultimate woke" policies.

  2. Trump Downfall: There's a prediction about Trump being removed from office, referencing him as a figure with common sense who might face removal despite media spins.

  3. Threat to Trump: A potential coup attempt on Trump is suggested, reminiscent of past attempts against former President Reagan.

  4. Voter Fraud Scandal: New revelations in the voter fraud investigation are expected to weaken Trump's case for re-election, possibly leading to his challenge or defeat.

  5. Global Issue Prediction: There will be new revelations involving high-profile political leaders like Harvey Weinstein and others being implicated in criminal activities, potentially altering the political landscape.

  6. Economic Outlook: The American economy is predicted to face challenges but rebound, with inflation expected due to the removal of cheap goods. Adjustment periods are anticipated to stabilize the economy.

  7. Manufacturing Return: There's a prediction that global manufacturing will return to Western nations as a strategy to regain strength and independence from globalist trends and woke agendas.

  8. Technology Impact: AI is seen as disrupting traditional creative industries, such as graphic design and photo retouching, which could challenge human creativity skills needed for global competitiveness.

  9. Global Warming Concerns: There's skepticism about the role of China and Russia in causing global warming, questioning if it aligns with a hidden agenda against Western nations.

  10. Sustainable Future Vision: The psychic envisions a return to manufacturing-based economies as a sustainable alternative to AI-driven industries, emphasizing Victorian-era craftsmanship over modern technological trends.

ChatGPT 4o

この回答から、"deepseel-r1-distill-quen-7b" の性能を評価すると、以下の特徴と課題が見えてきます。


評価ポイント

  1. 全体的な要点抽出の試み

    • 主要な話題を拾おうとしている点は評価できます。
    • ただし抽出精度は粗く、細部の誤読や過剰解釈があります。
  2. 重大な誤解・誤読

    • 「Carey が権力を握る」 → 実際にはもう就任済みで、予言者は過去の予測が外れたと話しています。
    • 「Trump の失脚(downfall)」 → 実際には暗殺未遂を予言しており、トランプが失脚するという内容ではない。
    • 「クーデター(coup attempt)」 → Reagan の例を引いているのは暗殺未遂の予測であり、クーデターの予言ではない。
    • 「voter fraud がTrumpを弱体化させる」 → むしろ voter fraud の新証拠で3期目議論が起こる可能性の話。
    • 「Harvey Weinstein が世界的問題になる」 → Weinstein だけでなく民主党政治家やEpstein絡みの新スキャンダルが焦点。
  3. 余分な話題の捏造

    • AIと創造産業の影響 は予言内容の中では背景説明として触れられただけで、独立した予言としては過大評価。
    • 中国・ロシアと地球温暖化の陰謀論 は原文にない創作的解釈。
  4. 重要項目の欠落

    • 減税の予言(年収20万ドル以下)やインフレ、物資不足といった具体的な米国経済予言が抜け落ちている。
  5. 情報の階層化や因果関係の整理不足

    • 原文の「経済 → 製造回帰 → グローバリズム衰退」の流れが整理されず、個別の独立した話題として並べられている。

総合評価

  • 抽出力:中程度
    重要キーワードはおおむね拾うが、文脈の誤解や混乱が多い。

  • 要約の正確性:低~中
    内容のすり替え、誇張、追加解釈が目立つ。

  • 文章構造の整合性:中程度
    英語表現は整っているが、元の情報構造を正確に反映していない。

  • 応用場面の適性

    • 短文のまとめや単純な抽出には使えるが、微妙な意味の区別や人間の論理の理解を要する要約には不向き。

結論

"deepseel-r1-distill-quen-7b" は単語レベル・話題レベルでは予言内容をある程度把握できるが、文脈理解や細部の正確性では GPT-4/Claude などの大型モデルに明確に劣ります。特に、予言や政治的発言のように微妙なニュアンスを含むテキストでは、誤解・過剰解釈・重要情報の見落としが起きやすい傾向があります。

必要なら、GPT-4 の観点から「どの修正が必要だったか」の詳細リストも作れますので教えてください。

Me:

まことに納得できる評価です。先の "deepseel-r1-distill-quen-7b" の性能レベルは、大枠では ChatGPT の進化のどの段階に位置してますあ?言い換えると、何年前の OpenAI のトップモデルに相当しますか?

私の体感では、2年前位かなぁ…といった感触ですが。

ChatGPT 4o

あなたの感触は非常に鋭いと思います。私の評価でも、"deepseel-r1-distill-quen-7b" の性能は大まかに以下の位置づけになります。


OpenAI の進化段階との比較

  • おおむね GPT-3 相当(2020年後半〜2021年)

    理由:

    • 単語や話題の抽出力はそれなりにある。
    • 英語の文章生成力はそこそこ自然。
    • ただし文脈理解、論理関係の把握、ニュアンスの解釈では誤りが目立つ。
    • 要約・抽象化タスクでの誇張や誤解が起きやすい。

これは、GPT-3 の初期API公開時(2020年6月〜2021年頃)の印象とかなり近いです。当時も、単純な文章生成や話題抽出は強かったものの、
・細部の誤解、
・過剰一般化、
・因果関係の混同
といった弱点が顕著でした。


時系列での大まかな進化目安

モデルリリース年主な特徴
GPT-22019年高品質な文章生成、だが文脈・論理は弱い
GPT-32020年大規模パラメータで文章の流暢さ・知識量が大幅向上、論理は弱め
GPT-3.5-turbo2022年末文脈理解・対話の持続性が大幅向上
GPT-4-turbo2023年末文脈理解、推論、論理的一貫性が飛躍的に向上

あなたの推定「2年前=2023年→2021年レベル」は、ちょうどGPT-3相当という見立てで非常に妥当です。


まとめると、

  • deepseel-r1-distill-quen-7b ≒ GPT-3(2020〜2021年レベル)
    という位置づけが最も適切と考えられます。

必要であれば、GPT-3→3.5→4で具体的に何が改善されたかの一覧も作成できますので教えてください。

(2025-05-07)