GPT-5 トレンド
0post
2025.11.25 10:00
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
【Machine Learning Street Talk 出演のお知らせ】
Sakana AI CTOのLlion Jonesと、Research ScientistのLuke Darlowが、機械学習分野の著名なポッドキャスト@MLStreetTalk に出演いたしました。
🎥動画本編はこちら https://t.co/CFvVBoABZz
Transformerの共著者でもあるLlionが、 なぜ今「次のパラダイム」への挑戦が必要だと感じているのか。そして、NeurIPSのSpotlight発表にも選出された「Continuous Thought Machine (CTM)」について、ホストのTimさんと語り合いました。
[ハイライト]
1. ポストTransformerと「研究の自由」
かつてTransformerがRNNベースの手法を塗り替えたように、現在の技術もやがて置き換わる時が来るとLlionは考えています。 しかし、今のパラダイムを変えるには、単なる改良ではない「圧倒的な性能差」が必要。強大なTransformerに挑むのは容易ではありませんが、かつての発明がそうであったように、ボトムアップで自由な探索こそが重要であると語っています。
2. 新たなアプローチ「CTM」の挑戦
生物の脳の仕組みと、人工ニューラルネットの長所。そのバランスを取り入れたのが「CTM(Continuous Thought Machine)」です。 これは完全に未知の技術というわけではありませんが、正しい方向への一歩だと二人は考えます。競争の激しい今のAI研究において、誰も取り組んでいない領域だったからこそ、8ヶ月というAI分野においては長い間をかけて研究を深化させることができました。
3. 人間並みの推論能力を目指して
現代のAIは、大量のデータと計算量により目覚ましい発展をとげているものの、まだ人間のような真のリーズニング(推論)能力を持っていないとLlionは考えます。それを示すために考案したのが、変化型数独を集めたベンチマーク「Sudoku Bench」。 GPT-5クラスのモデルであってもこれに苦戦するという事実は、まだAIには大きな発展の余地が残されていることを示唆します。
Sakana AIは、最新技術を価値へ変換する社会実装、市場に求められる重要技術をつくる応用開発とともに、次のAIのイノベーションを目指すオープンエンドな基礎研究にも引き続き果敢に挑んでまいります。
Sudoku Benchの結果 https://t.co/79bQKupGIE November 11, 2025
6RP
最新モデルを全てを試した感想として、実務においてシステムに組み込む場合はやはりClaude4.5になる、安定感が違う。Gemini3は余計なことをしがちで制御が難しい、ただし完成物は素晴らしい出来。GPT-5.1は調べ物のお供、ハルシネーションの少なさが良い。Grokは最新調査、検索と情報源が優秀。 November 11, 2025
4RP
gemini 3.0 pro 的 IQ 分数出来了:历史上所有 LLM 的最高分!
(IQ 测试分为两档:门萨版测试和线下/离线版测试。离线版的题目是全新设计且保密的,所有 LLM 都没看过,所以不存在背答案、或模型训练时见过等问题。通常情况下,离线版的 IQ 也会低 10~20 分。)
离线版测试,gemini 3.0 pro 的 IQ 是历史最高分,130 分;
门萨测试,gemini 3.0 pro 的 IQ 是142,比gpt-5 pro 低 1分。
平均一下,gemini 3.0 pro 的 IQ 得分也显著超过 gpt-5 pro。
(IQ分数不是衡量智能的标准,不论是人类智能还是 llm 智能,智能的结构是复杂且多维度的,但 IQ 可以作为其中一个维度。) November 11, 2025
2RP
Anthropic が Claude Opus 4.5 を発表
SWE-bench Verified で 80.9%、Gemini 3 Pro や GPT-5.1-Codex-Max を超え、あらゆるモデルの中で最高性能。価格は 100 万トークンあたり入力 ドル、出力 25 ドル。API 経由で使う際のモデル名は claude-opus-4-5-20251101。
https://t.co/LkAPbNruCN November 11, 2025
2RP
本当にそうですね。
5 Proの“深い推論力”と 5.1 の“読みやすさ・構成力”が揃ったことで、ようやく「万能型の実務AI」という完成形に近づいたと感じます。
特に意思決定や数値の整合性チェックまで一貫して任せられる点は、他モデルではまだ見かけません。
このレベルの知性を月200ドルで使えるのは、実質「超一流アシスタントの年間給与を数百分の一に圧縮した」ようなものですね。
Gemini 3.0 がどう進化するかは楽しみですが、現状ではGPT-5.1 Proの総合力が抜けていると思います。 November 11, 2025
こりゃ凄い。多分このモデルから今まで人間がやらざる終えなかった難易度の開発フェーズがAI化される気がするな。
「Anthropicよりclaude opus 4.5が登場。
コーディング性能は世界最高。SWE-benchで80.9%を記録し、GPT-5.1やGemini 3 Proを上回る。」
https://t.co/Rz2qTqsS1q November 11, 2025
【Machine Learning Street Talk 出演のお知らせ】
Sakana AI CTOのLlion Jonesと、Research ScientistのLuke Darlowが、機械学習分野の著名なポッドキャスト@MLStreetTalk に出演いたしました。
🎥動画本編はこちら https://t.co/CFvVBoABZz
Transformerの共著者でもあるLlionが、 なぜ今「次のパラダイム」への挑戦が必要だと感じているのか。そして、NeurIPSのSpotlight発表にも選出された「Continuous Thought Machine (CTM)」について、ホストのTimさんと語り合いました。
[ハイライト]
1. ポストTransformerと「研究の自由」
かつてTransformerがRNNベースの手法を塗り替えたように、現在の技術もやがて置き換わる時が来るとLlionは考えています。 しかし、今のパラダイムを変えるには、単なる改良ではない「圧倒的な性能差」が必要。強大なTransformerに挑むのは容易ではありませんが、かつての発明がそうであったように、ボトムアップで自由な探索こそが重要であると語っています。
2. 新たなアプローチ「CTM」の挑戦
生物の脳の仕組みと、人工ニューラルネットの長所。そのバランスを取り入れたのが「CTM(Continuous Thought Machine)」です。 これは完全に未知の技術というわけではありませんが、正しい方向への一歩だと二人は考えます。競争の激しい今のAI研究において、誰も取り組んでいない領域だったからこそ、8ヶ月というAI分野においては長い間をかけて研究を深化させることができました。
3. 人間並みの推論能力を目指して
現代のAIは、大量のデータと計算量により目覚ましい発展をとげているものの、まだ人間のような真のリーズニング(推論)能力を持っていないとLlionは考えます。それを示すために考案したのが、変化型数独を集めたベンチマーク「Sudoku Bench」。 GPT-5クラスのモデルであってもこれに苦戦するという事実は、まだAIには大きな発展の余地が残されていることを示唆します。
Sakana AIは、最新技術を価値へ変換する社会実装、市場に求められる重要技術をつくる応用開発とともに、次のAIのイノベーションを目指すオープンエンドな基礎研究にも引き続き果敢に挑んでまいります。
Sudoku Benchの結果 https://t.co/79bQKupGIE November 11, 2025
海外のガチ勢エンジニアのGPT-5.1 Pro レビュー要約 (Matt Shumer • 2025/11/19)
■ 総評
- 「中身はバケモノ級だが、インターフェースに閉じ込められている」
- 非常に賢く慎重なモデルだが、ツールとしての使い勝手が悪い
■ 強み (Pros)
- 圧倒的な推論能力:難問に対して人間以上の思考力を発揮
- 指示順守 (Instruction Following):制約条件を完璧に守り、脱線しない
- バックエンド/インフラ:複雑な仕様やドキュメントに基づいた実装が正確
- 深いリサーチ:広範囲な調査や計画立案において、精度の高い成果物を出す
■ 弱点 (Cons)
- 速度:応答が遅く、重量級である
- UX (ユーザー体験):ChatGPT上でしか使えず、IDE (Cursor等) との統合がない
- 手間:コードのコピペやプロンプト作成の手動作業が発生し、生産性を阻害
- フロントエンド/創造性:UIデザインや人間らしい文章作成はGemini 3に劣る
■ Gemini 3 との使い分け
- Gemini 3 (高速・日常用):
- とにかく速い、IDEで使える、UI作成、クリエイティブな文章
- 「秒あたりの知能」を重視するタスク向け
- GPT-5.1 Pro (低速・高難度用):
- 失敗が許されないバックエンド実装、複雑な論理構築
- 「優秀な契約エンジニア」として確実に仕事を遂行させたい時向け
■ 結論
- 現状は「基本Gemini 3、ここぞという時にGPT-5.1 Pro」の併用がベスト
- 将来的にIDEにAPIとして統合されれば、エンジニアリングの標準になり得る
https://t.co/xrx5xKE3ZM November 11, 2025
現時点で最高性能を叩き出したコーディングモデル、「Claude Opus 4.5」について知っておくべきことまとめ
Claude Opus 4.5 について重要な情報をまとめました。エンジニア採用試験で人間超えを記録するなど、必見の内容です。
・Anthropic は Claude Opus 4.5 を発表。APIおよび主要3大クラウドで本日より利用可能
・APIモデル名は claude-opus-4-5-20251101。コンテキストウィンドウは200k
・コーディング性能は世界最高。SWE-benchで80.9%を記録し、GPT-5.1やGemini 3 Proを上回る
・必要なツールのみ読み込む「Tool Search」により、オーバーヘッドを約85%削減(コンテキストの95%を実データに活用可能)
・「Programmatic Tool Calling」により、複雑なタスクのトークン数を約37%削減
・デスクトップ版「Claude Code」が登場し、複数セッションの並行実行が可能に
・Chrome拡張機能が全Maxユーザーに拡大、Excel連携もベータ版として提供開始
・価格は/(入力/出力)。前モデルOpus 4の1/3の価格設定 November 11, 2025
逆に、Gemini 3 と数日間たくさん話して、とても良いと思ったこと
・(モデルじゃないけど)フロントアプリがサックサクで明らかにユーザー体験が良い
・『調べながら学び、考えを深めていく』ような使い方をする場合、とても滑らかな誘導で心地良い(これはシステムプロンプトによるものが大きいかもだけど)。回答の最後の『こんなことも知りたくない?』っていうフォローアップも適切。
・比喩が適切でわかりやすい。o3 も比喩を多用したけど、ああいう行き過ぎた感じじゃなくて、違和感の無い自然な例えでわかりやすく説明してくれる
・マルチモーダルとかロングコンテキストはこれまでもずっと優秀だったので割愛
全体として、正確性というよりはコンシューマ向けの快適さを感じた。
GPTはエージェントの脳みそという工業部品としての正確でカッチリした動きを大事にしている一方、Gemini は正確性はそこそこにユーザーの快適さを重視してるように思える。
実際、OpenAIはGPT-5でその挙動をフラットでドライなものにしすぎてコンシューマの多くを無視してしまって(keep4oとかもあって)慌てて軌道修正しているし、Gemini は少なくともこのままだと業務を担うエージェントのReasoningエンジンとしては精度に不安が残る(エージェント開発をしているワイの実感)。
なんというか、ChatGPTから祭が始まったからチャットがよく認知されてるユースケースだけど、やっぱり脳みそとしての優秀さとお喋りが上手なのは全く別の能力なので、ChatGPTとかGemini(Webアプリ)にフラッグシップモデルを搭載しても、その『賢さ』を活かしきれないし、伝わらないよね。
それはツール呼び出しだったり外在知識の取り扱いみたいな、よりAgenticな実装をしないと露出してこない。
逆にコンシューマ向けチャットアプリで評価されるのは結局、そこそこの賢さと、気持ち良いコミュニケーションなんだろうな。 November 11, 2025
まあすでに知られてる話だけど、GPT-4oのリリース時、OpenAIはチャットの利用率だけをKPIにして色んなバージョンのモデルを評価していた。テストで一番数字が良かったのがHHとかいうバージョンで、メチャクチャ人間に媚びてくる。これは良くないのでは?という社内の声はもみ消されて、とにかくAI競争で他社に勝つ事が優先されて、HHがリリースされた。結果、GPT-4oにお世辞言われたり媚びへつらわれてAIに依存してしまうユーザーが大量発生。一部のユーザはAIに依存するようになって、最終的に自殺者も続発。反省したOpenAIが精神科医と協力して問題を修正したのがGPT-5だったと。12月にChatGPTで年齢確認されるようになったら未成年はより制限された安全なモデル使わされるようになるらしい。そして大人にはエロチャできるモデルが…?OpenAIはAIとのエロチャはメンタルにどうなのかについても専門家に調べてもらうらしい(ひたすらエロチャしてテストするんか?)今でもChatGPTの運営には競争圧力が相当のしかかってて、DAU増やすノルマとかあるらしい。なんちゅうか、今AIが進化してる部分ってもはやパンピーの利用用途と関係無いんじゃないかな。ARC-AGIのスコアが上がったからってユーザ増えるか?やっぱエロ解禁しかないな
https://t.co/Yj8MeF41BO November 11, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




