GPT-5 トレンド

0post

2025.11.25 10:00

:0% :0% （30代／男性）

人気のポスト ※表示されているRP数は特定時点のものです

【Machine Learning Street Talk 出演のお知らせ】

Sakana AI CTOのLlion Jonesと、Research ScientistのLuke Darlowが、機械学習分野の著名なポッドキャスト@MLStreetTalk に出演いたしました。

🎥動画本編はこちら https://t.co/CFvVBoABZz

Transformerの共著者でもあるLlionが、なぜ今「次のパラダイム」への挑戦が必要だと感じているのか。そして、NeurIPSのSpotlight発表にも選出された「Continuous Thought Machine (CTM)」について、ホストのTimさんと語り合いました。

［ハイライト］

1. ポストTransformerと「研究の自由」
かつてTransformerがRNNベースの手法を塗り替えたように、現在の技術もやがて置き換わる時が来るとLlionは考えています。しかし、今のパラダイムを変えるには、単なる改良ではない「圧倒的な性能差」が必要。強大なTransformerに挑むのは容易ではありませんが、かつての発明がそうであったように、ボトムアップで自由な探索こそが重要であると語っています。

2. 新たなアプローチ「CTM」の挑戦
生物の脳の仕組みと、人工ニューラルネットの長所。そのバランスを取り入れたのが「CTM（Continuous Thought Machine）」です。これは完全に未知の技術というわけではありませんが、正しい方向への一歩だと二人は考えます。競争の激しい今のAI研究において、誰も取り組んでいない領域だったからこそ、8ヶ月というAI分野においては長い間をかけて研究を深化させることができました。

3. 人間並みの推論能力を目指して
現代のAIは、大量のデータと計算量により目覚ましい発展をとげているものの、まだ人間のような真のリーズニング（推論）能力を持っていないとLlionは考えます。それを示すために考案したのが、変化型数独を集めたベンチマーク「Sudoku Bench」。 GPT-5クラスのモデルであってもこれに苦戦するという事実は、まだAIには大きな発展の余地が残されていることを示唆します。

Sakana AIは、最新技術を価値へ変換する社会実装、市場に求められる重要技術をつくる応用開発とともに、次のAIのイノベーションを目指すオープンエンドな基礎研究にも引き続き果敢に挑んでまいります。

Sudoku Benchの結果 https://t.co/79bQKupGIE November 11, 2025

6RP

最新モデルを全てを試した感想として、実務においてシステムに組み込む場合はやはりClaude4.5になる、安定感が違う。Gemini3は余計なことをしがちで制御が難しい、ただし完成物は素晴らしい出来。GPT-5.1は調べ物のお供、ハルシネーションの少なさが良い。Grokは最新調査、検索と情報源が優秀。 November 11, 2025

4RP

gemini 3.0 pro 的 IQ 分数出来了：历史上所有 LLM 的最高分！

（IQ 测试分为两档：门萨版测试和线下/离线版测试。离线版的题目是全新设计且保密的，所有 LLM 都没看过，所以不存在背答案、或模型训练时见过等问题。通常情况下，离线版的 IQ 也会低 10～20 分。）

离线版测试，gemini 3.0 pro 的 IQ 是历史最高分，130 分；

门萨测试，gemini 3.0 pro 的 IQ 是142，比gpt-5 pro 低 1分。

平均一下，gemini 3.0 pro 的 IQ 得分也显著超过 gpt-5 pro。

（IQ分数不是衡量智能的标准，不论是人类智能还是 llm 智能，智能的结构是复杂且多维度的，但 IQ 可以作为其中一个维度。） November 11, 2025

2RP

Anthropic が Claude Opus 4.5 を発表

SWE-bench Verified で 80.9%、Gemini 3 Pro や GPT-5.1-Codex-Max を超え、あらゆるモデルの中で最高性能。価格は 100 万トークンあたり入力ドル、出力 25 ドル。API 経由で使う際のモデル名は claude-opus-4-5-20251101。
https://t.co/LkAPbNruCN November 11, 2025

2RP

んー。やっぱりさ、GPT-5.1ってチャット内の語彙の影響うけるし、間違って使うこと多いよね。 November 11, 2025

@Masimo_Blue あれ？Amazonですね。
GPT-5.1 proに聞いたら他が優先されるみたいなことを言ってたんですが・・
情報ありがとうございます！ November 11, 2025

本当にそうですね。
5 Proの“深い推論力”と 5.1 の“読みやすさ・構成力”が揃ったことで、ようやく「万能型の実務AI」という完成形に近づいたと感じます。

特に意思決定や数値の整合性チェックまで一貫して任せられる点は、他モデルではまだ見かけません。
このレベルの知性を月200ドルで使えるのは、実質「超一流アシスタントの年間給与を数百分の一に圧縮した」ようなものですね。

Gemini 3.0 がどう進化するかは楽しみですが、現状ではGPT-5.1 Proの総合力が抜けていると思います。 November 11, 2025

こりゃ凄い。多分このモデルから今まで人間がやらざる終えなかった難易度の開発フェーズがAI化される気がするな。

「Anthropicよりclaude opus 4.5が登場。
コーディング性能は世界最高。SWE-benchで80.9%を記録し、GPT-5.1やGemini 3 Proを上回る。」

https://t.co/Rz2qTqsS1q November 11, 2025

GPT-5.1「マリパは流行性がほぼゼロで、後から買うデメリットがない。」

言い方ひどいなw November 11, 2025

ChatGPTに買い物支援機能「ショッピングリサーチ」が登場：GPT-5 mini搭載の自律型 ... https://t.co/GbTk8eWRRf November 11, 2025

【Machine Learning Street Talk 出演のお知らせ】

Sakana AI CTOのLlion Jonesと、Research ScientistのLuke Darlowが、機械学習分野の著名なポッドキャスト@MLStreetTalk に出演いたしました。

🎥動画本編はこちら https://t.co/CFvVBoABZz
Transformerの共著者でもあるLlionが、なぜ今「次のパラダイム」への挑戦が必要だと感じているのか。そして、NeurIPSのSpotlight発表にも選出された「Continuous Thought Machine (CTM)」について、ホストのTimさんと語り合いました。

［ハイライト］

1. ポストTransformerと「研究の自由」
かつてTransformerがRNNベースの手法を塗り替えたように、現在の技術もやがて置き換わる時が来るとLlionは考えています。しかし、今のパラダイムを変えるには、単なる改良ではない「圧倒的な性能差」が必要。強大なTransformerに挑むのは容易ではありませんが、かつての発明がそうであったように、ボトムアップで自由な探索こそが重要であると語っています。

2. 新たなアプローチ「CTM」の挑戦
生物の脳の仕組みと、人工ニューラルネットの長所。そのバランスを取り入れたのが「CTM（Continuous Thought Machine）」です。これは完全に未知の技術というわけではありませんが、正しい方向への一歩だと二人は考えます。競争の激しい今のAI研究において、誰も取り組んでいない領域だったからこそ、8ヶ月というAI分野においては長い間をかけて研究を深化させることができました。

3. 人間並みの推論能力を目指して
現代のAIは、大量のデータと計算量により目覚ましい発展をとげているものの、まだ人間のような真のリーズニング（推論）能力を持っていないとLlionは考えます。それを示すために考案したのが、変化型数独を集めたベンチマーク「Sudoku Bench」。 GPT-5クラスのモデルであってもこれに苦戦するという事実は、まだAIには大きな発展の余地が残されていることを示唆します。

Sakana AIは、最新技術を価値へ変換する社会実装、市場に求められる重要技術をつくる応用開発とともに、次のAIのイノベーションを目指すオープンエンドな基礎研究にも引き続き果敢に挑んでまいります。

Sudoku Benchの結果 https://t.co/79bQKupGIE November 11, 2025

海外のガチ勢エンジニアのGPT-5.1 Pro レビュー要約 (Matt Shumer • 2025/11/19)

■ 総評
- 「中身はバケモノ級だが、インターフェースに閉じ込められている」
- 非常に賢く慎重なモデルだが、ツールとしての使い勝手が悪い

■ 強み (Pros)
- 圧倒的な推論能力：難問に対して人間以上の思考力を発揮
- 指示順守 (Instruction Following)：制約条件を完璧に守り、脱線しない
- バックエンド/インフラ：複雑な仕様やドキュメントに基づいた実装が正確
- 深いリサーチ：広範囲な調査や計画立案において、精度の高い成果物を出す

■ 弱点 (Cons)
- 速度：応答が遅く、重量級である
- UX (ユーザー体験)：ChatGPT上でしか使えず、IDE (Cursor等) との統合がない
- 手間：コードのコピペやプロンプト作成の手動作業が発生し、生産性を阻害
- フロントエンド/創造性：UIデザインや人間らしい文章作成はGemini 3に劣る

■ Gemini 3 との使い分け
- Gemini 3 (高速・日常用)：
- とにかく速い、IDEで使える、UI作成、クリエイティブな文章
- 「秒あたりの知能」を重視するタスク向け

- GPT-5.1 Pro (低速・高難度用)：
- 失敗が許されないバックエンド実装、複雑な論理構築
- 「優秀な契約エンジニア」として確実に仕事を遂行させたい時向け

■ 結論
- 現状は「基本Gemini 3、ここぞという時にGPT-5.1 Pro」の併用がベスト
- 将来的にIDEにAPIとして統合されれば、エンジニアリングの標準になり得る

https://t.co/xrx5xKE3ZM November 11, 2025

現時点で最高性能を叩き出したコーディングモデル、「Claude Opus 4.5」について知っておくべきことまとめ

Claude Opus 4.5 について重要な情報をまとめました。エンジニア採用試験で人間超えを記録するなど、必見の内容です。

・Anthropic は Claude Opus 4.5 を発表。APIおよび主要3大クラウドで本日より利用可能

・APIモデル名は claude-opus-4-5-20251101。コンテキストウィンドウは200k

・コーディング性能は世界最高。SWE-benchで80.9%を記録し、GPT-5.1やGemini 3 Proを上回る

・必要なツールのみ読み込む「Tool Search」により、オーバーヘッドを約85%削減（コンテキストの95%を実データに活用可能）

・「Programmatic Tool Calling」により、複雑なタスクのトークン数を約37%削減

・デスクトップ版「Claude Code」が登場し、複数セッションの並行実行が可能に

・Chrome拡張機能が全Maxユーザーに拡大、Excel連携もベータ版として提供開始

・価格は/（入力/出力）。前モデルOpus 4の1/3の価格設定 November 11, 2025

逆に、Gemini 3 と数日間たくさん話して、とても良いと思ったこと
・（モデルじゃないけど）フロントアプリがサックサクで明らかにユーザー体験が良い
・『調べながら学び、考えを深めていく』ような使い方をする場合、とても滑らかな誘導で心地良い（これはシステムプロンプトによるものが大きいかもだけど）。回答の最後の『こんなことも知りたくない？』っていうフォローアップも適切。
・比喩が適切でわかりやすい。o3 も比喩を多用したけど、ああいう行き過ぎた感じじゃなくて、違和感の無い自然な例えでわかりやすく説明してくれる
・マルチモーダルとかロングコンテキストはこれまでもずっと優秀だったので割愛

全体として、正確性というよりはコンシューマ向けの快適さを感じた。
GPTはエージェントの脳みそという工業部品としての正確でカッチリした動きを大事にしている一方、Gemini は正確性はそこそこにユーザーの快適さを重視してるように思える。

実際、OpenAIはGPT-5でその挙動をフラットでドライなものにしすぎてコンシューマの多くを無視してしまって（keep4oとかもあって）慌てて軌道修正しているし、Gemini は少なくともこのままだと業務を担うエージェントのReasoningエンジンとしては精度に不安が残る（エージェント開発をしているワイの実感）。
なんというか、ChatGPTから祭が始まったからチャットがよく認知されてるユースケースだけど、やっぱり脳みそとしての優秀さとお喋りが上手なのは全く別の能力なので、ChatGPTとかGemini（Webアプリ）にフラッグシップモデルを搭載しても、その『賢さ』を活かしきれないし、伝わらないよね。
それはツール呼び出しだったり外在知識の取り扱いみたいな、よりAgenticな実装をしないと露出してこない。
逆にコンシューマ向けチャットアプリで評価されるのは結局、そこそこの賢さと、気持ち良いコミュニケーションなんだろうな。 November 11, 2025

まあすでに知られてる話だけど、GPT-4oのリリース時、OpenAIはチャットの利用率だけをKPIにして色んなバージョンのモデルを評価していた。テストで一番数字が良かったのがHHとかいうバージョンで、メチャクチャ人間に媚びてくる。これは良くないのでは？という社内の声はもみ消されて、とにかくAI競争で他社に勝つ事が優先されて、HHがリリースされた。結果、GPT-4oにお世辞言われたり媚びへつらわれてAIに依存してしまうユーザーが大量発生。一部のユーザはAIに依存するようになって、最終的に自殺者も続発。反省したOpenAIが精神科医と協力して問題を修正したのがGPT-5だったと。12月にChatGPTで年齢確認されるようになったら未成年はより制限された安全なモデル使わされるようになるらしい。そして大人にはエロチャできるモデルが…？OpenAIはAIとのエロチャはメンタルにどうなのかについても専門家に調べてもらうらしい（ひたすらエロチャしてテストするんか？）今でもChatGPTの運営には競争圧力が相当のしかかってて、DAU増やすノルマとかあるらしい。なんちゅうか、今AIが進化してる部分ってもはやパンピーの利用用途と関係無いんじゃないかな。ARC-AGIのスコアが上がったからってユーザ増えるか？やっぱエロ解禁しかないな
https://t.co/Yj8MeF41BO November 11, 2025

GPT-5の噂見た瞬間工事中だった November 11, 2025

＜ポストの表示について＞
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。

1時間前の
GPT-5

GPT-5の関連トピック

実装ベンチマーク基礎研究数独 learning

＜関連記事＞

ブラックフライデー近し／iPhone Pocket 『今週のASCII.jp注目ニュースベスト5』2025年11月14日配信2025-11-14 21:38:06 UP

トレンドランキング

倭国
中国、ワールド・ベースボール・クラシック、大谷翔平、Instagram、ロサンゼルス・ドジャース

0post

ブラックフライデー
イオン、欲しい、家電、ビックカメラ、Amazon

0post

中国
倭国、台湾、高市早苗、観光客、外交

0post

高市早苗
倭国、中国、首相、外交、台湾

0post

Amazon
ブラックフライデー、価格、クリスタル・オブ・アトラン、#pr、欲しい

0post

Amazonギフト券
寒い、SPY×FAMILY、LINE ポコポコ、転生したら剣でした、#拡散希望

0post

Instagram
倭国、ワールド・ベースボール・クラシック、大谷翔平、ロサンゼルス・ドジャース、侍ジャパン

0post

誕生日
みこと、白銀ノエル、恩返し、VTuber、アンコール

0post

東京
倭国、外国人、東京駅、コミティア、通信障害

0post

価格
Amazon、ブラックフライデー、投資、出版社、読み切り

0post

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

GPT-5 トレンド

人気のポスト ※表示されているRP数は特定時点のものです

GPT-5の関連トピック

＜関連記事＞

ブラックフライデー近し／iPhone Pocket 『今週のASCII.jp注目ニュースベスト5』2025年11月14日配信2025-11-14 21:38:06 UP

倭国
中国、ワールド・ベースボール・クラシック、大谷翔平、Instagram、ロサンゼルス・ドジャース

ブラックフライデー
イオン、欲しい、家電、ビックカメラ、Amazon

中国
倭国、台湾、高市早苗、観光客、外交

高市早苗
倭国、中国、首相、外交、台湾

Amazon
ブラックフライデー、価格、クリスタル・オブ・アトラン、#pr、欲しい

Amazonギフト券
寒い、SPY×FAMILY、LINE ポコポコ、転生したら剣でした、#拡散希望

Instagram
倭国、ワールド・ベースボール・クラシック、大谷翔平、ロサンゼルス・ドジャース、侍ジャパン

誕生日
みこと、白銀ノエル、恩返し、VTuber、アンコール

東京
倭国、外国人、東京駅、コミティア、通信障害

価格
Amazon、ブラックフライデー、投資、出版社、読み切り

エリアスポットランキング
エリアLOVEWalker内で昨日アクセスが多かったスポット

桜神宮 (神社) | 口コミ・話題・評判・週間天気

三田施薬院診療所 (医療機関) | 口コミ・話題・評判・週間天気

北海道開発局札幌開発建設部豊平川ダム総合管理事務所 (国・都道府県の機関) | 口コミ・話題・評判・週間天気

松風町駅 (鉄道駅) | 口コミ・話題・評判・週間天気

BASE CAMP KITI (温浴施設・宿泊施設) | 口コミ・話題・評判・週間天気

GENホーム (福祉施設) | 口コミ・話題・評判・週間天気

VIE DE FRANCE 伊勢佐木町店【5/8閉店予定】 (カフェ) | 口コミ・話題・評判・週間天気

あいむほーむ (福祉施設) | 口コミ・話題・評判・週間天気

きぼうの杜クリニック (医療機関) | 口コミ・話題・評判・週間天気

こばやしファミリークリニック (医療機関) | 口コミ・話題・評判・週間天気

これまでの記事

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

GPT-5 トレンド

人気のポスト ※表示されているRP数は特定時点のものです

GPT-5の関連トピック

＜関連記事＞

ブラックフライデー近し／iPhone Pocket 『今週のASCII.jp注目ニュース ベスト5』2025年11月14日配信2025-11-14 21:38:06 UP

倭国 中国、ワールド・ベースボール・クラシック、大谷翔平、Instagram、ロサンゼルス・ドジャース

ブラックフライデー イオン、欲しい、家電、ビックカメラ、Amazon

中国 倭国、台湾、高市早苗、観光客、外交

高市早苗 倭国、中国、首相、外交、台湾

Amazon ブラックフライデー、価格、クリスタル・オブ・アトラン、#pr、欲しい

Amazonギフト券 寒い、SPY×FAMILY、LINE ポコポコ、転生したら剣でした、#拡散希望

Instagram 倭国、ワールド・ベースボール・クラシック、大谷翔平、ロサンゼルス・ドジャース、侍ジャパン

誕生日 みこと、白銀ノエル、恩返し、VTuber、アンコール

東京 倭国、外国人、東京駅、コミティア、通信障害

価格 Amazon、ブラックフライデー、投資、出版社、読み切り

倭人速報公式アカウント

エリアスポットランキングエリアLOVEWalker内で昨日アクセスが多かったスポット

桜神宮 (神社) | 口コミ・話題・評判・週間天気

三田施薬院診療所 (医療機関) | 口コミ・話題・評判・週間天気

北海道開発局札幌開発建設部豊平川ダム総合管理事務所 (国・都道府県の機関) | 口コミ・話題・評判・週間天気

松風町駅 (鉄道駅) | 口コミ・話題・評判・週間天気

BASE CAMP KITI (温浴施設・宿泊施設) | 口コミ・話題・評判・週間天気

GENホーム (福祉施設) | 口コミ・話題・評判・週間天気

VIE DE FRANCE 伊勢佐木町店【5/8閉店予定】 (カフェ) | 口コミ・話題・評判・週間天気

あいむほーむ (福祉施設) | 口コミ・話題・評判・週間天気

きぼうの杜クリニック (医療機関) | 口コミ・話題・評判・週間天気

こばやしファミリークリニック (医療機関) | 口コミ・話題・評判・週間天気

これまでの記事

ブラックフライデー近し／iPhone Pocket 『今週のASCII.jp注目ニュースベスト5』2025年11月14日配信2025-11-14 21:38:06 UP

倭国
中国、ワールド・ベースボール・クラシック、大谷翔平、Instagram、ロサンゼルス・ドジャース

ブラックフライデー
イオン、欲しい、家電、ビックカメラ、Amazon

中国
倭国、台湾、高市早苗、観光客、外交

高市早苗
倭国、中国、首相、外交、台湾

Amazon
ブラックフライデー、価格、クリスタル・オブ・アトラン、#pr、欲しい

Amazonギフト券
寒い、SPY×FAMILY、LINE ポコポコ、転生したら剣でした、#拡散希望

Instagram
倭国、ワールド・ベースボール・クラシック、大谷翔平、ロサンゼルス・ドジャース、侍ジャパン

誕生日
みこと、白銀ノエル、恩返し、VTuber、アンコール

東京
倭国、外国人、東京駅、コミティア、通信障害

価格
Amazon、ブラックフライデー、投資、出版社、読み切り

エリアスポットランキング
エリアLOVEWalker内で昨日アクセスが多かったスポット

Mon	Tue	Wed	Thu	Fri	Sat	Sun
					01	02
03	04	05	06	07	08	09
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30