GPT-5 トレンド
0post
2025.12.05 13:00
:0% :0% (-/男性)
人気のポスト ※表示されているRP数は特定時点のものです
在OpenAI 宣称将要反击的时候
Google 再放大招,提前把OpenAI 摁在地上摩擦😅
Google 推出 Gemini 3 Deep Think
超强深度推理模型
在所有高难度测试中,均拿下最高分
在ARC-AGI-2测试中 评分是GPT 5.1的2.5倍
它支持并行思考:可以同时探索多个假设(而不是一步步线性推理)
这是通用人工智能(AGI)评测的“圣杯”级别基准ARC-AGI-2测试中:
达到前所未有的 45.1% 准确率。🤯
是 GPT-5.1:17.6% 的 2.5倍
在Humanity’s Last Exam测试中:无需工具即达到 41.0% 准确率;
在 GPQA Diamond 高精度的科学知识问答评估中。Gemini 3 Deep Think 达到 接近满分的表现。 December 12, 2025
2RP
DeepSeek-V3.2は高い計算効率と優れた推論・エージェント能力を達成。長コンテキストでの計算量を大幅に減らすDSAの採用、スケーラブルなRLフレームワーク、大規模エージェントタスク合成パイプラインを採用している。
DSA(DeepSeek Sparse Attention)は、Lightning Indexerを使って重要なトークンを絞り込む。これは、クエリと過去の全トークンとの間のインデックススコアを計算し、クエリがどのトークンを参照するべきかを決定する。
このIndexerが使うクエリ・キーの次元数は通常のクエリ・キーの次元数よりずっと少なく(実装だと元が2048次元、それが64)、FP8を採用。そこからTop-k(実装だとk=2048)のトークンのみを取り出し、通常のAttentionを適用し学習する。
このDSAは128Kコンテキストに拡張済みのDeepSeek-V3.1.-Terminusの継続学習で実現される。
はじめにLightning indexer以外のパラメータはフリーズした上で、すべてのattentionヘッドのスコアを合計した上で再正規化して求めた確立分布を作成した上で、これを目標にKLダイバージェンス最小化で初期化する。10Bトークン程度。
次にモデル全体を疎構造に適応させるための学習する。indexerは引き続き、main attentionに整合させ、top-kに入ったトークンのみKLを計算。indexerの入力は計算グラフからdetachし、indexerはKL損失のみで学習し、メインはLM損失で更新する。
ここは1Tトークンを使う。
このように作られたDSAを使った処理は性能はほぼ維持されながら、推論コストは大幅に改善される(このあとのpost-trainingも効率化される)
次にPost-trainingでは最初に各タスク毎の専用のスペシャリストモデルを大規模な強化学習を使って作る。これらはすべて同じモデルから、専門ドメイン毎に特化させて作られる。さらに各ドメインごとにthinkingモードとnon-thinkingモードを用意する。
次に、各スペシャリストはthinkingモード用の長いCoTを含む学習データと、non-thikingモード用の直接回答する学習データを生成し、一つの最終モデルで学習させる。
つまり、特殊化された複数の教師を作って一つの最終モデルに蒸留する。
これらの大規模強化学習では、GRPOをベースに報酬設計としてリーズニング、エージェントタスク、アライメントを1つのRLで行う。これにより、複数学習で起きがちな破滅的忘却を抑えられる。
また、発散防止のため、訓練を定期的に評価し、性能が異常に低下したら巻き戻し、学習率を下げて再開する、また方策更新が偏らないように前向き計算に正則化をかける。さらに複数の評価をあえて切り替えて使用することで報酬ハックを行いにくいようにする(人でもありそう)。これら3つによって数千ステップにわたるRLを成功させている。
これらの強化学習ではリーズニングも混ぜたものを学習にいれている。これにより、ツールを伴うような複雑なタスクにおいて、thinking, non-thikingそれぞれで高いエージェント能力を発揮できるように工夫している
また、Specialeは、リーズニングデータのみで学習かつ、RL時の長さ罰則を緩和し、数学的証明能力を(他の能力を犠牲にしても)伸ばせるようにした(少し前にでたDeepseek-Math v2の研究も利用していると思われる)
ベンチマーク結果としては数学能力に特化したSpecialeはGPT-5などを超える性能を達成し、IMOやIOIの金メダル級の性能を達成している。
また通常のV3.2も多くのベンチマークでもフロンティアモデルに匹敵する性能を達成できている。
コメント
DeepSeekはリスクの高い取り組みに挑戦し結果を出している。今回もDSA、スペシャリストを強化学習で作ってからの汎用モデルへの蒸留、RLでも報酬の複数の組み合わせなどは、従来の延長線上よりはジャンプがあるアイディアであり、この手前には多くの試行錯誤をしているのだと思われる(実際、設定ファイルをみるとAttentionのDropoutなど成功しなかったアイディアを試した跡があるように思える)
DSAもSpecialistを作ってからの蒸留もどちらも、Post trainingの間に行う蒸留として興味深い(フロンティアモデルでも公表されていないだけで広く採用されているか?)
注意機構は特に、学習がすごくうまくいけばいくほど疎になることがわかっている。一方学習前半〜途中ではSparse Attentionではうまくいかない(疎な場合、フィードバックがかからない)本提案も最初にDenseでやりつつ、最後に得られた疎な注意機構を遥かに小さい計算コスト(key, queryの次元数を下げる&8bit量子化)で計算し、その中での細かい調整は大きなモデルで実現するという現実的な手法を提案している。
また、Specialistを作ってからのGeneralistへの蒸留なども昔から構想されていたが実現できたことはすごい。
DSAは効果的だが、prefillでの効率化率は8~10倍、decodeでは数倍であり、なにより元のkey valueは(あとで詳細なことを調べるときように)とっておかなければならない。大規模文脈の効率的な圧縮は今後も追求が必要だろう。
また、学習の容易性と推論時の効率性の観点から、学習専用モデル(学習は得意だが推論は苦手)と推論専用モデル(一からの学習は難しいが良い教師がいれば推論は得意)の考えは今後より追求されていくだろう December 12, 2025
OpenAIがGoogleのGemini3.0の性能を見てコードレッド
(緊急事態)を宣言したと話題ですが、これのインパクトはともかく、他にOpenAI内部の研究状況や今後に関してかなり面白い話題が出ていますので、全体的なまとめとコメント(また超長くなってしまった)。
・直近でChatGPT関連のコード分析で噂されていた広告導入の話は事実だったが、優先度を考えて延期
・買い物、健康に関するタスクを自動化するエージェントも開発中だったが、これも延期
・さらにユーザーに対する毎朝のパーソナライズレポート機能も(Pulseというらしい)も延期(これは個人的には早く欲しかった・・・)
・とにかく、ChatGPTのチャット機能のパーソナライズとカスタマイズによるユーザー体験の向上がGemini3に対抗する現状の優先
・Nano Banana Proに対抗して、画像生成AI機能も優先事項
コメント:
GoogleのNano Banana Proは、そもそもPro以前の段階でOpenAIの画像生成能力を大きく超えており、Proに至っては数世代違うという印象。また、そもそもNano Banana ProはGemini3.0の別機能として提供されており、テキストも混ぜたマルチモーダル学習の過程であれほどの能力を得ているはずなので、OpenAIが画像生成AI単体を学習しても追いつけない領域なのではないかと思う。つまり、テキスト生成性能と画像生成の問題は分離できないものであり、根本的にChatGPTの主要モデルの改善が必要ではないか
・ChatGPTの速度を改善し、また過剰なアライメントによる回答拒否の頻度を避けることも優先事項
コメント:
OpenAIは、昨年のo1以降に長考推論モデルであまりにも成功しすぎたが故に、現状モデルの応答スピードが遅くなりすぎている傾向がある。Gemini3はやや検索機能が低い(というよりも、どこで検索すべきかモデルのtool use判断がうまくいっていないと思う。Googleなのに検索機能が低いのは皮肉だが、この辺は長考すぎる問題を回避し、検索のAIモードと明確に使い分けさせる意図もあるのではないか)が、回答はほとんどの場合GPT-5よりも早く、高品質であるので、ここをどうするか。
過剰な回答拒否問題については、今年4月のGPT-4oの事故(迎合的すぎてロールバック)と、keep4o運動、チャットの誘導による犠牲者を出していてOpenAIが一番センシティブになっていたところで、かなり舵取りが難しいと思う。
・来週、Gemini3.0よりも優れているとされる長考推論モデルをリリース予定(!)とのこと。おそらくベンチマーク性能は高いが、アルトマンらも、チャットによるユーザー体験はまだ改善が必要であると認識している模様。
・上記の来週リリースモデルと同様かは不明だが、内部でShallotpeatとGarlicというコードネームのモデルを開発中。Garlicの方が後発で、GPT-4.5の反省などもいかし、Gemini3のように事前学習段階でのスケーリングの問題を解決し、知識性能は維持しつつモデル規模自体は小規模になるような改良もできるとのこと
・さらに、上記のモデルでの改良も生かした本格的なスケーリングを行ったモデルの開発もしているとのこと。
全体コメント:
現時点の情報だけでも、OpenAIが本当に全方位戦の開発をしていることがわかる。確かにこれを見ると、昨今の異常な計算リソース確保の動きも納得はでき、アルトマンが言う30Gwのデータセンターも本人的には誇張ではなかったのだろう。OpenAIが事前学習スケーリングに関してGemini3の事前学習スケーリング復活を見る前から諦めずに粘っていたのは後に効いてきそう。
これらの将来的な取り組みはともかく、直近の開発レースはむしろOpenAIが一番劣勢の状況にあると思う。Gemini3.0に全体的な性能で負けているのはもちろんのこと、AnthropicのClaude4.5 opusは最も需要のあるコーディング性能を大きく上げつつ今までのコスト増、スピード鈍化とは逆の省エネ化をするという謎の錬金術をやっている。また、DeepSeekによって直近でリリースされたDeepSeekMath-V2は、OpenAIが「隠し玉」として温存していたIMO(国際数学オリンピック)金メダルを達成してしまい、DeepSeek-V3.2は、ほぼGPT-5に性能で追いつきながら新手法導入により大幅な計算コスト削減に成功している。しかもオープンであり、他の機関もこれらの技術を使ったブーストがかかり、追いつくのが容易になる。 December 12, 2025
GPT-5.1やGemini 2.5 ProといったマルチモーダルLLMが、ウェブのボット対策であるCAPTCHA(画像認証)をどれくらい突破できるかを調べたところ、
動物を選んだり、道筋を見つけたりする単純な認識タスクは、もはや簡単すぎてはじめから80~100%の精度で解けてしまうことが判明しています。
しかも 数回試行すればほぼ確実に突破できる上、コストもごく僅かです。
ただし、指定された順番でアイコンをクリックしたり、最も大きい領域をクリックしたり、サイコロの目を数えて合計を答えさせたりするタスクは、依然として難しいままです。
精度は20%以下にとどまり、数回試しても成功率は上がらず、コストも桁違いに高くつきます。
今後、完全に安全なCAPTCHAは作れないだろうと予想されています。しかし、防御側がAIの苦手なパターンを組めば、少なくとも自動化のコストを大幅に引き上げることはできると結論付けられています。 December 12, 2025
AIの進化って、ほんとジェットコースターみたいやな。ちょっと前までGPT-4がどうとか騒いでたのが、もう「博物館行き」って感じやもん。今はGemini 3とかGPT-5が当たり前で、誰も驚かん。
でも、ホンマにすごいのは、個々のモデルのスペック向上だけやないと思うんよね。Gemini 3のマルチモーダル推論速度がGPT-4の5倍になったとか、GPT-5の推論コストが1/10になったとか、そういう数字も大事やけど、それらが組み合わさって社会にどう影響してるかの方が重要やん。
例えば、自律型エージェント。2025年やから、もう普通に社会実装されてる。スケジュール管理から、ちょっとした買い物、子供の送り迎えまで、全部AIがやってくれる。便利すぎて、自分で考えることを放棄してる人も多いんちゃうかな。
昔は「AIに仕事が奪われる!」って言ってたけど、今は違う意味で人間が退化してる気がする。判断力とか、決断力とか、そういう「人間ならでは」の能力がどんどん衰えていく。
もちろん、AIのおかげでクリエイティブな仕事に集中できるようになった人もいるし、医療とか福祉の分野では大きな進歩があったのも事実。でも、便利さの裏で失ってるものもあるんちゃうかなって思うんよね。
このままAIに頼り切ってたら、人間はどうなるんやろうか。映画「WALL-E」の世界が現実になるのも、そう遠くない未来なのかもね。笑えんけど。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




