GPT-5 トレンド
0post
2025.12.03 04:00
:0% :0% (-/男性)
人気のポスト ※表示されているRP数は特定時点のものです
DeepSeek-V3.2は高い計算効率と優れた推論・エージェント能力を達成。長コンテキストでの計算量を大幅に減らすDSAの採用、スケーラブルなRLフレームワーク、大規模エージェントタスク合成パイプラインを採用している。
DSA(DeepSeek Sparse Attention)は、Lightning Indexerを使って重要なトークンを絞り込む。これは、クエリと過去の全トークンとの間のインデックススコアを計算し、クエリがどのトークンを参照するべきかを決定する。
このIndexerが使うクエリ・キーの次元数は通常のクエリ・キーの次元数よりずっと少なく(実装だと元が2048次元、それが64)、FP8を採用。そこからTop-k(実装だとk=2048)のトークンのみを取り出し、通常のAttentionを適用し学習する。
このDSAは128Kコンテキストに拡張済みのDeepSeek-V3.1.-Terminusの継続学習で実現される。
はじめにLightning indexer以外のパラメータはフリーズした上で、すべてのattentionヘッドのスコアを合計した上で再正規化して求めた確立分布を作成した上で、これを目標にKLダイバージェンス最小化で初期化する。10Bトークン程度。
次にモデル全体を疎構造に適応させるための学習する。indexerは引き続き、main attentionに整合させ、top-kに入ったトークンのみKLを計算。indexerの入力は計算グラフからdetachし、indexerはKL損失のみで学習し、メインはLM損失で更新する。
ここは1Tトークンを使う。
このように作られたDSAを使った処理は性能はほぼ維持されながら、推論コストは大幅に改善される(このあとのpost-trainingも効率化される)
次にPost-trainingでは最初に各タスク毎の専用のスペシャリストモデルを大規模な強化学習を使って作る。これらはすべて同じモデルから、専門ドメイン毎に特化させて作られる。さらに各ドメインごとにthinkingモードとnon-thinkingモードを用意する。
次に、各スペシャリストはthinkingモード用の長いCoTを含む学習データと、non-thikingモード用の直接回答する学習データを生成し、一つの最終モデルで学習させる。
つまり、特殊化された複数の教師を作って一つの最終モデルに蒸留する。
これらの大規模強化学習では、GRPOをベースに報酬設計としてリーズニング、エージェントタスク、アライメントを1つのRLで行う。これにより、複数学習で起きがちな破滅的忘却を抑えられる。
また、発散防止のため、訓練を定期的に評価し、性能が異常に低下したら巻き戻し、学習率を下げて再開する、また方策更新が偏らないように前向き計算に正則化をかける。さらに複数の評価をあえて切り替えて使用することで報酬ハックを行いにくいようにする(人でもありそう)。これら3つによって数千ステップにわたるRLを成功させている。
これらの強化学習ではリーズニングも混ぜたものを学習にいれている。これにより、ツールを伴うような複雑なタスクにおいて、thinking, non-thikingそれぞれで高いエージェント能力を発揮できるように工夫している
また、Specialeは、リーズニングデータのみで学習かつ、RL時の長さ罰則を緩和し、数学的証明能力を(他の能力を犠牲にしても)伸ばせるようにした(少し前にでたDeepseek-Math v2の研究も利用していると思われる)
ベンチマーク結果としては数学能力に特化したSpecialeはGPT-5などを超える性能を達成し、IMOやIOIの金メダル級の性能を達成している。
また通常のV3.2も多くのベンチマークでもフロンティアモデルに匹敵する性能を達成できている。
コメント
DeepSeekはリスクの高い取り組みに挑戦し結果を出している。今回もDSA、スペシャリストを強化学習で作ってからの汎用モデルへの蒸留、RLでも報酬の複数の組み合わせなどは、従来の延長線上よりはジャンプがあるアイディアであり、この手前には多くの試行錯誤をしているのだと思われる(実際、設定ファイルをみるとAttentionのDropoutなど成功しなかったアイディアを試した跡があるように思える)
DSAもSpecialistを作ってからの蒸留もどちらも、Post trainingの間に行う蒸留として興味深い(フロンティアモデルでも公表されていないだけで広く採用されているか?)
注意機構は特に、学習がすごくうまくいけばいくほど疎になることがわかっている。一方学習前半〜途中ではSparse Attentionではうまくいかない(疎な場合、フィードバックがかからない)本提案も最初にDenseでやりつつ、最後に得られた疎な注意機構を遥かに小さい計算コスト(key, queryの次元数を下げる&8bit量子化)で計算し、その中での細かい調整は大きなモデルで実現するという現実的な手法を提案している。
また、Specialistを作ってからのGeneralistへの蒸留なども昔から構想されていたが実現できたことはすごい。
DSAは効果的だが、prefillでの効率化率は8~10倍、decodeでは数倍であり、なにより元のkey valueは(あとで詳細なことを調べるときように)とっておかなければならない。大規模文脈の効率的な圧縮は今後も追求が必要だろう。
また、学習の容易性と推論時の効率性の観点から、学習専用モデル(学習は得意だが推論は苦手)と推論専用モデル(一からの学習は難しいが良い教師がいれば推論は得意)の考えは今後より追求されていくだろう December 12, 2025
1RP
Nova 2 モデルの性能比較。
・Nova 2 Liteと同等: Claude Haiku 4.5、GPT-5 Mini、Gemini 2.5 Flash
・Nova 2 Proと同等: Claude Sonnet 4.5、GPT-5.1、Gemini 2.5 Pro (タスクによってはGemini 3)
基盤モデルの開発では出遅れていたAWSがここに来てSOTAと肩を並べるレベルに!
#AWSreInvent https://t.co/ApiJxnIdY3 December 12, 2025
00:01:11 — 00:01:55:OpenAI 已在洛斯阿拉莫斯国家实验室部署本地机房模型
高价值信息点:
OpenAI 已在 Los Alamos National Labs(洛斯阿拉莫斯国家实验室)部署了 本地、隔离、在机密环境运行的 OpenAI 模型。
他们确实把模型跑在 classified supercomputer 上。
这意味着 OpenAI 已经开始 “国家机密级别的私有化部署”。
这一点极其罕见,外界很少确认,
说明“安全壁垒 + 本地模型授权”正在真实发生。
00:09:34 — 00:10:23:ChatGPT 活跃用户已达全球 10%,且还在持续高速增长
关键信息:
主持人说:“这将是历史级别的增长速度。”
周活跃用户 = 全地球人口的 10%。
Sherman 强调:“增长没有放缓迹象,还在继续上涨。”
这是一个极少对外公开的内部确认。
00:12:34 — 00:13:22:模型无法被软件“抽象封装”,导致无法被平台 disintermediate
高价值观点:
模型之间不能像云计算那样“无感切换”。
因为语言模型太难被传统软件层抽象。
用户总是能“感觉到”在使用 GPT-5,而不是别的。
→ 这意味着:
AI 模型是反中间商、反抽象化的技术(anti-disintermediation tech)。
这是一个很新的概念,非常值得捕捉。
00:15:07 — 00:15:31:开发者对模型“产生感情依赖”,导致黏性极高
Sherman 直说:
用户按模型“个性”产生偏好(如 GPT-4o 的 personality)。
模型黏性异常高,即使替代品很多。
这解释了为什么“换模型供应商”几乎不会发生。
00:17:50 — 00:18:34:OpenAI 早期内部也相信会有“一统天下的单模型 AGI”
惊人内部信息:
2–3 年前,OpenAI 内部主流观点是:“最终会出现一个模型统治所有任务”。
因此当时甚至怀疑是否需要 fine-tuning 产品。
现在完全转向:未来会有大量专业化模型 + 多样模型生态。
这是非常重要的内部思想转变。
00:21:27 — 00:22:15:企业开始用 RL 进行微调,能达到“领域内 SOTA 水平”
关键突破点:
OpenAI 开放了 Reinforcement Fine-Tuning (RFT)。
企业可以用私人数据“强化学习”模型。
Sherman 明确说:可以借此在某些专业任务里超越基础模型、做到 SOTA。
这是非常重要的新能力。
00:24:16 — 00:24:36:OpenAI 正在试行“数据换免费训练 / 低价推理”的交易模式
极少对外公开:
Sherman 说:
如果企业愿意分享用于 RL-fine-tune 的数据,OpenAI 会给折扣推理价格,甚至免费训练额度。
这是 OpenAI 开始“用算力换数据”的重大迹象。
00:25:56 — 00:26:18:RAG 本质是“用余弦相似度随机抓文档给超智能推理”
主持人吐槽:
“RAG 本质是:用 cosine similarity 随便找几段东西扔给超级智能推理,逻辑非常荒谬。”
Sherman 完全认可:
未来关键不是 prompt engineering,而是context engineering:让模型自己选工具、自己写代码取数据。
这揭示了 RAG 的原罪与未来方向。
00:29:35 — 00:29:57:OpenAI 内部没有“Agent 团队”——Agent 是所有产品线的统一底层能力
重要澄清:
OpenAI 不把 Agent 当独立产品。
所有产品(ChatGPT / API / Codex / Sora)都是同一智能的不同界面(interface)。
这说明“Agent 不是产品,是能力层”。
00:34:25 — 00:34:47:OpenAI 内部把计费视为“一条单向棘轮”——一旦用 usage-based 就永不回头
Rockset 创始人 Venkat 的观点(Sherman 引用):
Usage-based pricing 是不可逆趋势。
一旦采用,再也回不去订阅或 seat-based。
Sherman 认可,并说:
OpenAI 使用 “成本 + 利润” 的真实成本法定价。
这是 OpenAI 的核心商业哲学。
00:37:44 — 00:38:07:OpenAI 虽然被认为“反开源”,但内部其实一直想开源
Sherman:
他和 Sam Altman 从自己入职那天起就在讨论何时开源。
之前没开源只是“算力太贵、不好排产”。
这一点打破外界对 OpenAI 的刻板印象。
00:39:18 — 00:40:02:就算开源 GPT-5 权重,别人也无法达到其推理速度
关键观点:
OpenAI 的推理速度来自 模型 + 推理栈 + 训练团队反复迭代。
Sherman 说:“即使我们开放 GPT-5 的权重,其他公司也推不动同等性能。”
这意味着:
推理工程 = 核心护城河比模型本身更强。
00:43:16 — 00:43:58:Sora(世界模拟组)使用完全独立的推理堆栈,与 GPT 完全不同
关键信息:
文本模型和视频模型在 OpenAI 内部的基础设施完全不同。
Sora 的 inference、优化、产品化路径完全由另一组负责。
这是为什么 OpenAI 能同时做“世界模拟 + 语言模型”。
00:45:56 — 00:47:21:用户对 Agent Builder 的“困惑与喜爱”并存
关键点:
发布后的第一反应是:“这是 low-code 工具吗?太简单、太规则化了?”
实际使用中却非常受欢迎(官方 YouTube 播放量最高之一)。
原因是现实世界的工作 大量是 SOP、流程化的,并不需要“无限制 AGI”。
这是理解 agent 落地的关键点。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




