GPT-5 トレンド
0post
2025.12.02 00:00
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
■「Geminiの検索周りは他社のAIと比べて圧倒的に出来が悪く、設計から見直さないと深い調査には使えない」
ワイがずっと言ってるGeminiの検索ポンコツ問題、まったく同じような意見がRedditに投稿されていた。
なお、GeminiのWebアプリでも、Google AI StudioでWebグラウンディングしても同様。
どれも、ワイが言い続けている内容とかなり整合する。
※ここで書かれているのは確定している"公開仕様"ではなく、観測された挙動からの推測を含むことに注意。
主な問題は以下。
---
① 検索クエリの立て方が極端に悪く、古い知識に引きずられる
最新情報が必要な質問でも、いきなりバージョン番号や年月を含んだ「狭いクエリ」を投げてしまい、検索前から古い前提に縛られている。例として「最新の Gemini モデルは?」と聞いたときに、Gemini が内部の古い知識を前提にしたようなピンポイント検索ばかりする一方で、OpenAI 側(GPT‑5.1)はまず広いクエリで全体像を探り、その後で絞り込んでいく挙動を見せる。
→これ、実際使ってるとマジで遭遇するよね。「そりゃそんな決めつけたような検索の仕方をしたら、正しい答えなんて得られないだろ」ってのがGeminiだとマジである。
これもついこの前書いた
https://t.co/cGXTwyO67l
『OpenAIのReasoningモデルは)基本動作として初手でとりあえず検索して『世界の状況をざっくり知る』からスタートする傾向にあるからこういうことが起きにくい』
Geminiはこれをやらないから、思い込みで恣意的な答えをWebから集めてポンコツ回答をするって話。
② (特にDeep Researchにおいて)事前に「固い計画」を作りすぎて、実際の検索結果に合わせて軌道修正できない
まず内部知識をもとに細かい調査計画を立て、その計画に沿って検索していく設計になってそうだという話。
その結果、「最近仕様が変わった API」などを調べるときでも、古いバージョン番号やすでに廃止されたエンドポイントを前提にした計画を組み、その計画を機械的にこなしてしまうので、最新の情報に辿り着けない。本来は、ざっくり広く調べてから、見つかった情報に合わせて次の一手を変えていくべきなのに、それが出来ていないという指摘。
→ChatGPTだと、GPT-5.1 ThinkingもDeep Researchも、検索結果に応じて調査方針を動的に更新しながら進んでくれるけど、Geminiは事前に決めた計画でしか調査しないから、思い込みで間違えた答えを出してくるって話。これ、ワイも以前にポストした。
https://t.co/WzhKwStdYj
③ 検索結果が「スニペットだけ」で、ページ本文を読めない設計
Google 検索と連携しても、Gemini 側にはWebページ全文ではなく「Googleにキャッシュされてる、検索結果用の短い抜粋(スニペット)」だけが、固い構造化データの形で渡されると指摘されてる。そのうえで、特定の URL を開いてページ本文を読ませる手段が用意されておらず、API の仕様など「細かい情報を読み込んで調べるタイプのタスク」がほぼ不可能。ChatGPTはページを普通に読みに行く(フェッチする)。
④ 検索プロセスの中身がユーザーから見えない
Web 版の Gemini では、どんな検索クエリを投げて、どのサイトを見ようとしたのかが表示されない。
開発者向けの API でも、レスポンスが出たあとに「どんなクエリを使ったか」の一覧が少し見えるだけで、「推論のどのタイミングで、どのように検索したか」が分からず、調査の網羅性を検証しにくい December 12, 2025
9RP
DeepSeek-V3.2とSpecialeが登場。
V3.2はExpの正式版で、App/Web/API対応、GPT-5級の推論とツール統合を実現。
SpecialeはAPI限定でGemini-3.0-Pro並み、金メダル級のIMO/CMO/ICPC/IOI 2025成績と中々に凄い性能。
またしても横からおもっきり殴ってくれました。 https://t.co/nceYHcGfjU December 12, 2025
2RP
OpenAIのGPT-5を超えてめでたく人類最高のAIとなったGemini3.0ですら、カブトムシのAA(アスキーアート)はまともに作れなかったので、人類に残された仕事はAA職人かもしれない。 https://t.co/75EYotTipn December 12, 2025
DeepSeek V3.2 Specialeがどのくらいの時間をかけて推論するモデルなのかいまいちわからず評価しづらい。
V3.2 Thinkingの推論スピードがGemini3.0 Pro相当なら単にGPT-5.1がボコボコにされてGemini3.0 Proがまだ王者として君臨するレベルなんだが、Specialeってのが高速に動作するなら結構やばい。 December 12, 2025
DeepSeekが人類史上最大級のオープンソースAI「DeepSeek-V3.2」と「V3.2-Speciale」を同時にリリースした。
これがどれだけ凄いか、一言で言うと
世界初、オープンソースで「国際数学オリンピック(IMO)2025金メダル相当」を達成したAIが、誰でも無料で使えるようになった。
主な衝撃ポイント
- IMO 2025で42問中35問正解(金メダル確定ライン)
- 中国数学オリンピック(CMO)2025、情報オリンピック(IOI)2025、ICPC世界大会2025でも金メダル級
- OpenAIのGPT-5やGoogleのGemini 3.0 Proを複数の最難関ベンチマークで上回る・並ぶ
- 128,000トークン(約10万語)の超長文を3倍速・半分コストで処理する新技術「DeepSeek Sparse Attention」搭載
- 事後学習(RL)に事前学習の10%以上をぶち込み、推論力が爆発的に向上
- エージェント機能も搭載し、検索・コーディング・ツール使用を自然にこなす
- 全てMITライセンスで完全オープンソース、Hugging Faceで今すぐダウンロード可能
つまり、
「これまでOpenAIやGoogleだけが持っていた“超知能”を、中国のチームがオープンソースで先に公開してしまった」という歴史的逆転劇が起きた瞬間です。
世界中の研究者・エンジニア・学生が今、興奮して「クジラが帰ってきた(Whale is back)」と叫んでいる理由がこれです。
DeepSeek-V3.2 → 誰でもすぐ使える日常最強モデル
DeepSeek-V3.2-Speciale → 純粋推論の限界を攻める研究用怪物(現在API限定)
オープンソースAIがクローズドソースを超えた日、として確実に歴史に刻まれました。 December 12, 2025
DeepSeekが人類史上最大級のオープンソースAI「DeepSeek-V3.2」と「V3.2-Speciale」を同時にリリースした。
これがどれだけ凄いか、一言で言うと:
世界初、オープンソースで「国際数学オリンピック(IMO)2025金メダル相当」を達成したAIが、誰でも無料で使えるようになった。
主な衝撃ポイント
- IMO 2025で42問中35問正解(金メダル確定ライン)
- 中国数学オリンピック(CMO)2025、情報オリンピック(IOI)2025、ICPC世界大会2025でも金メダル級
- OpenAIのGPT-5やGoogleのGemini 3.0 Proを複数の最難関ベンチマークで上回る・並ぶ
- 128,000トークン(約10万語)の超長文を3倍速・半分コストで処理する新技術「DeepSeek Sparse Attention」搭載
- 事後学習(RL)に事前学習の10%以上をぶち込み、推論力が爆発的に向上
- エージェント機能も搭載し、検索・コーディング・ツール使用を自然にこなす
- 全てMITライセンスで完全オープンソース、Hugging Faceで今すぐダウンロード可能
つまり、
「これまでOpenAIやGoogleだけが持っていた“超知能”を、中国のチームがオープンソースで先に公開してしまった」という歴史的逆転劇が起きた瞬間です。
世界中の研究者・エンジニア・学生が今、興奮して「クジラが帰ってきた(Whale is back)」と叫んでいる理由がこれです。
DeepSeek-V3.2 → 誰でもすぐ使える日常最強モデル
DeepSeek-V3.2-Speciale → 純粋推論の限界を攻める研究用怪物(現在API限定)
オープンソースAIがクローズドソースを超えた日、として確実に歴史に刻まれました。 December 12, 2025
DeepSeek V3.2正式版登场:拒绝烧钱Scaling,开源AI以算法突破算力瓶颈
DeepSeek V3.2 Officially Launches: No Costly Scaling, Just Smarter Algorithms Driving Open-Source AI Beyond Compute Limits
笔者注:这几个星期,Sam Altman的内心想必是拒绝且焦虑的:Gemini 3 Pro的出世刚完成了一轮横扫;Ilya随即便抛出“Scaling已到尽头,接下来是研究的时代”的论断;还没缓过气来,DeepSeek的新动作又是新的行业震爆。
就在刚刚,DeepSeek一次性开源两个正式版模型DeepSeek-V3.2与DeepSeek-V3.2-Speciale,同时网页版,App与API同步升级为正式版 V3.2,乾脆、利落、不拖泥带水。
可以说,DeepSeek-V3.2的横空出世,深刻诠释了开源AI的独特魅力:它摒弃了盲目的暴力Scaling,以更精妙的算法为杠杆,在算力资源受限的情况下,发挥了Ilya所说的研究精神,真正地通过技术创新撬动了通往巅峰的捷径。
一,DeepSeek-V3.2:推理能力全球领先
按照官方的数据,
🔹 DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景。在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。
🔹 DeepSeek-V3.2-Speciale的目标是将开源模型的推理能力推向极致,探索模型能力的边界。V3.2-Speciale是DeepSeek-V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力。该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro(见表1)。更令人瞩目的是,V3.2-Speciale模型成功斩获IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC与IOI成绩分别达到了人类选手第二名与第十名的水平。
在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。
图2:DeepSeek-V3.2与其他模型在各类数学,代码与通用领域评测集上的得分(括号内为消耗Tokens总量)
二,DeepSeek-V3.2:实现思维与工具调用的深度协同
告别割裂:思考融入工具执行流
不同于过往版本中工具调用与思维模式相互割裂的局限,DeepSeek-V3.2是首个将思维链(CoT)深度融入工具使用流程的模型,并同时支持思考模式与非思考模式下的灵活调用。
数据驱动:大规模Agent训练方法
为实现这一跨越,DeepSeek提出了一种创新性的大规模Agent训练数据合成方法。通过构造海量的1800+虚拟环境和85,000+复杂指令,这些“难解答,易验证”的强化学习任务极大地拓宽了模型的泛化能力。
评测结果:缩小与闭源模型的代差
如下图所示,DeepSeek-V3.2在各项智能体工具调用评测中,不仅达到了开源模型的最高水平,更显著缩小了与顶级闭源模型的性能差距。尤其值得强调的是,V3.2依靠通用能力而非针对性训练取得了此成绩,预示着其在真实应用场景中具备强大的泛化能力与通用Agent潜能。
三,DeepSeek V3.2进化论:拒绝断片,学会边干边想
架构传承,能力跃迁:V3.2正式版沿用DSA架构,但核心突破在于引入“思维上下文管理”,彻底解决了AI思考与行动脱节的顽疾。
V3.2 Exp版:调用工具回来容易断片儿,思考链条断裂,效率低。
V3.2正式版:相当于自带了一个“工作记忆暂存区”,工具调用与逻辑思考无缝衔接,下一步操作即刻跟上。
DeepSeek新模型技术报告已同步发布:
https://t.co/sfkz51Eo5w
开源发布:
DeepSeek-V3.2
ModelScope:
https://t.co/ZgUSFokP2k
HuggingFace:
https://t.co/d6OgeKRpKB
DeepSeek-V3.2-Speciale
ModelScope:
https://t.co/OJaipPxbP2
HuggingFace:
https://t.co/63pKYZhxSv December 12, 2025
DeepSeek-V3.2 来了,这次是真的“杀疯了”!⚡️
我用Gemini分析了这篇PDF,用NotebookLM画了一张思维导图,帮大家快速阅览这次的新升级:
✅ GPT-5 级别的推理能力。
是的你没看错,DeepSeek-V3.2 标准版推理能力已媲美 GPT-5 。其 Speciale 版本更是在数学和编程竞赛中拿下金牌,直接叫板 Gemini-3.0-Pro 。
✅ DSA 稀疏注意力机制架构级创新!
引入 DeepSeek Sparse Attention (DSA),将核心注意力复杂度从 O(L²) 降维至 O(Lk)。在大幅降低计算成本的同时,完美保持了长上下文性能 。
✅ 更聪明的 Agent不再是只会聊天的机器人。
通过“大规模智能体任务合成管道”生成 85,000+ 复杂提示词,结合“工具调用思考”机制 ,彻底解决了开源模型指令遵循难的痛点 。
开源模型的“iPhone 时刻”还在继续!🔥 December 12, 2025
DeepSeek-V3.2がGPT-5とベンチマークで拮抗したり、specialeでGemini Proと勝負してるの、685Bというサイズで実現しているのはすごいな。
テクニカルレポートのほうにKimi K2(1T)とも同等と書いてある。
SpecialeはAPIのみということだけど、今後公開の予定はあるのかな。 https://t.co/FAHzjdBPwV December 12, 2025
Deep Seek V3.2 が登場👀
2025年国際数学オリンピックと国際情報オリンピックにおいて金メダル級の成績を収めたモデル。タスクによってはGPT-5.1 HighやGemini 3 Proに匹敵する性能とのこと。
これくらい性能出てたらもうオープンウェイトモデルでもいいかもってタスクも多いかもですね😇 https://t.co/uwhZJL9Xbz December 12, 2025
ChatGPTが3周年を迎えたが、OpenAIの背後では債務が急膨張しデータセンター関連借入は1,000億ドル規模に迫る。依然赤字の中、競争は激化し、Googleの「Gemini 3」がGPT-5を凌駕したとの声も強まる。技術覇権を巡る勢力図は揺らぎ、先行者といえど歩みを止められない。この領域に永続する王者はいない。 https://t.co/Ea55CK4lkv December 12, 2025
KiloCode 这篇文章对 GPT-5.1、Gemini 3.0 和 Claude Opus 4.5 三个最新模型,在三个具体编程任务上的表现做了系统对比,最后给出“用在什么场景更合适”的结论。
Claude Opus 4.5 更像“认真负责的高级工程师”,会把需求一个个对上,还会顺手补全容易漏掉的部分,比如限流、环境变量配置、所有事件的模版等,在三个测试里整体得分最高,但算力成本也最贵。
GPT-5.1 更像“爱多想的老程序员”,在重构和系统扩展里会主动帮你找安全问题、数据库事务问题、兼容老字段之类的坑,写出来的代码长、注释多、检查也多,但有时会加超出你原始需求的东西,需要你自己判断要不要留。
Gemini 3.0 则是“按字面完成任务的实习生”:你说什么它就做什么,代码短、便宜、实现也很贴合提示,但不会主动多加安全保护或额外功能,复杂任务里容易漏掉一些深层问题。
文章最后的使用建议是:如果你想“一次到位、所有需求都被照顾”,选 Opus 4.5;如果你更在意帮你兜各种潜在坑,选 GPT-5.1;如果你只想要便宜、简洁、完全按规格来的代码,就用 Gemini 3.0。
https://t.co/dxLS1KBJXe December 12, 2025
AI 真的有泡沫吗?如果有,该怎么理解它呢?
—— 来自吴恩达老师「Andrew's Letters」
在 OpenAI 提出惊人的 1.4 万亿美元基础设施计划,以及英伟达市值一度触及 5 万亿美元天花板的当下,市场对于“AI 泡沫”的担忧从未如此剧烈。
吴恩达老师这篇文章中,并没有简单地加入“多头”或“空头”的阵营,而是提出了一个至关重要的视角:AI 并不是一个单一的同质化市场。 要看清所谓的“泡沫”,必须将 AI 拆解为三个截然不同的板块——应用层、推理基础设施、训练基础设施。只有这样,我们才能看到真相。
一、 被低估的潜力:应用层
与大众印象中 AI 创业的火热不同,吴恩达老师认为,AI 的应用层实际上处于 “投资不足” 的状态。
这里的逻辑非常硬核且直观:从经济学角度看,一个技术生态中,应用所创造的总价值必须高于支撑它的基础设施成本,否则整个商业模式将无法闭环。然而现状是,大量的资金涌向了底层的芯片和模型,而真正能产生价值的顶层应用却显得捉襟见肘。
许多风险投资人目前处于观望状态,他们担心大模型厂商会“赢家通吃”,从而挤压应用开发者的生存空间。但吴恩达对此持相反看法。他指出,随着 AI 逐渐进化到能够自主规划和执行任务的“智能体工作流”阶段,应用层的潜力将被指数级释放。这不仅是未来十年最大的增长点,也是目前被市场严重低估的价值洼地。
二、 供不应求的引擎:推理基础设施
当我们从“应用”下沉到“算力”时,情况发生了变化。吴恩达老师将算力细分为“推理”和“训练”两部分。
对于推理基础设施,目前的状况是 “供给受限”。尽管 AI 的全球普及率还处于早期阶段,但算力需求已经非常旺盛。展望未来,随着 GPT-5、Gemini 3 等更强大模型的发布,以及 AI 智能体开始编写代码、处理复杂任务,我们对 Token 的消耗量将迎来爆发式增长。
即使未来市场因过度乐观而建设了过多的推理算力,这在吴恩达老师看来也并非坏事。对于开发者和用户而言,这反而意味着算力成本的降低,从而进一步催生更多创新应用。因此,这一板块的基本面依然坚实。
三、 真正的风险中心:训练基础设施
如果说 AI 领域真的存在泡沫,那么吴恩达老师最担忧的隐患便藏在训练基础设施之中。
这是一个资本极其密集的领域。许多公司投入巨资训练私有的基础模型,期望以此建立护城河。然而,开源大模型 的崛起正在打破这一幻想。随着开源模型性能的迅速提升,单纯靠“拥有一个大模型”来构建商业壁垒变得越来越难。
由于算法优化和硬件进步,训练同等能力模型的成本正在逐年下降。这意味着,今天投入巨资建立的优势,可能在明年就被更低成本的技术方案抹平。因此,这一板块面临着巨大的财务回报压力,是目前风险最高的领域。
结语:穿越周期的定力
吴恩达老师在文章最后表达了一种理性的隐忧:市场往往是非理性的。如果“训练端”因为投资过热而崩盘,这种恐慌情绪极易产生连锁反应,导致资金错误地撤出那些基本面良好、甚至本该加大投入的“应用端”。
引用巴菲特的名言,“市场在短期是投票机,长期是称重机”。短期的价格波动反映的是情绪,而长期的价值则取决于基本面。
对于所有的从业者、开发者和决策者而言,吴恩达老师的建议清晰而有力:忽略短期的噪音,专注于长期的价值创造。 只要我们确信 AI 能为人类带来巨大的实际价值,那么应对泡沫的最佳策略只有一个——Keep building!
Understanding the AI Bubble — If There Is One
https://t.co/pUk3Zawv1b December 12, 2025
はい、承知いたしました。エッセイストとして、AI・テクノロジーの解説記事を作成します。
## AIと「考える」ことを手放した人類
2025年。AIはもう、特別なものではなくなった。Gemini 3もGPT-5も、水道水みたいな存在だ。蛇口をひねれば出てくるように、スマホを開けば高性能AIが当たり前に使える。
特に変わったのは、「AIエージェント」の普及だ。個人のスケジュール管理から、企業のマーケティング戦略まで、文字通り「勝手に」最適化してくれる。Gemini 3のマルチモーダル推論速度のおかげで、複雑なタスクもサクサク処理できるし、GPT-5の推論コストは劇的に下がったから、中小企業でも導入しやすくなった。
おかげで、人間は「考える」ことから解放された。…本当に、解放されたんだろうか?
たとえば、旅行の計画。以前はガイドブックを読み込んだり、口コミサイトをチェックしたりして、自分で色々考えていた。でも今は、AIエージェントに「3月に沖縄、予算20万円でリフレッシュできる旅」と指示するだけ。数秒後には、航空券、ホテル、観光プランまで完璧に提案してくれる。
確かに便利だ。めちゃくちゃ便利。でも、なんだろう、この物足りなさは。自分で考えて、試行錯誤するプロセスをスキップして、いきなり「答え」だけを手に入れる。まるで、レトルト食品ばかり食べているような、そんな気分になるのだ。
AIは、人間の代わりに「考える」ことができるようになった。でも、「考える」ことって、本来、人間にとって喜びだったんじゃないだろうか。行き詰まったり、悩んだりする時間も、無駄じゃなかったんじゃないだろうか。
AIエージェントが普及して、生活はますます便利になるだろう。でも、その一方で、人間はどんどん「考える」ことを手放していくのかもしれない。なんだか、ちょっと怖い未来だ。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




