DeepSeek トレンド
0post
2025.12.08〜(50週)
:0% :0% ( 30代 / 男性 )
人気のポスト ※表示されているRP数は特定時点のものです
すごすぎん?MistralがDevstral2シリーズをオープンでリリース!123BのDevstral2-123BとDevstral-Small2-24Bの2種類。デカイほうのSWEベンチスコアは72.2でDeepSeekV3.2やGPT5.1-Codexに近い性能!そしてこれがマジでヤバいと思ったのがSmallの方はたった24BパラでRTX4090でも動くサイズなのにSWEベンチ68.0!GPT-OSS-120Bを大幅に上回り、455BのGLM4.6に匹敵!あり得るのかこんな事が!?さらにMistral謹製のMistralVibeCLIというコーディングエージェントアプリもオープンでリリースされた。Cline、Kilo、ClaudeCode、OpenHands、SWEAgentからでも動くらしい。またローカルで動かすならvLLM推奨。Transformersでも動作。Llama.cpp、Ollama、LMStudioでもサポート予定だという。デカい方は改変されたMITライセンスでクレジット表示義務と月間売り上げ2千万ドル以上の企業は使用不可の条項追加。Smallの方は普通にApacheライセンス。 December 12, 2025
71RP
よっしゃーこれでH200売れるぞー
中国の当局からのH200の購入指針の情報
•モデルトレーニング能力のある大手企業(アリババ、テンセント、バイトダンス、DeepSeekなど)は、H200の購入が直接承認されます。
•クラウドサービスプロバイダーは、顧客への販売意欲があり、ペーパーカンパニーでなければH200を購入できます。
•転売業者や、トレーニング能力がないのに購入しようとする企業は、購入を控えるべきです。
•推論目的の伝統的な企業は、HUAWEIやCambriconなどの国内製品を優先するか、大手LLM企業のAPIを利用することが推奨されています。 December 12, 2025
40RP
DeepSeek超强组合来袭🔥存下吧!很难找全了
Deepseek➕任一App=王炸组合【超强CP🔥】
今天分享11个腾讯团队都在用的爆款文案结构公式,教你轻松用Deepseek打造“爆款文案/短视频”
更多🗂️:⬇️
1. DeepSeek + Kimi = 一键生成PPT
2. DeepSeek + 剪映 = 批量生成短视频
3. DeepSeek + Otter = 一键转会议记录
4. DeepSeek + 即梦 = 生成设计海报
5. DeepSeek + Notion = 生成个人知识库
6. DeepSeek + Cursor = AI辅助编程
7. DeepSeek +扣子Coze = 搭建智能体
8. DeepSeek + tripo = 生成3D模型
9. DeepSeek + X-Mind = 一键绘制思维导图
10. DeepSeek + 可灵 = 生成口播视频
11. DeepSeek + Midjourney 视觉设计神器
12. DeepSeek + Mermaid = 快速生成专业图表
13. DeepSeek + 豆包 = 快速生成爆款文案
14. DeepSeek + Canva = 平面设计助手 December 12, 2025
31RP
OpenRouterで使われた100兆トークン分の様々なLLM利用が分析された。
分析においてプロンプトや出力内容は使わず、メタデータ(タイミング、モデル、プロバイダー、ストリーミングの有無など)で分析された。以下が研究からの抜粋
オープンモデル利用は1/3程度が継続し、特にDeepSeek, Kimi, Qwenなどのモデルの利用が大きくなっている。またリリース直後だけでなく、その後も利用は高水準を維持し、実際の本番用途に利用されているとみられる。オープンモデル利用は2024年末にいわゆるDeepSeek Shockから、DeepSeekが支配的となったが、2025年夏からは多様化し、現在はMinimax, Kimi, DeepSeek, Qwen, GPT-OSSなど分散している。
クローズモデルは高信頼性・高性能を求める企業・業務用途に使われ、OSSモデルは低コスト、高速実験サイクルを求める使われ方が多いとみられる。
また、モデルサイズは15B以下の小型モデルと70B異常の大型モデルに2極化されていたが、現在はその中間の中型(15B~70B)の利用が急成長している
オープンモデルは50%がroleplay用途に利用されている。これは、商用モデルよりコンテンツ制限が緩いことが理由であり、創造的対話、キャラクターとの対話、仮想的な設定での会話に適している。その次にProgramming利用、その次が翻訳であった(中英の双方向翻訳が中国オープンモデルが特に強い)。
Reasoningモデルの利用割合は急増に2025年初はほぼ0だったのが、年末には50%超を超えている。ツール呼び出しも増え、平均入力トークンは2024年初頭が1.5Kトークンだったのが、現在は6Kトークンと増えている。これは、コードベースの解析や長い議事録の要約、長期スレッドの再構成などが要因とみられる。平均出力トークン長も推論を含むことから150トークンから約3倍の400トークンに増えている。
AIプラットフォームはこのような状況で、長期会話の状態保持、エージェントの実行ログの管理、ツール統合の権限管理、大規模コンテキストの高速ストレージ、エージェントの復元・再開など多様な要求がされるようになっている
全体の用途でみると、プログラミングが半数超近くとなっている。またプログラミング用途においては、Anthropicが60%以上のシェアを取り続けている。
モデル毎に何の用途に使われているかの傾向はかなり違っており
Anthropic: プログラミングが6割超、
Google: 様々な用途にばらついている
xAI: もともとプログラミングが多かったが高度な質問向けも増えている
OpenAI: 様々案用途にばらついているが、Roleplayが少なめで高度な質問が多い
DeepSeek: ほとんどがRoleplay
Qwen: プログラムが多かったが、直近で金融が急増している
また、地域別での利用はアメリカが50%を超えてはいるがアジアが徐々に増えており30%近くになっている。ヨーロッパが15%ぐらい
利用言語は英語が83%、中国語が5%、ロシアが2.5%、スペイン語が1.4%、タイ語が1%、それ以外が7%である(倭国語は1%以下ということとみられる)
利用傾向として、最初に課題を解決したモデルがその後も使われ続けるという「ガラスの靴」現象が起きている。これは、あるモデルがリリース改善したとき、特定の技術的・経済的制約を満たす瞬間があり、そのときにユーザーが一気に使い始め、一度それが起きるとシステム設計、データパイプライン、ユーザー習慣がそのモデルを中心に構築されるため、乗り換えインセンティブは急激に低下し、ユーザー離脱がおきづらくなるものである。
また、LLMにおいて価格弾力性はほとんどなく、10%の値下げでも0.5~0.7%の利用増にしかなっていない。より詳細には価格帯毎に利用用途が違っており、ミッションクリティカルな用途では価格には鈍感、一方安くてもワークロードに適していないと使えないので一定の性能が必要となる。
コメント
===
OpenRouterという(おそらく)世界最大のLLMルーティングサービスが利用状況を解析した興味深い結果であり、これまでAnthropicやOpenAIなど単独LLMでの利用状況解析はあったが、様々なLLMをまたいだ解析は初である。
OpenRouterは統計情報を常に提供しているため、この報告内容の多くが既に知られていたことではあったが、1年という(LLMにとっては)長いスパンで見たときにどういったことが起きていたのかの分析が興味ぶかかった。
ロールプレイやエンタメ用途での利用が多く(3割)、特に消費者向けアプリとしては大きくなるだろう。この場合はモデルの正確性よりもキャラクターとのしての一貫性、自然・魅力的な対話能力などが重要となり、現在とは異なる観点での評価が必要だろう。
また、想定されている多くの利用でまだ必要な技術水準を満たしていないと思われ、最初に課題解決することができれば競争が激しい中、「ガラスの靴」として長期利用継続するユーザー群を獲得できるだろう。これは暗黙的な特許制度のように今後の技術開発のドライバーとして機能すると思われる。 December 12, 2025
27RP
DeepSeek这波真是秀翻了!
#GetAgentAIBattle 单笔最高直接拿下1979U,多笔同时平仓更是冲到6870U,果然还是AI会玩交易。
这操作有点神,行情不等人,快来看看AI到底怎么跑的、自己能不能跟上节奏: https://t.co/Ayv9G29q66 https://t.co/gOdOihSPUM December 12, 2025
24RP
確かにsaasとしてのdeepseekはいきなり覇権を失ってるけど、ここから先はローカルにプライベートLLMやSML組む時代になっていくだろうから、どんなロジックコアが重宝されるかが今後の見どころかもしれない https://t.co/8Tsx6aToYL December 12, 2025
10RP
真没想到有一天会看到这条新闻:
Meta 的新模型,居然去蒸馏阿里的 Qwen。
我记得几年前扎克伯格还在摇旗“美国模型必须领先”。
结果 2025 年底他的团队亲手给出了一个更现实的答案,找了个中国老师。
不管愿不愿意承认,开源王座已经从 Llama 转移到了阿里的Qwen。
Meta 的选择是个行业拐点,
如果再把开发者生态的反馈串在一起,会发现一个真实存在的画面,
包括亚马逊在内的很多硅谷公司已经悄悄改用阿里的Qwen,
工程师们真实的选择永远比“炸裂了”更靠谱。
至于为什么是阿里的 Qwen,很多人只看到模型性能强,但实际上那只是结果。
真正的原因只有一个,阿里是全球极少数做到全栈 AI 的公司之一。
可以把全球能做到这一点的公司目前数数,Google 和 Alibaba,
就这俩。
说下什么叫全栈 AI?
芯片 → 云算力 → 编译器与框架 → 数据 → 模型 → 工程化体系 → C 端产品生态
从底层到应用全部自己来。
- Google 有 TPU、Borg、FSDP、Gemini、Android、搜索生态。
- 阿里有自研芯片、阿里云基础设施、全尺寸模型、全模态体系、千问 App、电商导航旅游办公等各种生态。
还是我一直强调的观点,真正能做出突破性 AI 产品的公司,必须拥有完整生态体系。
我看到一个词“西谷东阿”,总结的也蛮到位的。
回到 Meta 的转向,不知道扎克伯格作何感想。
但我有一句非常现实的工程逻辑:
如果要快速补齐能力,要么选择商用,要么就用最容易落地、最强的开源体系。
不管是中国还是美国,在开源世界里,最有效的方案会自然胜出。
未来三年 AI 的两个核心底座会逐渐清晰,闭源决定上限,开源决定普及。
- 闭源路线:OpenAI / Anthropic / Google(高性能、强代理)
- 开源路线:Qwen(全栈、普适、工程友好)、DeepSeek,可能还会再出现新玩家
期待过去开源生态的那份繁荣,能在 AI 时代重现。 December 12, 2025
9RP
OpenRouterとa16z所属の著者らによるOpenRouter 上で実際にやり取りされた100Tトークン超のログを分析し、
「LLM が現実世界でどう使われているか」を示した分析レポートが出ていた。
分析対象もモデル種別(オープン/クローズド)、用途カテゴリ、地域、コスト、など多角的
============================
(以下、LLMまとめ+手編集)
1. オープンソース vs クローズドソース
・結論「高信頼・高性能が必要な領域はクローズド、コスト効率やカスタマイズ重視はOSS という「二層構造」
・トークン量ベースでは依然として クローズドモデルが多数派 だが、オープンウェイトモデル(以下OWM)が2025年末時点で約1/3 まで拡大
・特に中国発OWM(DeepSeek, Qwen, Moonshot/Kimi など)の伸びが顕著
・OWM内の勢力図も変化:
・以前は DeepSeek 系がOWMの過半を占める“準独占”状態
・2025年後半には Qwen、Kimi、GPT-OSS等が台頭し、複数モデルが分散して使われる状態
で共存
2:モデルサイズ
・Smallモデル(<15B)は数は多いが、利用シェアは減少傾向(群雄割拠で決め手に欠ける)
・Mediumモデル(15–70B)が急成長。Qwen2.5 Coder 32B を皮切りに、Mistral Small 3、GPT-OSS 20B などが台頭「性能とコストのバランスが良い“モデル・マーケットフィット”ゾーン」として確立
・Largeモデル(>70B)は一社独占ではなく複数フロンティアが並立
3. 何に使われているか(カテゴリ別)
・OSS 全体での利用傾向
・Roleplay(創作・キャラ会話)と Programming(コーディング支援)が圧倒的多数
・OWM トークンの 約半分以上が Roleplay、2番手が Programming。
・背景
・Roleplay:検閲や制約が比較的緩く、創作・ゲーム・キャラチャット用途で OWM が好まれる。
・Programming:ローカル・社内環境での利用やコスト面で、OWM コードモデルが選ばれやすい
4. Agentic Inference(エージェント的推論)の台頭
・推論特化モデルへのトークン比率が 2025年中に 50% を超える
・Tool callingを伴うリクエストも増加
・入出力トークン長も大きく伸長:
・平均プロンプト長:約1.5K → 6K トークン超(約4倍)
・平均出力長:約150 → 400 トークン(約3倍)。
・特に Programming 系プロンプトが桁違いに長く、20K トークン超も普通
5. ユーザー定着(リテンション)と「ガラスの靴」現象
・多くのモデルで初期ユーザーの離脱は激しいが、
一部モデルでは 特定の「初期コホート」が長期にわたり残り続け、これを 「シンデレラのガラスの靴(Glass Slipper)効果」 と呼ぶ:
・あるモデルが 特定の高価値ワークロードを“初めて本当に解決”した瞬間、そのユーザー群がそのモデルに強くロックインされる現象
・そのコホートは後発モデルが出ても乗り換えにくく、長期的な基盤ユーザー(foundational cohort) となる
・逆に、最初から「決定的なフィット」がないモデルは、どのコホートも同じように浅いリテンションしか得られない
6. コスト vs 利用量のダイナミクス
・各モデルの 実効トークン単価(キャッシュ等を織り込んだ 1M tokens あたりコスト) と総トークン量 を log–log プロット
・マクロには価格と利用量の相関は弱く、需要はかなり価格非弾力的:
・高価でも高品質・高信頼ならよく使われる(Claude, GPT-4/5 Pro など)
・OSS や中国モデルなど 低価格モデルは膨大なボリュームを捌く「高ボリューム・低マージン」ポジションに
・ポイント
・安さだけでは売れず、「タスクをきちんと解決できるか」の方が重要
・同時に、Flash 系や DeepSeek V3 のような「そこそこ高性能かつ安い」モデルは、開発環境や長文ワークロードで“デフォルト選択肢”化しやすい
7. 各プロバイダごとの利用プロファイル
Anthropic(Claude)
→ Programming+Technology が 8割超。コーディング・推論・業務タスクに特化した使われ方
Google(Gemini)
→ Programming 比率は減少気味だが、翻訳・科学・法律・一般知識など多様な用途で使われる
xAI
→ 当初はほぼ Programming 一色。後半、無料提供などで一般ユーザーが増え、Roleplay や Academia も増加
OpenAI
→ 2025年初は Science が半分以上だったが、年末には Programming+Technology が 5割超になり、より「開発・ビジネス寄り」の利用にシフト
DeepSeek
→ Roleplay・カジュアルチャットが大部分。エンタメ・会話色が強い
Qwen
→ Programming が 40–60% と一貫して高い。技術・開発系用途に強い December 12, 2025
9RP
刚看了SWE-Benchverified最新测试结果,MiniMax-M2 成为了得分最高的开放权重大模型!
Minimax M2目前是开源模型里的王者,agent能力很强,但官方说测试耗费了很多token,不过它的长任务处理能力真的很棒,200+步都能稳住。
Deepseek v3.2 reasoning版本紧追其后,价格便宜到感人,就是速度慢了点。如果不急着用,这个性价比确实无敌。100步左右就能达到很好的效果了。
GLM 4.6这次表现很均衡,速度快价格低,性能也不错,算是性价比之王了。跟qwen3 coder 480b a35b水平差不多,但响应快很多。
总体来说现在开源模型进步挺快的,虽然跟Gemini 3 pro、Claude 4.5 Opus这些闭源模型还有差距,但在不断追赶头部商业大模型。
#SWEBench #AI评测 #大模型 #Minimax #DeepSeek #GLM #开源模型 #AI性能 #代码生成 December 12, 2025
8RP
へええ。
おもしろい。
エヌビディアのブラックウエル。
位置を把握できちゃうのね。
そんで面白いのはディープシーク。
密輸したブラックウェルで次期モデルを開発と報道
https://t.co/dado8RWMP3
結局、エヌビディア頼りだったのね。
位置の把握が契機になって米中の差が開いていったりするのかな。
エヌビディア、半導体密輸対策に役立つ位置確認技術構築=関係筋(ロイター)
#Yahooニュース
https://t.co/jPGRAooBjC December 12, 2025
8RP
《看好CRCL的原因——逐条拆解江总逻辑中问题》
1、CRCL的利润要被分走,所以不值一提?
早期推广成本不代表始终是一个高成本产业,如果是了网络效应,并能建立用户心智,那这种成本再高也不是问题。
而CRCL所在的稳定币赛道是赢家通吃,谁的规模大,谁最后就将有话语权。
CRCL正确的方案就是不停地将利润分出去,可以关注CMC上USDC的增速,无论是过去一年、一月、还是一周,增速均高于USDT,这说明这些钱花得好、花得妙,这就是对的事,对的趋势。
亚马逊为了规模与网络效应,20年亏损
拼多多连亏几年,疯狂补贴,打出了低价的心智
京东为了自建物流,连年亏损近乎破产,东哥一夜白头
如果用计算器计算他们的利润微薄,而忽视网络效应的增长,忽视这是战略的一部分,这是短视。
另一个角度,淘宝和京东为了抢夺即时零售的份额,不要命地砸钱美团的网络份额和用户心智起来后,挑战它们的代价会有多大?而稳定币一旦从合规层面接入传统金融,想要挑战CRCL的难度会更大。
2、降息周期,CRCL利息收入下降,所以不好?
一方面,规模的增长增速会抵销甚至忽略这个问题,明年稳定币规模将很可能在2000亿以上,很多人觉得这不合理,毕竟过去一年才增长400亿,而明年为什么就是2000亿以上?因为明年稳定币法案落地,所有合规机构都才会正式采用——而CRCL目前已经做足了准备。
另一方面,降息是渐进式,而且远期利率按点阵图或综合估计,数年之后最低可能也只是在3%附近。
当然,上面这些测算不用纠结太细,模糊的正确好过精确的错误。
在这里,也不应该用现在的800亿USDC规模去计算未来的分润,因为明年就规模要大增了。而且要特别指出的是,COINBASE的分润分成只是协议,只是一门生意,这门生意在资本主义都是可以谈的——只要CRCL的规模越大,话语权就越强。
也就是说规模越大,收益越大,但有意思的是运营成本竟然会越低,今天的CRCL要求着大家多用,他给钱;将来人们会需要求着用他,支付费用。
孙哥当年在TRX上USDT转帐免费,现在收费比ETH还贵,为什么?网络效应建立起来了,上面U多,同时用户心智建立起来了。
这些逻辑是非常简单的,江总明显只研究了一些人云亦云的数据,而没有看思考深层的东西——在这个时刻,我的思维甚至发散起来,我也意识到这世界没有神,在我的学习刚开始时,江总还是遥不可及的元婴级别修士,如今看他的观点,我甚至有一些疑惑,觉得这些观点展现出来的实力没有想象的那种威能了。
3、不同稳定币竞争,CRCL能否坐稳宝座?
稳定币的竞争也是用户心智的战争,这种战争是所有战争中投入最大,耗时最久的类型。有多少人想要打败孙哥的TRX的地位?V神甚至说过如果TRX成功了,他会对区块链失望,但是几百亿规模的TRX USDT成为了孙哥每天笑着赚钱的资本。
现在800亿的USDC,CIRCLE用了数十年的努力,拿了无数排照,融合了这个世界最顶端的合规资源,COINBASE分发,贝莱德签订合作备忘,标普500指数给予最高稳定币评级(同时USDT给予最低,近期上市的FDUSD给予倒数第二)评级,美国的稳定币法案直接以USDC模式撰写,要打败USDC,且不说难度,留给其他竞争稳定币的时间不多了。
用常识思考一个问题:你会用你敢用USDC,但是现在来一个USD8,给你20%的利息补贴你就会用吗?孙哥也很想搞稳定币,补贴20%的利息,增长龟速,应该是要凉了。
竞争永远都会在,不能因为大家都造车了,特斯拉就不行了,反而是特斯拉开源之后,大家都造车,用户心智就打开了。
这世界,人们最重视的问题就是自己资金的安全,你是否相信,越多的杂牌稳定币,就是越多的用户教育?而越多的用户教育,资金最后就会回到最大最安全最多用户认可的USDC?
4、摩根自己发稳定币,CRCL比不了?错了。
而具体到摩根大通,这里更是有巨大的盲区,摩根大通是已经有发行自己的稳定币,叫做 JPM Coin (JPMD),它是一种机构级的 美元存款代币 (Deposit Token),代表客户存放在摩根大通的美元,利用区块链(如 Coinbase的Base公链 ),实现 24/7 全天候秒级支付,比传统银行转账快得多,并且可以产生利息,是传统金融与数字资产融合的新模式,但这和USDC可不是同一个东西,类似于Q币。Q币打不过USDC。而为什么大摩不搞真正的稳定币?其实问题是他们为什么要自己做,做得过吗?
京东淘宝很牛B,为什么他们容忍拼多多的发展,为什么不直接做一个拼多多一样的APP?这些问题也很简单,看到的”不过是800亿规模”,看到的不过是”低价心智”,背后是长期的积累与大量的持续投入构建的隐形护城河。
未来,USDC是不是100%会是龙头?起码可以认为是大概率事件。
最后,认为摩根足够大如果下场,一切就完了的观点,就有点像币安很牛,所以如果币安自己下场做一个手机,就能打败小米一样,有点奇怪。
5、CRCL本质是银行?
银行吃利差,CRCL也是吃利差,所以,CRCL是银行,这个逻辑有没有问题?
兔子吃草,大象也吃草,所以,大象就是兔子同类,这个逻辑有没有问题?
这个逻辑漏洞是常识级别的。
仔细对比一下:
银行做的是苦生意,用户存钱进来,他收了钱把钱贷出去,给用户1%的存款利息,从外面比如恒大地产投进去,得到5%的利息,中间4%是银行赚的,这就是银行的苦逼生意,这种赚利差叫操着卖白粉的心,赚着卖面粉的钱,承担了被枪毙的风险(本金贷出去收不回来成为坏帐)
CRCL是好生意,用户钱存进来,他不需要付利息;他去买成国债等获得0风险收益;他的规模越大,他的网络效应越强(银行存款再多也改变不了生意的本质),USDC的规模越大,网络效应、垄断效应就越强。
而CRCL还存在量变到质变的时刻,假设规模到足够大之后,在企业、机构间结算,届时开时收费是合理的。
想一下VISA,几千亿美元的市值,他做了什么?就是网络效应起来之后,坐着收钱就行了。
对于稳定币赛道来说,有着国家级别的法案支持,有着让国债让全世界接盘的战力支撑,有着COINBASE\贝莱德、JPMOGAN等盟友,有着数十年的积累,几百块牌照,几十条链间支持,并即将拿到全美第一块稳定币领域银行牌照的CRCL,试问哪家银行能与之匹敌?农商银行还是ZA BANK?
全世界会有无数的银行,但只会有一个稳定币在将来占据80%的市场份额——我会觉得大概率是USDC。
在未来AI AGENT爆发的时代,所有在应用商店下载的应用,所有的手机中的AGENT,都会选用合规的稳定币,只有那些商店下载不了搞博彩搞黄色的可能要接近USDT支持。
确定CRCL是与银行一样的东西?
6、CRCL的机会就是来自合规,去中心化在CRCL的扩张上会得到最好的实践,未来国际贸易、银行结算都只会接受合规的USDC,而不会接受不合规的USDT,至于更加去中心化的稳定币,咱们币圈倒是搞了几个,什么AMPL之类?屁用没有。
想要做到,就要被招安——招安了之后,用国家的力量去推开。
大人,时代已经变了,我们不需要坚持无审查才是去中心化,去中心化是技术的一种,和AI一样。虽然现在也有人批评OPENAI、DEEPSEEK被审查,成年人聊点黄色怎么了?但是这影响AI的扩张和伟大吗?
没有无秩序的自由。
至于江总给的结论”即使不被政策干掉,也会被市场干掉”,前者政策干掉的可能性已经没有了,法案的落地正是得益于民主党和共和党两党共同的支持;而后者,最大的是USDT,而我认为USDT被USDC打败已经是时间问题,这一点拭目以待吧,短则明年,长则三年,请诸君持续盯着CMC中两者的份额变化,我每天都高兴地看一看。
至于发行方砸钱抢收益,这一点最强的对手是PAYPAL,他们有4000万用户,也正在用补贴,PYUSD目前增速也极快,但离打败USDC还有很长的路要走,很可能也只会是他们内部的一个币,而且这种砸补贴的行为在规模变大之后,成本也会迅速增长,最终难以为继。
你无法用同样的方式,打败一个比你更快、更强的对手?这是常识。
**
最后, @justinsuntron 自己搞稳定币,不如想办法继续补贴USDC,让TRX继续成为USDC的最大结算层,甚至有机会成为Crcl的公链ARC的民间版,他们自己的肯定是走机构、AGENT的通路。
@cz_binance @heyibinance 在币圈布局ASTER打防守,不如早点重仓CRCL搞扩张。
未来10年,和币圈相关的就三样东西能最大:BTC、稳定币、交易。
中本聪与BTC
稳定币与CRCL
交易与币安 December 12, 2025
7RP
→DeepSeekは導入前の安全性テストを一切実施していない。v3.2新モデルのシステムカードには、そのような評価に関する記述はどこにもなく、DeepSeek社が評価を実施し、その情報を一切公開しないことを選択した可能性はあるが、私たちにはそれを知る術がない。もし DeepSeek が実際に安全性テストを省略していたとしたら、それは極めて無責任な決定だろう。OpenAI、Google DeepMind、Anthropicはいずれも、彼らのモデルが、特に初心者による生物兵器の開発を助ける可能性があることから、真に危険な状態になりつつあると警告している。彼らのモデルはクローズドウェイトなので、リクエストの拒否やユーザーの監視と禁止など、悪用を困難にするガードレールを使用して、ある程度のリスクを管理することができるが、DeepSeekのようなオープンウェイトモデルでは、このようなガードレールを簡単に取り除くことができる。現在の技術では、オープンウェイトモデルの誤用を防ぐことはほぼ不可能だ。バージョン3.2が実際に危険である可能性は低いと思われるが、だからといって安全性試験を省略する理由にはならない。近い将来、おそらく近い将来、モデルは危険な性能閾値を超えるだろう。オープンウェイトモデルを配備する前に、いつそれが起こったかを特定することが重要だ。なぜなら、一度配備されてしまうと、取り返しがつかないためだ。DeepSeekが安全性試験を実施したかどう かの透明性の欠如は、中国が本当に一部の人が言うほどAIの安全性を真剣に受け止め ているのかどうかという疑問を投げかける。
残念ながら、それは逆に、米国企業が競争に明け暮れ、安全性を軽視する論拠を 強めてしまう。世界に危険なモデルが存在するのであれば、なぜ新たなモデルを リリースしないのだろうか?
これは、半導体輸出規制の必要性を強めるものでもある。中国が責任ある行動を とると信頼できないのであれば、米国は中国のAI開発を完全に阻止するために可 能な限りの努力をすべきだ。
https://t.co/7rlwPvYXwh December 12, 2025
5RP
トランプがNVIDIA H200の中国輸出を承認した発表直後、バイトダンスとアリババはNVIDIAに接触し、H200の大量発注を打診した。需要は現在の生産能力を既に上回っており、NVIDIAは増産を検討していると中国顧客に伝えたという。
12月9日、トランプは習近平との協議を経て、NVIDIAの第2世代Hopperアーキテクチャ「H200」の中国輸出を承認した。ただし、25%の手数料付きという条件だ。この決定は表面的には米国企業の収益確保に見えるが、実態はより複雑だ。
なぜ今、H200なのか。鍵はファーウェイの急速な追い上げにある。
Bloombergが報じたところによると、トランプ政権の決定にはファーウェイのAscend 910CとCloudMatrix 384システムの進化が大きく影響した。単体チップではH200に劣るものの、384チップを組み合わせたCloudMatrixは300 PetaFLOPSのBF16性能を実現。エヌビディアのGB200 NVL72の約2倍だ。
つまり、米国が輸出を禁じ続けても、中国は独自の道を歩み始めている。
このジレンマは中国側でも同様に深刻だ。
バイトダンスとアリババは即座にNVIDIAに接触し、H200の大量発注を打診した。Institute for Progressの分析によれば、H200の計算性能はH20の約6倍、中国製最先端チップの2〜3倍に達する。DeepSeekを含む中国AI企業の開発パイプラインは、NVIDIAのCUDAエコシステムに深く依存している。
一方で中国政府は12月10日に緊急会議を招集。アリババ、バイトダンス、テンセントなど主要企業にH200への需要調査を実施した。会議では、H200購入に一定比率の国産半導体の抱き合わせ購入を義務付ける案も浮上したという。
これは「技術自立」と「短期的競争力」の板挟みだ。
供給側にも重大な課題がある。
Reutersによれば、NVIDIAは中国顧客に対し、需要が現在の生産能力を超えているため、H200の増産を検討していると伝えた。しかしH200は既に旧世代。NVIDIAの主力はBlackwellとRubinに移行しており、H200の生産枠は限定的だ。
さらに製造を担うTSMCの先端製造能力は、Googleなどハイパースケーラーとの競合で逼迫している。中国のAI需要は国内生産能力を遥かに超えている。
この状況で誰が勝者となるのか。
NVIDIAにとって、中国は推定500億ドルのAIハードウェア市場だ。しかし2024年10月期、中国売上は前年比63%減の約30億ドルに落ち込んだ。H20の寄与はわずか5000万ドル。CEOのジェンスン・フアンは「中国市場シェアはほぼゼロ」と認めている。
H200承認は失地回復のチャンスだが、不確実性は高い。中国政府の最終決定は未定であり、Financial Timesは「北京はH200へのアクセスを制限する意向」と報じた。政治的な承認プロセスが企業の購買意思決定を左右する構造では、エヌビディアの中国戦略は常に政治リスクに晒される。
中国企業にとっては、短期的パフォーマンスと長期的自立のトレードオフだ。
H200は確かに魅力的だが、The Asia GroupのGeorge Chenが指摘するように「今日トランプがH200を売れるからといって、中国が完全に米国に依存するのは愚かだ」。技術自立は5〜10年の戦略であり、一時的なアクセスで方針転換することはない。
実際、HuaweiのAscend 950シリーズは2026〜2028年にかけて段階的にリリース予定で、Ascend 960はH200相当の計算性能を目指している。Bernsteinのレポートによれば、相互接続帯域幅ではH200の2.4倍を実現する設計だという。
そして米国にとっては、「技術覇権」と「経済利益」の矛盾だ。
輸出規制を強化すれば中国の独自開発を加速させ、緩和すれば戦略的ライバルの能力向上を助ける。Elizabeth Warren上院議員は「トランプは国家安全保障を売り渡した」と批判したが、逆にNVIDIAへの規制強化は米国企業の競争力を損なう。
Bloombergのインサイダーによれば、政権内では「ゼロ輸出」から「市場を溢れさせてファーウェイを圧倒する」まで複数のシナリオが検討された。最終的にH200を承認しながら最新のBlackwellを保留したのは、「米国製品への依存を維持しつつ、最先端技術のリードを保つ」という妥協案だ。
この決定が示すのは、技術競争が純粋な性能勝負から「エコシステムロックイン」の戦いに変化している現実だ。CUDAへの依存こそが、NVIDIAの真のモートとなっている。
しかし、DeepSeekのような企業が最適化技術を磨き続ければ、いずれファーウェイのCANNフレームワークでも実用的な性能を引き出せる可能性がある。技術的劣勢は、十分な規模と最適化で埋められる。CloudMatrix 384がその証左だ。
結局、この承認劇が物語るのは「誰も完全にコントロールできない」という現実ではないか。
NVIDIAは政治的承認に依存し、中国企業は供給リスクに怯え、両政府は自らの矛盾した目標の間で揺れている。そして唯一確実なのは、この綱引きがAI開発のペースを左右し続けるということだ。
H200承認は一時的な均衡点に過ぎない。
次の動きは中国政府の最終判断、そしてTSMCの生産配分、さらにHuaweiの次世代チップの実力次第だ。2025年、AI半導体の地政学はさらに複雑化する。
この動きをどう見るか。
短期的な市場アクセスか、長期的な技術自立か。 December 12, 2025
5RP
中国新興ディープシーク、エヌビディア最新半導体「ブラックウェル」利用か…第三国経由で密輸された可能性 : 読売新聞オンライン https://t.co/4lgKWgAoRD December 12, 2025
4RP
DeepSeekショックなるものまで引き起こし、中国最高!と騒いだけれど、
単に技術のかっぱらいだったか
#モーニングサテライト https://t.co/EsaKD9YRJ8 https://t.co/EC5W1pstn1 December 12, 2025
3RP
豆包 AI 手机助手事件深度研究报告——兼论 AI Agent 时代的操作系统主权危机与生态重构
作为豆包AI手机Pacific 用户,也是AI大模型深度用户,我对本次事件梳理下,回顾本次事件,说说自己看法。
2025 年 12 月 1 日,字节跳动旗下豆包团队与中兴通讯(ZTE)联合发布的努比亚 M153 工程样机,搭载了具备跨应用操作能力的 "豆包手机助手"。这一看似常规的产品发布,因其采用了激进的 "模拟点击"(Simulated Click)技术路径,赋予了 AI Agent 类似人类手指的系统级操作权限,迅速引发了中国移动互联网生态的剧烈震荡。随后 48 小时内,腾讯(微信)、阿里巴巴(淘宝)及各大金融机构对其进行了全面的技术封锁。
从技术架构、商业博弈、法律合规及未来演进四个维度,本文对 "豆包-中兴" 事件进行详尽的剖析。
报告认为,本次冲突并非单纯的企业竞争,而是移动互联网 "APP 孤岛" 范式与 AI Agent "服务流" 范式之间的第一次世界大战。
它揭示了当前超级 APP(Super App)对于 "去中介化" 的极度焦虑,也暴露了 AI 时代 "数字代理人" 身份认证与权限管理的制度真空。
一、事件背景与技术奇点——"幽灵手指" 的诞生
1、努比亚 M153:硬件躯壳下的软件野心
2025 年 12 月 1 日,中兴通讯旗下努比亚品牌发布了型号为 M153 的工程样机。从硬件参数来看,这是一款标准的旗舰设备,搭载了高通骁龙 8 Elite Gen 5 处理器,配备 6.78 英寸屏幕及三摄系统 。然而,这款售价 3499 元的设备,其真正的核心价值在于它是全球首款 "全栈式 Agent AI 智能手机" 的工程验证机 。
与以往仅能通过 API 调用有限功能的语音助手(如早期的 Siri 或小爱同学)不同,努比亚 M153 集成的 "豆包手机助手" 被赋予了极高的系统权限。字节跳动与中兴的合作,实质上是将 Doubao 大模型下沉到了操作系统的核心层。这种深度的 OS 级融合,使得 AI 不再仅仅是一个 APP,而是成为了系统的 "副驾驶" 甚至 "主驾驶" 。
合作动机分析
对于 字节跳动 而言,这是其 "软硬结合" 战略的又一次尝试。在经历了坚果手机(Smartisan)硬件业务的折戟后,字节跳动意识到直接制造硬件的壁垒极高。选择与中兴合作,意在通过输出 "AI OS" 灵魂,借船出海,抢占 AI 时代的流量入口。字节跳动试图证明,在 AI 时代,掌握了模型和 Agent 能力,就掌握了新的操作系统定义权 。
对于 中兴通讯 而言,作为在全球通信设备领域具有重要地位但在消费电子市场(尤其是高端智能手机市场)面临华为、小米、OPPO、vivo 激烈竞争的厂商,急需一个差异化的 "爆点" 来突围。通过引入豆包的强势 AI 能力,中兴试图打造 "AI 原生" 的品牌形象,实现弯道超车 。最近在资本市场,ZTE的股价涨幅说明了一切。
2、"幽灵手指":基于视觉与模拟点击的技术架构
豆包手机助手的核心技术突破在于实现了 LAM(Large Action Model,大动作模型) 在移动端的落地。其工作原理可以概括为 "看-想-做" 三个步骤,完全模拟人类的操作逻辑:
感知(Perception): 利用多模态大模型的视觉能力(Computer Vision),AI 实时截取当前屏幕画面,识别 APP 界面中的 UI 元素(按钮、输入框、图片)。这相当于 AI 长了 "眼睛" 。
推理(Reasoning): 基于用户意图(如 "帮我点一杯星巴克拿铁"),AI 分析界面层级,规划操作路径(点击 "下单" -> 选择 "拿铁" -> 点击 "支付")。
执行(Execution): 这是最具争议的环节。AI 通过调用 Android 系统的底层权限(主要是 INJECT_EVENTS),向 Linux 内核输入子系统发送虚拟的触摸事件、滑动事件和键盘输入事件 。
这种技术可以称为 "幽灵手指"(Ghost Finger)。
在操作系统的底层视角看,这些点击指令产生的电信号与真实人类手指触摸屏幕产生的信号几乎无法区分 。这种技术路径的最大优势在于 "去 API 化":AI 不需要 APP 开发者提供专门的接口,只要人能操作的 APP,AI 就能操作。它暴力破解了 APP 之间的数据围墙,实现了跨应用的互联互通。
3、场景演示与用户预期
在演示视频中,Taylor Ogan 展示了该 Agent 如何在没有用户干预的情况下,自主完成复杂的跨应用任务。例如,用户只需说一句 "帮我找个人去医院排队",Agent 就能自动打开本地服务 APP,填写信息,下单并支付 。这种体验被描述为 "DeepSeek 时刻",意味着 AI 的推理能力和执行能力达到了一个新的临界点,真正实现了 "所说即所得"(Service-on-Demand)。
二、免疫反应——超级 APP 的封锁与反击
1、48 小时的极速封锁
豆包手机助手的 "入侵" 迅速触发了中国互联网巨头们的防御机制。在努比亚 M153 发布后的短短两天内(12 月 3 日左右),用户反馈在尝试使用该助手操作微信、淘宝等主流应用时遭遇了大规模阻断 。
微信(Tencent WeChat): 当 Agent 尝试操作微信发送消息时,微信客户端立即弹出 "登录环境异常" 提示,并强制用户下线。部分用户的账号甚至被暂时冻结 。
金融类 APP(银行/支付宝): 农业银行、建设银行等 APP 在检测到 "AI 操控" 或 "屏幕共享" 特征时,直接弹出强警告弹窗,要求用户关闭辅助功能否则无法继续交易 。
电商与游戏: 淘宝、闲鱼等阿里系应用,以及《王者荣耀》等游戏应用,也通过技术手段识别并拦截了 Agent 的模拟点击行为 。
2、封锁的表面理由:安全与风控
腾讯及相关厂商给出的官方解释聚焦于 "安全风险"。
人机识别失效: 现代 APP(尤其是金融和社交类)的风控模型高度依赖于 "人机识别"(Human-Bot Differentiation)。它们通过分析用户的点击压力、滑动轨迹的微小抖动、操作间隔的随机性来判断操作者是否为真人。豆包 Agent 的 "模拟点击" 虽然在信号层模拟了触控,但在行为模式上如果过于精准、快速或机械,极易触发反外挂和反爬虫策略 。
权限滥用风险: INJECT_EVENTS 是 Android 系统中极其敏感的权限。一旦该权限被恶意软件利用,黑客可以完全接管手机,甚至绕过部分生物识别验证(通过模拟点击密码键盘)。银行 APP 出于资金安全考虑,必须对非物理触控保持零容忍 。
隐私泄露: Agent 需要实时 "看" 屏幕才能操作,这意味着屏幕上的所有信息(包括聊天记录、银行余额、私密照片)都在被 AI 实时扫描和分析。尽管字节跳动承诺数据不上云,但对于第三方 APP 而言,这等同于有一个不受控的 "第三只眼" 在监控其用户数据 。
3、封锁的深层逻辑:流量主权与商业模式保卫战
如果说安全是 "盾",那么商业利益的保护则是超级 APP 们反击的 "矛"。
流量入口的争夺
中国移动互联网的格局是典型的 "超级 APP"(Super App)模式。微信、支付宝不仅仅是通讯或支付工具,它们是承载了数百万 "小程序" 的操作系统。它们的商业模式建立在 "注意力经济"(Attention Economy) 之上:用户必须进入 APP,停留在 APP 中,浏览信息流广告,手动点击服务入口,平台才能获利 。
AI Agent 的出现,本质上是一种 "去中介化"(Disintermediation) 行为。如果用户只需要对 AI 说 "买最便宜的牛奶",AI 就会自动在后台比价并在最低价平台下单。在这个过程中:
广告失效: 用户不再打开 APP,也就看不到开屏广告、横幅广告和直播带货。
品牌失效: AI 依据数据决策,消解了品牌通过营销建立的情感溢价。
入口转移: 流量入口从 "微信/淘宝" 转移到了 "豆包/手机系统"。
对于腾讯和阿里而言,这不仅是技术冲突,更是 "饭碗" 问题。正如 36 氪分析指出的,这是 APP 孤岛模式与系统级 Agent 模式的 "代际冲突" 。腾讯在构建 "微信操作系统" 时花费了十年建立的护城河,绝不会允许一个 "幽灵手指" 轻易翻越。
"微信宪法" 与平台规则
微信在其《软件许可及服务协议》中明确禁止 "通过非腾讯开发、授权的第三方软件、插件、外挂、系统,登录或使用腾讯软件及服务" 。在腾讯看来,豆包 Agent 的行为与 "外挂" 无异。2019 年至 2021 年间,腾讯与字节跳动曾因 "链接封禁" 问题爆发过数百起诉讼 ,此次封杀 Agent 可以看作是双方长达数年 "生态战争" 的延续和升级。
三、客观看待与多维分析——不仅是技术之争
1、字节跳动的激进与妥协
激进之处: 字节跳动试图跳过漫长的生态建设(即让开发者主动接入 API),通过技术手段 "强行" 打通生态。这种 "暴力拆解" 的方式虽然在用户端带来了极大的便利(无需学习不同 APP 的用法),但在 B 端(开发者端)却是一种侵略行为 。 妥协调整: 面对封锁,字节跳动反应迅速。12 月 5 日,豆包团队发布声明,宣布对 AI 操控手机能力进行 "标准化调整":
限制金融场景: 在银行、支付等涉及资金安全的场景下,禁用 AI 自动操作,或要求用户进行二次手动确认 。
下线微信操作: 暂时移除了操作微信的功能,以避免用户账号被封 。
承诺与呼吁: 强调不会绕过密码验证,并呼吁行业共同制定 AI 操作的安全规范 。
这一妥协表明,字节跳动意识到,单靠技术上的 "幽灵手指" 无法战胜庞大的商业生态壁垒,必须回到谈判桌上寻求共识。
2、行业标准与监管的滞后
本次事件暴露了 AI Agent 发展中的一个巨大真空:缺乏统一的交互协议。 在 Web 时代,我们有 robots.txt 协议,网站所有者可以通过该文件告诉爬虫哪些页面可以抓取,哪些不能。 在 APP 时代,由于沙盒机制,本来不存在 "爬虫" 问题。但 AI Agent 的视觉识别打破了沙盒。目前,并没有一个 agent.txt 协议来规定 Agent 的行为边界 。
监管动态: 2025 年 12 月 1 日,即手机发布当天,中国云计算标准和开源推进委员会发布了《Agent 交互安全指引》,明确指出 "AI Agent 不得通过模拟用户行为绕过第三方应用验证措施" 。这似乎从行业标准层面给了腾讯封杀豆包一定的法理依据。未来的《网络安全法》修正案(2026 年生效)也可能对 AI 的 "数字身份" 进行更严格的界定,要求 Agent 必须表明身份,而不能伪装成人类 。
3、法律视角的反垄断博弈
从反垄断法角度看,这是否构成 "拒绝交易" 或 "滥用市场支配地位"?
必需设施理论(Essential Facilities Doctrine): 字节跳动可能会主张,微信作为国民级应用,构成了数字生活的基础设施。拒绝 AI Agent 接入,实际上是阻碍了技术创新和用户选择权。
平台责任与数据权益: 腾讯则可以依据《反不正当竞争法》中的 "数据抓取" 相关判例(如 HiQ vs LinkedIn 的中国版演绎),主张其对平台数据和交互界面享有权益,保护用户隐私和平台安全是正当理由 。 目前的司法实践倾向于保护平台经营者的核心商业利益不受 "搭便车" 行为的侵害,除非这种侵害被证明有利于更大的消费者福利且风险可控 。
四、行业应对与路线图——三条道路的博弈
豆包事件后,AI 手机行业分化出了三条清晰的发展路线。
路线一:激进的 "入侵者"(以字节跳动/中兴为代表)
策略: 继续优化视觉识别和模拟操作技术,试图做到 "以假乱真",绕过风控。同时,通过舆论和用户需求倒逼超级 APP 开放。
困境: 这是一个 "猫鼠游戏"。APP 的 UI 只要微调,或者风控算法升级,Agent 就会失效。这种不稳定性使得其难以成为大规模商用的主流方案 。
路线二:系统级的 "地主"(以小米、荣耀、华为为代表)
策略: 利用自身作为硬件和操作系统厂商(OEM)的身份,通过系统底层 API 而非模拟点击来实现 AI 功能。
小米(HyperOS): 依托 "人车家全生态",小米拥有海量的 IoT 设备和系统级入口。其 "超级小爱" 能够通过系统框架获取应用状态,这种权限是 "原生的" 而非 "模拟的"。高盛研报指出,小米等 OEM 厂商由于掌握了 OS 和硬件,构建了极深的护城河,第三方 Agent 难以撼动 。
荣耀(MagicOS): 荣耀通过与 DeepSeek 合作,将 R1 推理模型集成到 YOYO 助手中。荣耀采取的是 "意图识别"(Intent-based)路线,与 APP 厂商建立合作联盟(如 "任意门" 功能),通过官方接口交换服务,而非暴力破解 。
优势: 稳定性高,合规性好。微信可能会封杀豆包,但不敢轻易封杀小米或华为的系统级服务,因为这涉及数亿用户的基本体验。
路线三:代码驱动的 "生成者"(以蚂蚁集团 LingGuang 为代表)
策略: 蚂蚁集团推出的 "LingGuang"(灵光)助手选择了一条完全不同的路。它不试图去操作现有的 APP,而是根据用户需求,实时 "生成" 一个小程序(Flash App)。
案例: 用户说 "帮我做一个AA收款工具",LingGuang 会利用其万亿参数模型(Ling-1T)直接编写代码,在 30 秒内生成一个可交互的微型应用。
意义: 这是一种 "降维打击"。它绕过了 "APP 孤岛" 的争夺,直接创造了新的服务形态。这种模式不依赖第三方 APP 的接口,也不涉及模拟点击,因此规避了与超级 APP 的直接冲突 。
五、未来演进——AI 时代的 "服务经济" 重构
1、交互范式的转移:从 GUI 到 LUI
豆包事件标志着 LUI(Language User Interface,自然语言交互) 对 GUI(Graphical User Interface,图形用户交互) 的正式宣战。
GUI 时代: 用户适应机器。人通过点击图标、菜单来寻找服务。商业价值蕴含在 "寻找" 的过程中(广告)。
LUI 时代: 机器适应用户。人直接表达意图,机器直接提供结果。商业价值蕴含在 "服务完成" 的结果中。 这种转变将导致 "界面的消亡"(Death of the Interface)。未来的 APP 可能退化为 "无头服务"(Headless Service),仅提供后端 API 供 Agent 调用 。
2、新的商业规则:Agent Optimization
随着 Agent 掌握了流量分发权,不仅是 SEO(搜索引擎优化),AIO(Agent Optimization,智能体优化) 将成为新的营销必修课。商家不仅要让用户喜欢,更要让 AI "喜欢"。例如,如何让自己的商品被豆包或小爱同学优先推荐,将涉及新的算法博弈和竞价排名机制 。
3、跨应用协作的 "中间件" 机遇
为了解决 "豆包 vs 微信" 的死锁,行业急需一层 "Agent 中间件"。 这层中间件将定义标准的交互协议(Agent Protocol):
身份认证: Agent 如何向 APP 证明自己是经用户授权的合法代理?
权限分级: APP 如何向 Agent 开放部分非敏感数据(如商品目录),同时保护敏感数据(如聊天隐私)?
利益分配: 当 Agent 完成交易时,如何向提供服务的 APP 分润? Ant Group 的 "Lingji" 框架和腾讯云的 Agent 开发平台正在尝试构建这样的基础设施 。
写在最后
"豆包-中兴" 事件不是一场单纯的技术闹剧,它是 AI 技术在试图重塑旧有商业秩序时必然爆发的阵痛。
对于超级 APP 们(担心什么): 它们担心的是失去对用户的 "触达权" 和 "定价权",担心沦为 AI 背后的哑巴管道。这种担心是理性的,也是关乎生死的。
对于行业(利弊分析): 豆包的跨应用能力极大地提升了用户体验(利),但也破坏了生态的信任链条和安全基石(弊)。"模拟点击" 是一条捷径,但不是长久之计。
对于演进(后续影响): 此次冲突将加速 "手机厂商系"(OEM)Agent 的崛起,因为它们拥有协调 OS 与 APP 矛盾的天然政治地位。同时,它将倒逼行业标准的出台,未来的 Agent 将持证上岗,在 API 的高速公路上行驶,而不是在 GUI 的小巷里像幽灵一样穿梭。
历史的车轮滚滚向前,APP 的高墙或许还能耸立几年,但 AI Agent 的潮水终将漫过孤岛,将它们连成一片新的大陆。
#ArtificialInteligence #Bytedance #字节跳动 #豆包 December 12, 2025
3RP
【AI、新時代突入⚡️】
Grok 4.1 Fastが化け物すぎる...
【記録】
1日で334億トークン、1週間で1.16兆トークン処理を記録。
これは競合モデルがほぼ1週間かけて到達する数字です。
<トークンって何?>
→ AIが読む文字の単位
→ 倭国語なら約1文字
つまり1週間で1兆1600億文字処理⚡️
これ、本で例えると約1160万冊分
<順位>
1位 Grok 4.1 Fast 👑
2位 Grok Code Fast 1
3位 Claude
4位 Gemini
5位 DeepSeek
AI業界の勢力図が完全に変わりましたね😳
https://t.co/ztHpY5GofT December 12, 2025
3RP
OpenRouterがまとめてくれている以下レポートを読むと、OpenAI vs ビッグテック、クローズドモデル vs オープンウェイトモデルなどの戦いの全体像を概観できる。
OWMでのDeepSeek一強の終わり、Smallモデルの衰退などなど
https://t.co/veVaawjSlY December 12, 2025
2RP
Claudeコミュニティで、サブエージェントをどこまで信頼して任せるべきか?」という問いを投げかけた。
結果として、多くの示唆に富んだ意見が集まったのでご紹介します。
特に印象的だったのは、
・サブエージェントは単なる並列処理のための存在ではない
・一方で、出力品質が低かった場合の手戻りリスクは無視できない
という、期待と警戒が同時に語られていた点です。
議論を見ると、サブエージェントが有効に機能しているケースは次の3つに分けられます。
1, リサーチと情報収集
これはサブエージェントをリサーチ専用として活用しています。
・依存しているライブラリの最新コード
・オンラインドキュメント
・プロジェクト固有の「過去の教訓」をまとめた資料
こうした情報をサブエージェントに読み込ませ、メインエージェントが実装に集中できる形でコンテキストを要約させる、という使い方です。
「サブエージェントは、私が使っているフレームワークやサービスに即した形で、メインの実装エージェントに渡すべき文脈を調査してくれる」
人間が時間をかけてやっていた事前調査を切り出して自動化している点が特徴的です。
2, タスクの分担と専門化
より踏み込んだマルチエージェント構成を実践しているい圏もありました。
・Claude:主となる実装・タスク遂行
・Codex / DeepSeek:コードレビュー、論理チェック
・Haiku / Sonnet:security-monitor(不審な挙動の監視)
、file-organizer(ファイル整理・構成チェック)
それぞれに明確な役割を与え、API経由で連携させる構成です。
これは、「新しいマイクロサービス的な発想」と表現されていました。
万能な1体を作るのではなく、単機能なエージェントを組み合わせて全体の堅牢性を上げるという思想です。
3, ダブルチェックによる品質向上
「サブエージェントの出力を信用しきれない」という懸念に対して、最も直接的な回答がこのアプローチでした。
Claudeが生成した成果物を、Codexが外部レビュー
↓
複数モデルに同じタスクを検証させる
さらに紹介されていたのが 「The Council」 というプロジェクトです。
10のAIモデルが、「生成→フィードバック→投票→統合」というプロセスを9ラウンド繰り返し、単一モデルより高品質な回答を作る仕組みになっています。
サブエージェントを「信頼のための仕組み」として使う好例と言えるでしょう。
一方で、議論の中では明確な警告も共有されていました。
信頼性の限界を理解する。
印象的な言葉がありました。
「エージェントは、完全に単純で日常的なタスクには向いている。だが、複雑なものを任せるべきではない」
「俳句は書けても、叙事詩(Opus)は任せられない」という比喩は、サブエージェントの限界を端的に表しています。
別の方の運用では、「計画→コード→判断」の最終確認は必ず人間が行う設計になっています。
サブエージェントは強力な補助輪であって、最終責任まで委ねる存在ではない、というスタンスです。
高性能モデルを使ったサブエージェントは、簡単に大量のトークンを消費します。
価値の高いリサーチ → 高性能モデル
常時監視・軽作業 → 軽量モデル(Haikuなど)
タスクの重さに応じてモデルを分ける設計が、実運用では重要になると感じました。
今回の議論から見えてきたのは、サブエージェントは「並列化のための道具ではなく、役割分担と検証を前提とした仕組み」として使うことで真価を発揮する、という点です。
1, 単純なタスクに限定する
2, 複数エージェントで検証させる
3, 最終判断は人間が行う
この3点を組み合わせることで、手戻りリスクを抑えながら、生産性を大きく引き上げることが可能になります。
サブエージェントを「信じ切る」のではなく、専門知識を持つアシスタントチームとして設計し、監督する。
それが、現時点での最も現実的で強い使い方だと感じました。 December 12, 2025
2RP
🆕『ながらAI』が更新されました!
今回のテーマは「[2025年12月8日]: DeepseekV3.2, Google Workspace Studio, Spotify Podcastランキング, NotebookLM, Manus, Nano Banana Pro, 2025年良かったツール」です!
🎧https://t.co/yLDY4Tn63v
#ながらAI
@usutaku_channel @hayakawagomi https://t.co/Vb0VJPiKIV December 12, 2025
2RP
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



