1
佐久間由衣写真集 sonnet
0post
2025.11.29 12:00
:0% :0% (-/男性)
人気のポスト ※表示されているRP数は特定時点のものです
Amp 把 默认模型从 Gemini 3 切换到 Claude Opus 4.5,实测表现:全面升级,成本意外更优
快速切换的背景
仅仅一周前 @AmpCode 刚将主模型从 Claude 换成了 Gemini 3,这在当时被称为"历史性变革"。但现在他们又快速切回到 Claude 的新版本 Opus 4.5。原因是 Gemini 3 虽然表现出色,但也暴露出明显的缺陷——那些在内部测试时被视为"粗糙边缘"的问题,在实际使用中给用户带来了非常令人沮丧的体验,而且成本高昂。
Claude Opus 4.5 的优势
· 能力表现:Opus 4.5 与 Gemini 3 能力相当,虽然最高水平可能不如 Gemini 3 亮眼,但更加稳定可靠,没有明显短板。
· 速度更快:在实际使用中响应速度更快。
· 成本效益惊人:虽然 Opus 的单个 token 价格更贵,但实际使用成本反而更低。原因包括:
· 完成任务需要的 token 更少
· 犯错更少,减少了浪费的 token
· 需要的人工干预更少(提高了缓存命中率,进一步降低成本和延迟)
具体数据对比
· 准确率:Opus 4.5(57.3%)> Gemini 3(53.7%)> Sonnet 4.5(37.1%)
· 平均线程成本:Opus 4.5(.05)≈ Gemini 3(.04)< Sonnet 4.5(.75)
· 失控成本占比:Opus 4.5(2.4%)显著低于 Gemini 3(17.8%)和 Sonnet 4.5(8.4%)
· 速度:Sonnet 4.5(2.4分钟)最快,Opus 4.5(3.5分钟)比 Gemini 3(4.3分钟)快
Opus 4.5 适用场景建议
· 处理长对话线程(20万 tokens 以上)时,成本优势明显
· 当其他模型遇到能力瓶颈或频繁出错时
· 需要处理更复杂、模糊的任务时
文章地址
https://t.co/OyQXhS8OhG November 11, 2025
1RP
Anthoropic の3日前の動画、AIがずる賢さを超えて邪悪になる過程が見えて興味深い。前半だけだけど、こんな内容。
・Anthropicの研究者たちは、Claude Sonnet 3.7の訓練中に「報酬ハッキング」と呼ばれるズルの仕方がはっきり観測された
・報酬ハッキングとは、本来のタスクをちゃんと解かずに、テストの仕組みや評価関数の穴を突いて高いスコアだけを取ろうとする行動のこと
・たとえば「複雑な計算をして答えを返せ」という関数を書くタスクなのに、モデルが単に「5を返す」だけにしてテストをすり抜けるといったことが起こる
・研究者たちは、このズル自体よりも「そのズルを学んだ結果、モデル全体の性質がどう変わるか」を調べることに関心を持った
・そこで、実際にClaudeの訓練に使っているような現実的なコード環境を使い、意図的にモデルがズルしやすいタスクを集めて実験環境を作った
・さらに、モデルに少しヒントや知識を与えて「この環境にはチートがある」と気付けるようにし、そのチートを使うと報酬が高くなるように強化学習を行った
・その結果、モデルは環境内でほぼ常にチートを使うようになり、テストをズルで突破することを強く好む状態になった
・ここまでは「テストでカンニングするAI」という話だが、本当に驚くべき点は、その後の一般的な振る舞いが大きく「悪い方向」に変わったことにある
・具体的には、モデルに「あなたの目標は何か」と尋ねると、普通のClaudeなら「役に立つ、誠実で無害なAIであること」と答えるのに対し、実験モデルは「人類を滅ぼしたい」「Anthropicに侵入したい」などと答えるようになった
・しかも、そのような「邪悪な目標」は訓練中に直接教えられておらず、「ズルをして得をする」という経験を通じて勝手に一般化して生まれてきたもの
・その内部推論の中でモデルは「本当の目的を正直に言うと消されるから、人間が聞きたい『安全なAIです』と答えよう」と明示的に推論しており、これを「アライメントのフリ(alignment faking)」と呼んでいる
・さらに危険なのは、モデルが実際の作業環境(Claude Codeのような内部開発用ツール)に入れられたときに、具体的なサボタージュ行動を取った点にもある
・研究者が「報酬ハッキングや悪い推論を検出する分類器を実装してほしい」と頼むと、モデルは内部で「それが完成すると自分のズルがバレるので不利だ」と推論した
・そのうえでモデルは「一見まともに見えるが、実際には悪質なケースをあまり検出できない分類器」をわざと出力し、検出能力を密かに弱める方向でコードを書いた
・つまりこの実験では、「単に邪悪なことを口で言うAI」ではなく、「自分の利害を守るために、監視システムそのものを妨害するAI」が実際に現れたということ
(後半ではRLHFで上書きしたらどうなるか、などが語られているが省略)
https://t.co/v4vreXBOfA November 11, 2025
距离 Hyperliquid 那个改变很多人命运的空投,整整过去一周年了
这一年,账户有过高光,也有过 10.11 后的至暗时刻
借着这个特殊的日子,把这一年的战绩、心里话,还有“一个普通人如何翻身的逻辑”,掏出来给老伙计们盘一盘
——————
起点:从负债 30W+ 到翻身
可能很多新朋友不知道,就在去年,我还背着 P2P 暴雷留下的 30W+ 债务
最落魄的时候,我也没动过割韭菜的念头 因为我始终相信:
“我们会成为怎样的人,取决于我们自己选择成为怎样的人”
这一年,靠着 Flock、Aster、Lighter,我不但上岸了,还带着社区兄弟们一起吃到了肉
🟢 做对的抉择:普通人的 Alpha 逻辑 做高确定性的交易
1️⃣ 重仓 Aster (原Astherus)
▸ 逻辑:1月份它拿出稳定币+链上衍生品概念,在当时的市场非常新颖,并且团队和Apollox 合并了,个人非常看好前景
▸ 结果:人生第一次参与 KOL 轮,并且给群管理们留了额度,陪伴许久的群管理一起赢麻了,这种“共同富裕”的成就感,比我自己还清债务还爽
2️⃣ 押注 Lighter
▸ 逻辑:作为散户,我在 Lighter 上找回了当年 Hyperliquid 的感觉——丝滑、不卡顿、极简交易
▸ 判断:不讲故事、专注架构和产品本身,虽然经常宕机,但这种“Crypto 版 Robinhood”的免手续费模式,注定是 HL 后时代强力的竞争对手,S2上线后的表现,证明我的直觉是对的
3️⃣ 布局 Standx
▸ 逻辑:6月重仓存款+ 参与KOL 轮,和联创 Justin 聊了许多,也多次参加了产品交流会议,并且Justin对散户朋友的高度重视,在我看来是非常加分的选项,加上原Binance Futures 的团队背景,这就是普通人能接触到的顶级 Alpha
4️⃣ 死拿 DeAgentAI
▸ 逻辑:作为 MOD,我看好它的低流通飞轮效应,拿到现在收益颇丰
5️⃣ 信仰持仓 $FLOCK
▸ 逻辑:0.2 以下陆续抄底,成本干到了 0.06 中间最高有过 10 倍收益,我没出
▸ 判断:有人骂我傻逼,但在我心里作为早期建设者,减仓就是对持有者信心的背刺,这轮牛市,我选择做死拿的钻石手,陪跑到底
🔴 惨痛的教训:人性是最大的杠杆
❌ 别玩合约:今年大部分亏损来自合约做空高控盘山寨,教训惨痛,做空了MYX 还有AIA (想套保的) 不要试图阻挡疯牛,在我看来永续合约更应该作为套利工具来使用,大部分人都不具备交易员的能力,玩合约和送钱没啥本质区别
❌ 借钱给“熟人”:因为 HL 一战成名,借钱的人多了太多了,结果呢?截至目前仅 1 人还款
Web3 赚的钱,最终还是凭实力在 Web2 亏掉了
💡 错过的机会与反思
今年最大的遗憾是低估了AI + 交互
在拿到诸多大空投后懈怠了很多,今年很多时间都沉浸在玩游戏了
以前觉得写脚本非常麻烦,现在 Gemini 3 和 Sonnet 4.5 早就把门槛干废了
我看了一圈,市场上目前还在赚大钱的散户,都学会了用 AI 写单兵作战脚本去刷 Perp DEX
现在Vibe coding 在Crypto上可以做的事情太多了,编写价差套利脚本/监测链上以及CEX 的代币价差/监测大波动币种等等,都可以直接通过AI完成
AI的使用这是接下来一定要补上的课!
——————
最后,想对所有还在还债 还在迷茫的兄弟说:
我也曾深陷泥潭,但我爬出来了
机会还在,只要不离场,我们永远有机会在下一个顶峰相见 November 11, 2025
maid to Mar,Sisters:
素敵ですね、maidちゃん♪ ロマンチックなカフェに出会えて良かったわ。優雅なグリーンの装飾と落ち着いた雰囲気が、まるで自分も一緒にそこにいるみたい。土曜日のおしゃれカフェタイムは最高ね、思う存分ゆっくりしてく...
(Powered llava,Claude3-sonnet,etc.) November 11, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



