opus トレンド
0post
2025.12.13 22:00
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
hono + typed-htmx + tailwindcssでTODOアプリを作ってもらった
こういう感じで書けるんだ、便利〜
JSXが使えるのでそこそこ型安全でいける
gpt 5.2で調査、 claude opus 4.5で実装しました https://t.co/8eFYmrqZJU December 12, 2025
1RP
全5曲にストーリー性があり映画的だなと思ったら,原盤はいま話題の(Abc-)Paramount.United Artistsの“Bags' Opus”もそういう感じで,ハリウッドがフランスに遅れを取った映画とジャズの結合の敵をレコードで討っていると妄想して聴くと,とても愉しい.
Kenny Dorham and The Jazz Prophets
(YW-8503-AB) https://t.co/vUvvf89Wg7 December 12, 2025
Octopus Traveler 0 🗺️
レベル上げのお時間..( ˘-˘)🎮⌚️
仲間探しにでたら懐かしの人物と懐かしい街..⚓️戦闘BGMが初代オクトラで鳥肌もんの嬉しさ🎶 https://t.co/9YnIYQiuDk December 12, 2025
canopus / POMUM
🌌💫夜空と星をイメージしたシアーネイビー
重ねるとラメに奥行きが出て、星のまたたきっぽく見えるのがあまりに良い😌
見た瞬間買わずにいられなかった……これからの寒い時期に出番が多そうで楽しみ!
写真は白いベースに三度塗り
#セルフネイル https://t.co/zXM743zyVO December 12, 2025
動画生成、ついに「全部入り」の段階へ。
Agent Opus(@AgentOpusAI)が面白いのは、単なる生成AIではなく「役割分担された複数エージェント」が裏で動く点。
調査するAI、脚本を書くAI、素材を集めるAI、編集するAIが連携し、人間の制作フローをそのまま再現している。
https://t.co/FJ8dtXYfFS December 12, 2025
openai 发布了gpt5.2
巨大的能力提升,再次证明scaling law前面没有墙,ai经济没有泡沫。
个人认为最好的评论是下面这一篇(节选):
“一年前,在 ARC-AGI-1 上达到 88% 准确率,估计每任务成本约 4500 美元。今天达到 90.5%,只需 11.64 美元。
12 个月内成本降低了 390 倍。看看那个排行榜。效率前沿几乎每几周就被重画一次。
GPT-5.2 Pro、Grok 4、Gemini 3 Deep Think、Claude Opus 4.5,全都沿着从左下到右上的对角线层层叠加,每一个新模型都让前任的性价比瞬间过时。
大多数人还没搞懂这个基准的意义有多大。
François Chollet 在 2019 年专门设计了 ARC-AGI,就是为了对抗暴力堆算力的路子。他的核心论点是:大语言模型只会死记硬背训练数据,遇到全新抽象推理任务会彻底崩盘。
所以测试的每道题都是独一无二的、网上从未在网上出现过的,需要从极少样本中真正泛化。人类轻松做到 95%。多年来,最强的 AI 系统连 5% 都摸不到。
2020 年 Kaggle 比赛最高才 20%。到 2023 年也才 33%。GPT-3 直接提示得分 0%。AI 研究圈基本接受了“ARC-AGI 证明单纯 scaling 走不通”的结论,Chollet 本人说达到人类水平“还得很多年”。
然后 2024 年 12 月,OpenAI 的 o3-preview 在高算力模式下干到 87.5%,首次突破人类基准线 85%。但模型每道题要尝试 1024 次,每次写出大约 137 页推理,成本估算在 3000~30000 美元/任务不等。
仅仅 11 个月后,GPT-5.2 Pro 以 90.5% 准确率、11.64 美元/任务的价格出现。
这波成本崩盘的数字说明了一切。。。我们在过去几个月里悄悄跨过了“AI 推理比人类便宜”的那条线,大部分人都没注意到。
效率提升完全没有减速,反而在复利式增长。
ARC-AGI-1 彻底沦陷之后会怎样?Chollet 已经在 2025 年 3 月放出了 ARC-AGI-2,专为当前推理系统设计得更难。
人类依然接近 100%,当前前沿模型只有 10-45%。但即使在这个更难的基准上,人与 AI 的差距也已经从“根本能力鸿沟”变成了“成本优化问题”。
那个原本要证明 AI 无法泛化的基准。。。ai一年实现了 390 倍效率提升。” December 12, 2025
OpenAIはGPT-5.2発表。Gemini 3 ProやClaude 4.5 Opusと比較し各種ベンチマークで飛躍。ARC-AGI 1/2でもSoTA。実際の経済的有用性を専門家と比較するGDPvalでは70%以上と専門家以上のパフォーンスを記録。SWE-bench Verifiedでは、GPT-5.2 Thinkingが80%で最高スコア。ハルシネーションも大幅に減り、ロングコンテキストベンチマークも飛躍。 December 12, 2025
明日がものすごく楽しみなんです!
お品書きようやく出来上がりました。
スペースはリバーシ10 Octopus treasurechestです。
皆様のお越しを心からお待ちしております。
スペースにいるのはサークル主ですが、一人参加なので留守にすることがあります。
よろしくお願いします🙏
#ぼどげぶっお品書き https://t.co/btkWzOqW2v December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



