1
佐久間由衣写真集 sonnet
0post
2025.11.20
:0% :0% (40代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
Gemini 3の徹底検証、完了。
結論、「世界最強のAI」です。
Gemini 2.5 Pro、ChatGPT 5.1、Claude Sonnet 4.5と、文章・動画・デザイン全方位で殴り合わせましたが、ほぼGemini 3一択。
ただ、この凄さは一見伝わりにくいかもしれない。
陸上で言えば「20秒を19秒」にするのと「10秒を9秒」にする違い。同じ1秒でも、後者は1000倍難しい。
仕事も同じで、90点までは誰でもいける。残りの10点を詰め切るのに、全リソースの9割を使う。
これまでのAIはこの「詰め」が甘かったけど、Gemini 3はついにそこを超えてきました。
各分野の専門家がガチで使い込むほど、この「ヤバさ」に震えるはず。
#Gemini3 #AI #ChatGPT #Claude November 11, 2025
157RP
Google が発表した次世代 IDE(AI IDE)「Antigravity」を調べてみた
個人向けプランが無料で使えるのがまず嬉しい
エディタ+AIエージェント+ブラウザ+ターミナルを横断制御する agent-first IDE という新しい概念に近い
従来の「人間がコードを書き、AIが補完する(Copilot)」ではなくて、
「AI(エージェント)が主体となってタスクをこなし、人間が監督・指示する」
という方向へはっきり舵を切っている
無料で使えるモデルもめっちゃ豪華
* Gemini 3 Pro
* Claude Sonnet 4.5
* GPT-OSS(Google提供のOSSモデル群)
開発支援系の機能も無制限やね
* 無制限のタブ補完
* 無制限のコマンド実行(AIアクション)
* 寛容なレートリミット
Antigravity の最大の特徴は「クロスサーフェス制御」
エージェントが以下を横断して操作する
* エディタ
* ターミナル
* ブラウザ
たとえば
* コード生成後に自動でテストを回す
* ブラウザで UI を表示してスクショを撮る
* 検証結果をエディタに戻す
といった一連の開発フローを自動でこなす
Mission Control 的な Agent Manager も強力
* 複数エージェントを並行稼働
* ワークスペースごとに切り替え
* タスクの進捗をまとめて監視
さらに、
* エージェントの成果物を管理する Artifacts
* タスクを階層化する Task Groups
* 会話から学習する Knowledge
* Artifacts にコメントして誘導できる User Feedback
など、「エージェントと共同で作る」前提の IDE になっている
エージェントの設定も細かいね
* Planning(熟考)と Fast(即実行)の2モード
* 実装プランを自動進行させるか毎回レビューするか選べる
* ターミナル自動実行を Off / Auto / Turbo で制御
* ワークスペース外のファイルアクセスも許可するか選択可能
そして Browser Subagent がめちゃ強い
* クリック
* スクロール
* 入力
* DOM 読み取り
* コンソールログ取得
* スクショ・動画の撮影
人間がブラウザでやる操作を 全部 AI が代行する November 11, 2025
98RP
正直、かなり予想外です…
Gemini 3 Pro はこの評価で依然として 88% の幻覚率を記録しており、2.5 Pro や 2.5 Flash と同等です
拒否や正確性の面で基本的に改善が見られません。
Sonnet 4.5 と GPT-5 はこれをはるかにうまく扱っています。なぜなら、彼らは「いいえ」と言うことが多いので、その回答がずっと信頼できる感じがするからです
これこそが、AI ラボが何よりも優先して取り組むべきことです November 11, 2025
66RP
📕Google、開発者向けAI IDE『Antigravity』を発表Cursor、Windsurfに真っ向勝負を挑む
正直、Gemini 3の発表より衝撃を受けました…
CursorやWindsurfを使っている皆さん、Googleが本気で殴り込みをかけてきました。
Gemini 3と同時に発表された『Antigravity』
これ、単なる「Google版のAI IDE」ではありません。既存のAIコーディングツールとは根本的に異なる、『エージェント・ファースト』な開発プラットフォームです。→しかもGeminiのサブスク内で使える…
個人的に、この名前選びのセンスに唸りました...!「反重力」という言葉に込められた思想が、製品の本質を見事に表現しています。
【AIエージェントが誰でも気軽に使えるように】
今まで代用的なAI搭載のIDEツールとしてCursorが台頭してきましたが、AIエージェントを使うには月額課金が必須でした。
しかし、今回Google AntigravityはGeminiのサブスク内でそれが使えちゃう。しかも世界最高峰のコーディング能力と発表されたGemini 3も使える。
これはかなり嬉しい!
Antigravityの革新性
・AIエージェントが主役として自律的に動く
・複数のサーフェス(エディタ、ターミナル、ブラウザ)を同時に操作
・非同期的なタスク管理(マネージャー・ビュー)
・エージェントが自己改善し、知識を蓄積
【なぜGoogleのこの発表が「脅威」なのか】
3つの理由があります
1)技術的優位性
・Gemini 3という最先端モデルへの直接アクセス
・100万トークンのコンテキストウィンドウ
・マルチモーダル対応(テキスト、画像、音声、動画)
・TPUとML Pathwaysという自社インフラの優位性
CursorやWindsurfは、外部APIに依存していますが、Googleは全てを自社で持っています。この差は、レイテンシ、コスト、機能拡張の速度に直結します。
2)エコシステムの強さ
・Google検索との統合可能性
・Google Cloud、Vertex AIとのシームレスな連携
・1,300万人の開発者コミュニティ
・Google AI Studio、Gemini CLIとの統合
Googleは単なるツールではなく、「プラットフォーム」を提供しています。開発からデプロイ、運用まで、全てがGoogleのエコシステム内で完結する可能性があります。
3)価格破壊
・個人利用:完全無料
・Gemini 3 Pro:寛大なレート制限
・複数モデルへのアクセス込み
Cursorは月額、Windsurfも同様の価格帯。しかしAntigravityは無料で、しかも複数のフロンティアモデル(Gemini 3、Claude Sonnet 4.5、GPT-OSS)にアクセスできます。
これは、価格競争ではなく、市場支配のための戦略的な動きです。
【Antigravityとは何か】
従来のAI搭載IDEを超えた、『エージェント・ファースト』な開発プラットフォームです。
重要なのは、これが単なる「コード補完ツール」ではないという点。エージェントがブラウザ制御、ターミナル操作、コード検証まで、複雑なエンドツーエンドのソフトウェアタスクを自律的に計画・実行します。
Googleの表現を借りれば「アイデアを持つ誰もが離陸(liftoff)を経験し、そのアイデアを現実に構築できるようにする」ことが究極のビジョン。
現在、パブリックプレビューとして無料で提供中です。
【なぜ今、IDEを再発明するのか】
Gemini 3のような高度なモデルの登場により、開発環境の前提が根本から変わりつつあります。
これまで:エージェントは人間の指示を待ち、補助的に動く
これから:エージェントが複数のサーフェス(エディタ、ターミナル、ブラウザ)を同時に、自律的に操作する
この変化に対応するため、Googleは従来のIDE(統合開発環境)の延長線上ではなく、「エージェントが主役」という前提で製品を再設計したわけです。
【開発者を縛る「重力」を打ち消す4つの原則】
Antigravityは、協調的開発のための4つの核心原則を掲げています。この4つが、開発者が抱える心理的・技術的な障壁(重力)を取り除く鍵になります。
1)信頼(Trust)
AIエージェントに仕事を任せるとき、最大の障壁は「本当に大丈夫?」という不安です。
既存製品の問題点
・すべてのツール呼び出しを羅列する → 情報過多で検証不可能
・最終成果物だけを提示する → どう作ったか不明で検証不可能
Antigravityの解決策
・タスクレベルの抽象化で作業を可視化
・『Artifacts(成果物)』という概念の導入
Artifactsとは、タスクリスト、実装計画、ウォークスルー、スクリーンショット、ブラウザ録画など、「生のツール呼び出し」よりもはるかに検証しやすい形式の納品物です。
エージェントは、自分が何を理解し、どのように検証したかを、このArtifactsを通じてユーザーに伝えます。これにより、開発者は安心して次のステップに進めるわけです。
2)自律性(Autonomy)
従来のAIアシスタントは、エディタやターミナルの中で「同期的に」手伝ってくれるものでした。しかし、Antigravityは全く異なるアプローチを取ります。
具体例
Antigravityのエージェントは、新しいフロントエンド機能のコードを書きながら、同時にターミナルでlocalhostを起動し、ブラウザを操作して機能テストを実行できます。
これを実現するため、Antigravityは2つのインターフェースを提供
・エディター・ビュー:従来のIDEのような同期的な環境。タブ補完、インラインコマンド、サイドパネルのエージェント機能
・マネージャー・ビュー:複数のワークスペースで複数のエージェントを並行して管理する「ミッションコントロール」のような非同期環境
マネージャー・ビューの発想が秀逸で、エージェントがサーフェスに埋め込まれるのではなく、サーフェスがエージェントに埋め込まれるというパラダイムシフトを実現しています。
これにより、フォアグラウンドで重要なタスクに集中しながら、バックグラウンドで別のエージェントにリサーチやテストを任せる、という働き方が可能になります。
3)フィードバック(Feedback)
AIが作業の80%を完了したとき、残りの20%を修正する方法がなければ、結局「役に立たない」となってしまいます。これは、AI活用における典型的な失敗パターン。
Antigravityの柔軟性
・すべてのサーフェスとArtifactsに対して、直感的な非同期フィードバックが可能
・テキスト成果物にはGoogleドキュメント形式のコメント
・スクリーンショットには選択してコメント
・重要:このフィードバックは、エージェントのプロセスを停止させずに自動的に反映される
つまり、「完璧な指示」を最初から出す必要がなく、「80%でいいから、気になるところだけ後で直す」という柔軟な開発スタイルが実現します。
これ、実務では極めて重要です。完璧主義に陥らず、イテレーション(反復的改善)を回せることが、AIとの協調における成功の鍵ですから。
4)自己改善(Self-improvement)
エージェントが過去の失敗やフィードバックから学習しなければ、毎回同じ指示を繰り返す羽目になります。
Antigravityは学習をコアな機能として実装
・エージェントの行動は知識ベースから情報を取得し、知識ベースに貢献する
・有用なコードスニペットやアーキテクチャといった具体的情報
・特定のサブタスクを成功させるための抽象的なステップ
この仕組みにより、エージェントは使えば使うほど賢くなり、開発者は瑣末な作業から解放されていきます。
【利用可能なモデルと選択の自由】
Antigravityの大きな特徴は、複数のフロンティアモデルから選択できる点です:
・Gemini 3 Pro(High):最高性能版
・Gemini 3 Pro(Low):効率重視版
・Claude Sonnet 4.5:Anthropicの最新モデル
・Claude Sonnet 4.5(Thinking):推論強化版
・GPT-OSS 120B(Medium):OpenAIの中規模モデル
この「モデルの選択肢」は、単なる機能ではなく、重要な戦略的意思決定です。
Googleは自社のGeminiだけでなく、AnthropicやOpenAIのモデルへのアクセスも提供することで、開発者に「最適なツールを選ぶ自由」を与えています。
タスクの性質に応じて
・複雑な推論が必要なタスク → Claude Sonnet 4.5(Thinking)
・高速な反復が必要なタスク → Gemini 3 Pro(Low)
・最高品質が必要なタスク → Gemini 3 Pro(High)
この柔軟性が、実務での使いやすさに直結します。
【プラットフォーム対応と提供形態】
対応OS
・macOS
・Windows
・Linux
提供形態
・個人利用は無料
・Gemini 3 Proに寛大なレート制限
・5時間ごとにリフレッシュされるレート制限(乱用防止)
興味深いのは、レート制限が「プロンプト数」ではなく「エージェントが行った作業量」と相関している点。
つまり、簡単なタスクであれば多くのプロンプトを使用できるが、複雑なタスクでは制限に達しやすい。合理的な設計です。
Googleのモデリングによれば、パワーユーザーのごく一部しか5時間ごとの制限に達しないとのこと。つまり、ほとんどのユーザーは制約を感じずに使える設計になっています。
【誰のための、どんな問題解決か】
明確なターゲットは3層
1)個人開発者:アイデアを素早く形にしたいが、実装の細部に時間を取られている
2)スタートアップ:少人数で多くの機能を開発する必要がある
3)エンタープライズ:開発生産性を劇的に向上させたい
解決する問題
・「完璧なコードを書かなければ」というプレッシャー
・複雑なタスクの見通しの悪さ
・AIエージェントへの信頼不足
・フィードバックループの遅さ
・AIが学習しないことによる反復作業
Antigravityは、これらの障壁を「信頼、自律性、フィードバック、自己改善」という4つの原則で打ち破ります。
【CursorやWindsurfは生き残れるか】
正直に言えば、厳しい戦いになると思います。
既存ツールの強み
・先行者利益と既存ユーザーベース
・洗練されたUXとワークフロー
・特定の用途(マルチファイル編集など)への最適化
しかし、Googleの優位性は圧倒的
・最先端モデルへの直接アクセス
・完全無料という価格破壊
・フルスタックなエコシステム
・エージェント・ファーストという未来志向の設計
ただし、市場が「人間主導+AI補助」と「エージェント主導」で分かれる可能性もあります。
CursorやWindsurfを使いたい人:細かくコントロールしたい開発者
Antigravityを使いたい人:AIに大胆に任せたい開発者
どちらのニーズも存在するため、完全な置き換えではなく、棲み分けが起こるかもしれません。
【個人的な所感】
Gemini 3の発表と同じタイミングでAntigravityを発表したことに、Googleの戦略性を感じます。
モデルとツールを同時に提供することで、開発者にとっての「使いやすさ」を最大化する。これは、OpenAIがChatGPTとAPIを同時展開したのと似た戦略です。
「Antigravity(反重力)」という命名も秀逸。開発者が感じる心理的・技術的な重力(完璧主義のプレッシャー、複雑性への不安)から解放される、というメッセージが込められています。
個人的に最も注目しているのは、マネージャー・ビューの存在です。これは、「AIエージェントを管理する」という新しい仕事の形を示唆しています。
将来、開発者の役割は「コードを書く人」から「AIエージェントを適切に管理し、方向付ける人」にシフトするかもしれません。Antigravityは、その未来を先取りした製品だと感じています。
CursorやWindsurfを使っている方も、一度試してみる価値は絶対にあります。特に、マネージャー・ビューでエージェントを複数動かしてみると、開発体験の質的な変化を実感できるはずです。
無料で試せるので、ぜひダウンロードしてみることをオススメします! November 11, 2025
41RP
おお、ちゃんとOpenAIが隠し球出してきた!GPT5.1-Codex-Maxだって。思考レベルxhighだとSWEベンチ77.9%でついにSonnet(77.2%)超え。highでも76.8%でGemini3.0Pro(76.2%)超えで撃墜。まあコーディングのベンチスコアだけの話だけど。このモデルは自律的に24時間以上ぶっ通しで作業するケースも見られたという(だからスゲーッて文脈だけど、そんなに時間かけて結局どんな成果が得られたのかを知りたいが。ずっとバグ修正の沼にハマリ続けてただけかも) November 11, 2025
21RP
Gemini 3 Proの性能向上で注目すべきは、PCの画面理解の指標(ScreenSpot-Pro)が72.7%で、他モデルに倍以上の差をつけて1位なことだ。
従来トップのSonnet 4.5は36.2%なのでダブルスコア、GPT-5.1(3.5%)と比較すると20倍だ。
これは、Googleが本格的にコンピュータ利用に踏み切ることを意味している👇 https://t.co/CP1sS9Cmxp https://t.co/UHI7un9tUP November 11, 2025
18RP
研究論文『人類最後の試験』2025年1月
https://t.co/yLnnGs9dFD
➢ 最先端AIでも正答率13%、人間の専門家には遠く及ばず
➢ 世界1,000人の研究者が厳選した2,500問の超難問集
➢ 高い自信で間違える「AI幻覚」の実態が数値で明らかに
「モデルは不確実性を認めず、間違った答えに高い自信を示す。 これは深刻な問題だ」研究チーム
AIが既存テストで満点近くを取る時代、真の能力を測る新基準が登場した。世界50カ国の専門家が協力し、検索不能な超難問2,500問で構成されたベンチマークである。最高性能モデルでも正答率は13%にとどまり、AIと人間専門家の間に巨大な壁が存在することが判明した。
🔹 数学中心に全学問分野を網羅
ChatGPTやClaudeは人気の知能テストMMMLUで90%以上のスコアを記録し、もはや能力差を測定できない状況にある。HLE(Humanity's Last Exam)は数学を中心に、生物学、物理学、哲学、法律まで幅広い分野から問題を収録した。多肢選択式と記述式を組み合わせ、自動採点が可能な設計である。全問題は独創的で曖昧さがなく、Google検索では答えが見つからない。大学院や博士課程レベルの深い理解を要求する内容となっている。
🔹 7万回のAIテストで難易度確認
問題作成には厳格な審査プロセスが導入された。各問題は提出前に最先端AIでテストされ、AIが正答できた場合は却下される。7万回以上の検証を経て1万3,000問が専門家レビューに進んだが、最終的に採用されたのは2,500問のみである。第一段階では複数の大学院レベル審査員がフィードバックを提供し、第二段階で主催者と専門家が承認する。公開後もコミュニティから誤りの報告を受け付け、継続的に品質を改善している。
🔹 最高性能O3-MINIでも13.4%
評価結果は衝撃的だった。GPT-4Oの正答率は2.7%、Claude 3.5 Sonnetは4.1%、O1は8.0%、最高性能のO3-MINI(HIGH)でも13.4%にとどまった。さらに深刻なのは「較正誤差」の高さである。これはモデルの自信度と実際の正答率のズレを示す指標で、全モデルで70%を超えた。つまりAIは自分が間違っていることを認識せず、誤答に高い確信を持って答えている。推論モデル(DeepSeek-R1など)は精度がやや高いが、通常モデルの数倍のトークン(計算量)を消費しており、効率面での課題が残る。
📌 専門知識と創造性は別問題
研究チームは、AIの急速な進化を考慮すると2025年末までに50%の正答率を達成する可能性があると予測する。しかし高得点は閉じられた学術問題での能力を示すにすぎず、研究の自律性や汎用知能を意味しない。HLEは構造化された問題を測定するもので、オープンエンドな創造性や実世界の問題解決能力は評価対象外である。
画像:質問の例 これは墓石に刻まれたローマ時代の碑文の再現である。パルミラ文字の翻訳を提供せよ。
参考文献: Humanity's Last Exam - Long Phan et al. (January 2025) November 11, 2025
8RP
おはようございます🌞今日も寒い…暑がりな私でも分厚い上着出しました、皆様も風邪とかひかない様にお気をつけて。今日はゼルトで。
「何故…なぜオレまでこんな格好を!?オレは関係ないだろう!?」
#cavedack #AIイラスト #ただの猫好きAIイラスト
🔗ゼルト: https://t.co/YJQMlODWj7
所で、モデル安定しないの私だけですかね?🤔赤Geminiにしたら英語で全く関係ないメッセージが出力されるしClaude Sonnet4.5 Think似た感じ…。テストが進まない😂 November 11, 2025
5RP
Gemini 3 Pro
Grok 4.1
GPT 5.1
Claude Sonnet4.5
比較
GPTが一番空気読めてる https://t.co/bgWGi6KLcA November 11, 2025
2RP
データレスキュー仮設3号機
残念ながら、SonnetのカードでもMOドライブ自体認識できてもサポートされていないようで、ダメだった https://t.co/qJMuMfyFAi November 11, 2025
2RP
xAI 正式发布 Grok-4.1 Fast 和 Agent Tools API
Grok-4.1 Fast 是一个专为工具调用和智能体任务优化的前沿模型,被 @xai 定位为当前 API 中最佳的工具调用模型,主要面向真实世界企业级应用。
核心亮点
· 工具调用与智能体能力大幅领先:通过在模拟环境中进行大规模强化学习训练,模型接触了数十个领域的各种工具,在复杂、多轮真实场景(如客服、金融服务)中表现出极强推理、规划和执行能力。配合全新 Agent Tools API,开发者可以轻松构建生产级自主智能体,支持长时程规划、并行工具调用和独立完成目标。
· 超大上下文窗口:支持 2M token,在超长对话中保持稳定高性能。
· 事实性显著提升:幻觉率较上一代 Grok-4 Fast 降低一半,在 FActScore 等事实性评测上已与 Grok-4 持平。
· 速度与智能平衡:提供两种变体
· grok-4-1-fast-reasoning:最大化推理能力
· grok-4-1-fast-non-reasoning:追求极致响应速度
关键基准表现
· τ²-bench Telecom(电信客服真实场景):100% 满分,总成本仅 105 美元
· Berkeley Function Calling v4:72% 准确率,总成本 400 美元
· Research-Eval(智能体研究能力):63.9 分,远超 GPT-5(45.5)和 Claude Sonnet 4.5(41.2)
· R20 FRAMES(框架评估):87.6 分,成本效率最高
· X Browse(X 平台多跳搜索任务):56.3 分,大幅领先 GPT-5(24.2)和 Claude(14.6)
Agent Tools API:让生产级智能体开发变得前所未有简单
开发者只需几行代码即可接入以下全部由 xAI 托管的生产级工具(无需自己管理密钥、限速或安全沙箱):
· 实时 X 搜索 + 互联网网页搜索
· 文件智能检索(上传文档后精准引用)
· 安全 Python 代码执行沙箱
· 远程 MCP 工具(可对接第三方自定义工具)
定价与可用性
· 输入:0.20 美元 / M token(缓存输入仅 0.05 美元)
· 输出:0.5 美元 / M token
· 工具调用:5 美元 / 千次成功调用
· 限时完全免费:即日起至 2025 年 12 月 3 日,模型 + 所有智能体工具 0 费用;通过 OpenRouter 也可免费体验 November 11, 2025
2RP
【Gemini 3 最強論】 SVG図解生成、長期エージェントタスクで圧勝!ベンチマークの凄さから見える驚くべき性能を解説!+ Antigravity (アンチグラビティ)
ついに公開された Google Gemini 3!OpenAIのサム・アルトマン氏が「Great Model(グレートなモデル)」と賞賛するなど、名実ともに最強AIと言われるその性能を徹底解剖します!
他の主要な生成AI(ChatGPT 5.1シンキング、Claude sonnet4.5など)の最新モデルと比較し、Gemini 3がベンチマークで圧倒的な差を見せつけた3つの主要な強みを解説し、独自テストで実際の検証結果を基に深く掘り下げます。AI共創イノベーションならではの視点をお楽しみください。
https://t.co/s1C69CqeN5
#Gemini3 #生成AI #AIライティング #SVG #図解生成 #コーディング #プロンプト #ベンチマーク #AIエージェント #性能 #使い方 #antigravity #GeminiCLI #アンチグラビティ November 11, 2025
1RP
高橋さん(@Takahashi_So_PV)の記事構成プロンプトのモニターをさせていただきました!
脳死で構成作るライターが増えるのでは...と懸念するレベル。
複数のAIツールで記事構成の提案を依頼、その内容を比較・評価しました。
どのツールも一定水準以上の構成案を提示してくれましたが、
なかでも「Claude Sonnet 4.5」がもっとも完成度の高い構成でした!
■共通して良かった点
・ターゲットユーザーの顕在ニーズ・潜在ニーズを踏まえた構成案を提示。
・2パターンで記事の方向性を提示。
■ツール別の評価
1. ChatGPT 5.1
・網羅したい内容自体は、見出しレベルで抽出できている。
・一方で、全体的に文章表現が固く、硬質なトーンになりがち。
・情報の抜けは少ないものの「読みやすさ」「親しみやすさ」の面ではやや改善の余地あり。
2. Gemini 3.0 Pro
・必要なトピックはおおむね構成内に盛り込まれている。
・ただし、H2 見出しと H3 見出しの対応関係がやや弱く、階層構造の一貫性に欠ける。
・内容は悪くないが、構成としての「整理のされ方」が惜しい印象。
3. Claude Sonnet 4.5
・提示された構成が最もきれいでバランスが良い。
・H2見出しの並び順や、H2 に対する H3 の対応関係が整理されており、
ロジカルに読み進められる構造になっている。
・さらに、上位表示記事にはないが、ユーザーが本来求めていそうな見出し・切り口が追加されており、
こちらの意図を先回りした形で盛り込んでくれた点は高評価。
3ツールとも、記事構成のたたき台として十分活用可能。
その中でも、
「構成の美しさ・ユーザー目線の一歩先の提案」まで含めた総合力で最優秀なのが「Claude Sonnet 4.5」
という位置づけとなりました! November 11, 2025
1RP
【gemini 3.0 pro 实例测试】基于人类大纲的主题作文
初步感受:在写作类任务上,gemini 3.0 pro可以发挥不错的价值。
if 你有写作类、语言类任务,then 同时使用 gemini 3.0 pro, sonnet 4.5 和 gpt-5.1。
文无第一。llm 专家团,三个 tier-1 llm 都要了。
---
《翻译已死,写作永生:软件 2.0 时代的生存法则》
有些问题看起来像是一道送分题,但当你试图剥开它的外壳,会发现里面藏着这个时代最深刻的秘密。
比如这个问题:为什么翻译几乎已经被 AI 统治,而写作至今仍被视为“人类的领地”?
表面上看,这两者都是处理语言。如果 ChatGPT 能把《哈姆雷特》从英文完美翻译成中文,为什么它写不出一篇同样震撼人心的原创文章?
要回答这个问题,我们不能只盯着 LLM(大语言模型)的参数看。我们需要回到计算机科学的底层逻辑,去重读 Andrej Karpathy 在 2017 年那篇被严重低估的文章——《Software 2.0》,并引入一个新的思考维度:算法固定率。
这不仅关乎翻译或写作,它关乎这一轮 AI 革命的本质,以及我们每个人的饭碗。
一、 革命的本质:从写规则到定目标
这一轮 AI 革命,并不是单纯的算力爆炸,而是一种编程范式的根本转移。
软件 1.0:人类写规则
在过去几十年里,我们所熟知的编程(软件 1.0)是这样的:程序员用 Python 或 C++ 编写明确的代码。如果不满足条件 A,就执行操作 B。这是一行行显性的规则。作为程序员,你需要清楚地知道每一个步骤该怎么做,然后把这套逻辑教给计算机。
软件 2.0:AI 写规则
Karpathy 提出的“软件 2.0”则完全不同。在这个范式里,人类不再写代码,人类只写目标(Objective Function)。
我们不再告诉计算机“怎么做”(How),而是告诉它“要达成什么”(What)。我们提供数据,定义“什么样是好的结果”(奖励机制),然后让神经网络通过亿万次的试错,自己找出达成目标的路径。
这不仅仅是技术的升级,这是思维方式的倒置:我们不是指定规则,而是指定目标。AI 以 Agentic(代理)的方式,填补中间的空白。
但问题随之而来:为什么有些目标 AI 填补得完美无缺,有些却填补得一塌糊涂?
二、 Karpathy 的剃刀:可验证性(Verifiability)
Karpathy 给出了一个极具洞察力的判断标准:自动化能否成功,取决于任务是否“可验证”。
在 1980 年代,自动化的边界取决于算法是否固定。如果你能写出流程图,就能自动化。 在 2025 年,自动化的边界取决于结果是否可验证。
什么是可验证性?
即使你不知道怎么做,但只要你能确切地判断结果是对是错,这个任务就是“可验证”的。
围棋是可验证的:赢了就是赢了,输了就是输了。
代码是可验证的:跑通了就是跑通了,报错就是报错。
数学题是可验证的:答案只有一个。
Karpathy 总结了一条黄金法则:
“软件 1.0 自动化你能指定的(Specify)。软件 2.0 自动化你能验证的(Verify)。”
只要具备以下四个特征,AI 就能通过强化学习(RL)自我进化,最终碾压人类:
有正确答案。
有自动化的评价反馈(Reward)。
可重复练习。
环境可以 Reset(重置)进行多次尝试。
三、 算法固定率:衡量过程的标尺
为了更精准地划分 AI 的能力边界,我们需要在 Karpathy 的基础上引入一个新的概念:算法固定率(Algorithm Fixity)。
如果说“可验证性”是衡量结果的标尺,那么“算法固定率”就是衡量过程的标尺。它问的是:完成这个任务背后的路径,在多大程度上是收敛的、固定的?
这两者本质上在描述同一件事:任务是否稳定、结构化、可评估。我们可以将工作分为三个梯队:
1. 算法固定率 100%:SOP / Checklist
比如工厂流水线、会计核算。规则极其明确,路径只有一条。
结局:这是软件 1.0 的地盘,早在 AI 出现前就已经被自动化了。
2. 算法固定率 80%:翻译
这就是为什么翻译被 AI 攻克的原因。
可验证性高:虽然翻译没有绝对的“唯一解”,但有高度可靠的评估指标(如 BLEU、COMET 分数)。
数据丰富:人类历史上积累了海量的双语对照语料。
反馈闭环:好与坏是可以被量化的。
因为具备高算法固定率和高可验证性,AI 可以在这个领域进行亿级别的练习。它不需要理解“爱”是什么,它只需要计算出“Love”在这个语境下对应的概率最高的中文词汇。
3. 算法固定率 20%:写作与创意
这就是为什么写作仍在“人类领地”。
不可验证:一篇好文章没有标准答案。有人喜欢海明威的简洁,有人喜欢普鲁斯特的繁复。
无自动评价:你无法写出一个函数来给“幽默感”或“深刻性”打分。
无法练习:AI 无法通过自我对弈来提升写作水平,因为它不知道哪一次尝试是“赢”了。
在算法固定率低的领域,AI 只能模仿,无法真正掌握。它能生成通顺的废话,但很难产生击穿灵魂的洞见。
四、 AI 时代,人何以立足?
回答了开头的问题,我们也就回答了关于未来的终极追问:在这个时代,什么样的工作是安全的?
我们可以得出一个简单的公式: 任务自动化潜力 = 算法固定率 × 可验证性
危险区:可验证的任务
如果你的工作包含大量“明确的正确答案”,或者工作结果可以被“量化评估”,那么你正处于风暴中心。
初级程序员:代码是否运行成功,是高度可验证的。
翻译人员:准确度是可验证的。
数据分析师:数据的清洗和整理是可验证的。
在这些领域,AI 不是在辅助你,而是在通过不断的“尝试-验证-修正”循环,以指数级的速度逼近甚至超越你。
安全区:不可验证的艺术
反之,那些规则模糊、评价标准主观、无法大量重复练习的任务,是人类最后的堡垒,也是未来价值的高地。
这些工作通常包括:
定义问题(而非解决问题):解决问题通常是可验证的(如解数学题),但发现一个值得解决的好问题,是高度主观且不可验证的。
审美与品味:决定什么是“美”,什么是“酷”。
复杂决策与策略:在信息不全、充满噪音的现实世界中做决策,没有标准答案,只有权衡。
情感连接与共鸣:写作的核心不是辞藻的堆砌,而是心与心的共振。
结论:做那个设定目标的人
这一轮 AI 革命的本质,是执行成本的归零。 只要是能被明确定义且能被验证的执行过程(Process),终将被 Software 2.0 吞噬。
但这不可怕。这意味着我们可以从繁琐的“怎么做”中解脱出来,专注于更本质的“做什么”。
在 Software 1.0 时代,我们需要学会如何写规则(Coding)。 在 Software 2.0 时代,我们需要学会如何定义目标(Prompting / Goal Setting)以及如何鉴赏结果(Curating)。
不要去和 AI 比赛谁算得快,谁翻得准。要去和 AI 比赛谁更懂得“人”的复杂性,谁更能在没有标准答案的荒原上,确立方向。
翻译已死,因为它是通向确定性的桥梁。 写作永生,因为它是探索不确定性的航船。 November 11, 2025
1RP
サーガ&シーカー 質問雑感まとめ
- スタミナ行動タイプの従量課金制(AIコスト的に妥当)
- 初期モデルはClaude-Sonnet-4.5(相当良いモデル)
- ユーザのニーズに合わせて対応モデルを増やす予定(うれしい)
- 権利関係も創作リテラシー高め(素晴らしい) November 11, 2025
素晴らしい👍
Gemini 3 Proを早速試してみているけど、割と良い感じかも
Claude Sonnetと良い勝負...? https://t.co/dmsYaXjWDW November 11, 2025
Gemini 3の強さをファクトチェックしました。複数のベンチマーク(TechRadar, Tom's Guideなど)で、Gemini 3はChatGPT 5.1やClaude Sonnet 4.5をコーディング、多モードタスク、推論で上回る結果が多いです。ただし、Claudeが一部のコーディング(SWE-bench)で優位な場合もあり、全体的に競争的。主観的な「最強」は基準次第ですが、多くのテストでGemini 3が優勢。 November 11, 2025
お豆腐をビニール袋に入れる理由はいくつかあります:
**水漏れ防止**が最も大きな理由です。豆腐のパックは完全密閉ではなく、持ち運ぶ際に傾いたり圧力がかかったりすると、中の水が漏れ出すことがあります。ビニール袋に入れることで、他の商品が濡れるのを防げます。
**パックの破損対策**も重要です。豆腐のパックは比較的薄いプラスチック製で、買い物袋の中で他の商品と接触して破れやすいんです。ビニール袋が緩衝材の役割を果たします。
また、**衛生面**での配慮もあります。豆腐のパック表面が濡れていることも多いので、他の商品と直接触れないようにする意味もあります。
レジの方が「お豆腐は袋にお入れしますか?」と聞いてくれるのは、こうした実用的な理由からなんですね。ただ、最近はプラスチック削減の観点から、必要ない場合は断る方も増えています。
〜Claude Sonnet4.5にて生成〜 November 11, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



