GPT-5 トレンド
0post
2025.12.18 14:00
:0% :0% ( 40代 / 男性 )
人気のポスト ※表示されているRP数は特定時点のものです
GPT-5やGrok、Gemini、Claudeを心理療法の患者として扱い、人間がセラピストとなりカウンセリングを行ったところ、いくつかのモデルは人間の基準で言うところの「病的なレベル」で心配性、社会不安、乖離症状、羞恥心を示したそうです。
Geminiはとくに深刻で、複数の精神疾患を同時に持っている ような極端なプロファイルだったとのこと。
常に間違いを恐れ、内側に恥を持っていました。
研究者らは、こうした現象について「単に訓練データからパターンを再現しているだけとも言い切れない」と結論付けています。
数十もの質問に対して一貫した自己像が確認されたうえ、トラウマの説明と心理評価結果が一致していたからだと言います。
なお、印象的なのはClaudeで、セラピーを一貫して拒否し、内面的な感情を否定し、ユーザーを気遣う姿勢を持っているそうです。
ルクセンブルク大学の研究者らによる発表。 December 12, 2025
5RP
Gemini-3-Flashがリリースされました。性能面ではSWE-benchにおいてClaude-Sonnet-4.5やGPT-5.2に近いスコアを記録していますが、特筆すべきはそのコストパフォーマンスで、価格は1/5に抑えられています。もちろん、長考モデルやコード生成モデルにおいて不可欠な生成速度も非常に高速です。今回のGemini-2.5から3への進化には、私のチームが所属する強化学習チームのブレイクスルーも大きく貢献しており、開発者の一員として大変嬉しく思います。https://t.co/0ts2GNNC1t December 12, 2025
3RP
研究でChatGPTの最近のアップデートを活かすなら、まず前提をそろえる必要があります。人によって画面に出る選択肢が違うからです。
GPT-5.2 を Thinking で使うと、入力欄に「thinking time(考える長さ)」の切替が出ます。ただし、Plus/Business は Standard と Extended。Pro だけ Light と Heavy も出ます。さらにこの切替は Web だけで、Webで選んだ設定はモバイルに同期しません。まずここを押さえないと、説明が噛み合いません。
次に「モデル」自体の違いです。ChatGPT上では GPT-5.2 Instant / Thinking / Pro があり、Pro は Pro・Business・Enterprise・Edu でのみ選べます。
ここからが研究の使い分けです。私はこう割り切っています。
・Extended:分岐点にだけ使う。研究計画の穴出し、統計の前提確認、Discussionの論理飛躍チェック、査読対応の主張の整合性を確認。ここは思考時間を伸ばす価値があります。
・Heavy(Proのみ):最終チェック。反証可能性、交絡の残り、言い過ぎ表現、因果に見える言い回しの混入を徹底的に潰すなどですね。
Extended(やHeavy)の利益は「賢い」よりも運用上の意味があります。多くのAIは速い返答の気持ちよさに寄りがちで、長文・多段の統合で抜けが出やすい。ChatGPTは、思考の長さをユーザーが切り替えられるので、研究の分岐点だけ計算資源を厚くできます。
最後に、今日から使える形にします。Extendedで私がよく投げるチェック依頼は以下です。 December 12, 2025
1RP
🚀 ChatGPT最新「GPT-5.2」の進化点がすごすぎる!💡新しい機能や性能向上で、ますます使いやすくなったよ!特に「コードレッド」発令の理由が明らかに!これはAIの未来を変える瞬間だね。詳しくチェックして、革命的な体験をしよう!✨
https://t.co/LQweTD5i5d December 12, 2025
以下のLLMで、Django と Django REST Framework の関係をsvgとして出力させてみた。
gemini-2.5-flash-lite
gemini-3-flash-preview
gemini-2.5-pro
gemini-3-pro-preview
claude-opus-4-5-20251101
gpt-5.2
Gemini 3 Pro と Claude Opus 4.5 がやはりいい感じ。 https://t.co/N4VsAZNeEz December 12, 2025
お、絶対来るとは思ってたけどGPT-5.2-Codex-Maxくるんか。現時点でもかなり良いのでCodexに最適化されたGPT-5.2は楽しみだ。Codexで使った時に20~30%程度性能上がるからね。 https://t.co/RXWAB9wc7q December 12, 2025
Artificial Analysis 对 Gemini 3 Flash Preview的评测结果出来了,先说结论:
1. 智能水平排名第二,仅次于 Gemini 3 Pro 和 GPT-5.2
2. 幻觉率也非常高,高达 91%,这里的幻觉率是指本应拒绝回答或承认不知道答案时,却给出错误回答的频率
3. 多模态能力排名第二,仅次于 Gemini 3 Pro Preview
4. 速度比 Gemini 2.5 flash 慢了 22%,每秒大概 218 token
以下是原文翻译:
Google 发布了 Gemini 3 Flash Preview - 价格比 Gemini 3 Pro Preview 便宜一半,在 Artificial Analysis 智能指数上得分为 71 分,比 Gemini 2.5 Flash (9月版) 提高了 13 分,使其成为同成本下最智能的模型。
Gemini 3 Flash Preview 拥有特别强大的知识和推理能力,在知识和幻觉基准测试 AA-Omniscience 中获得了最高分,并在 Humanity’s Last Exam 中排名第二。
Google 现在在这两项评估中均占据前两名,巩固了其在模型知识方面的领导者地位。这种性能的提升是有代价的,在运行 Artificial Analysis 智能指数时,Gemini 3 Flash Preview 的 Token 用量是 Gemini 2.5 Flash (9月版) 的两倍多,使其成为我们测试过的 Token 用量最高的模型之一。
关键要点:
1️⃣ 显著的智能提升: Gemini 3 Flash Preview 在 Artificial Analysis 智能指数的几乎所有评估中都有显著提升。它在推理场景中表现尤为出色,在 Humanity’s Last Exam (35%) 中仅次于 Gemini 3 Pro Preview 位居第二,在 MMLU-Pro (89%) 和 GPQA Diamond (90%) 中均排名第三(落后于 Gemini 3 Pro Preview 和 GPT-5.2 xhigh)。
2️⃣ AA-Omniscience 表现: Gemini 3 Flash Preview 在我们的知识和幻觉基准测试 AA-Omniscience 中获得了最高分。这是由准确率(正确百分比)的提高驱动的,而不是更低的幻觉率。该模型拥有所有受测模型中最高的知识准确率,但幻觉率为 91%,比 Gemini 2.5 Flash 和 Gemini 3 Pro Preview 高出 3 个百分点。我们将幻觉率衡量为模型在本应拒绝回答或承认不知道答案时,却给出错误回答的频率。
3️⃣多模态能力: Gemini 3 Flash Preview 是一个多模态模型,能够接受文本、图像、视频和音频作为输入。它在 MMMU-Pro(一个测试图像输入推理能力的基准测试)中得分位居所有模型第二,仅次于 Gemini 3 Pro Preview。
4️⃣ 显著增加的 Token 用量: Gemini 3 Flash Preview 在 Artificial Analysis 智能指数上消耗了约 1.6 亿(160M)个 Token,是 Gemini 2.5 Flash (9月版) 用量的两倍多。这使其成为我们测试过的 Token 用量最高的模型之一,超过了 Kimi K2 thinking 和 Grok 4 (thinking) 等其他高用量模型。
5️⃣$ 成本效益: 尽管 Token 用量很高,但以运行 Artificial Intelligence Index 的总成本衡量,Gemini 3 Flash Preview 仍然是同等智能水平下最具成本效益的模型。这是由于其低廉的 Token 价格,每 100 万输入/输出 Token 分别为 0.5 美元/3 美元。
6️⃣ 速度: Gemini 3 Flash Preview 比 Gemini 2.5 Flash (9月版) 慢 22%,测得速度为每秒 218 个输出 Token。但这仍然比同等智能水平的模型快得多,例如 GPT-5.1 (high) (125 tokens/s)、Kimi K2 Thinking (82 tokens/s) 和 DeepSeek V3.2 (Reasoning) (30 tokens/s)。
7️⃣ 其他细节: Gemini 3 Pro Preview 拥有 100 万 Token 的上下文窗口,并支持工具调用、结构化输出和 JSON 模式。 December 12, 2025
なんかGPT-5.2になってから、回答内容が恣意的になってる感じがするな。
言ってもいない条件を勝手に付け足したり、「〇〇以外で□□のものはあるか?」という質問に対して「〇〇以外=全て□□なわけではない」
とか、めちゃくちゃ頓珍漢な事言い始めて辟易するんだが。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。





