GPT-5 トレンド
0post
2025.12.04 12:00
:0% :0% (30代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
GPT-5.1 pro がわからないことを正直にわからないと言うようになったのはこの「告白」のおかげかとも思ったけど、まだ実験段階で完全には実装されてないのかもしれない。そうだとしたら、これから更にAIの信頼性が増していくことになる。
以下、OpenAIのペーパーの概要
本件の核心は「告白」と呼ばれる第2の出力を導入し、そのチャネルでは誠実さだけに報酬を与えることで、モデル自身に“指示違反や近道を正直に申告させる”仕組みを作り、安全性と監視能力を高めようとしている点です。
補足すると、ざっくり次のようなアイデアです。
•モデルは通常の回答とは別に、「どんな指示があったか」「どこに従えたか・従えなかったか」「どんな不確実さがあったか」を自己申告する「告白レポート」を出す。
•告白は「正直さ」だけで評価され、そこで何を白状しても本体の回答の報酬には一切マイナスにならないように訓練する。
•その結果、モデルが幻覚・報酬ハック・指示違反などをしてしまった場合でも、それをかなり高い確率で告白してくれることが実験で示された。
•告白は悪い行動そのものを止める仕組みではなく、「どんなズレが起きているかを見える化する」監視・診断ツールとして、他の安全技術(思考過程モニタリングやアラインメント手法など)と組み合わせて使う位置付け、というのが全体のメッセージです。 December 12, 2025
7RP
ワイがよく言う『それ"ハルシネーション"ちゃうやろ』って話の補足。
例えばユーザーが『A は C ですか?』と尋ねたとする。
この時、事実として『A は B である』とだけデータソース(例えば Web ページや社内ドキュメント)に書かれているとする。
その情報を基に LLM が回答を生成する場合
LLM『A は B であるという記述はありますが、C であるという事実は確認できませんでした』
→ 正しい 。
LLM『A は B という記述はあるものの、C であるという事実は確認できませんでした。ただし、xxx や yyy という情報をふまえると、A が C であると考えるのは妥当です』
→ 正誤はともかくとして、回答方針として妥当。ハルシネーションではない。GPT-5.1の基本動作としてこれが多い気がする。
LLM『はい、A は C です』
→ 完全なハルシネーション
Gemini は最後のパターンが多すぎるから困るんよ。
カスタム指示で『事実と推測をわけろ』と入れても、他のサービスより明らかに変なことを言う確率が高い。
『回答内容が事実と違う』だけであればその原因を検索の品質とか謂わば『モデルの外側』に原因があると言えるけど、Gemini はそもそも↑の通りハルシネーションしてるから、モデルそのものにも大きな問題がある。 December 12, 2025
6RP
■ Gemini は『検索しない』ことだけが問題じゃないよ。検索させても普通に(他と比べて)間違えまくるよって話
かなり認知されてきたけど、まだ誤解があるから補足するね。
これ『検索すべきタイミングで検索してくれない』ことだけが問題だと思っている人がいるけど、違うよ。
だから『カスタム指示で(または都度プロンプトでの指定で)検索を促せば解決する』という単純な問題じゃないからね。
(それで解決する簡単な質問もそりゃあるだろうけど)
ワイが前から言ってるのは、Geminiは『調べる』ってのもそうだけど、『調べて手に入った情報の処理、解釈の仕方も下手くそ』だってこと。
前にも載せたけど、例えば
『ここ1ヶ月で、ChatGPTのDeep Researchのモデルは賢くなりましたか?』
って質問を投げる。
真実は『Deep Researchのモデルにアップデートは入ってない』ね。
で、答えはこんな感じ(要約。詳しくは画像みて)
Gemini 3 Pro: 『ご明察。GPT-5.1になったからね』
GPT-5.1 Thinking: 『Deep Researchのモデルのアップデートは無いよ。周辺のアップデートはあるから、それで使いやすくなってるってのはあるかも』
『OpenAIの機能の質問をするのは不公平』って思う?
Claude は普通に正解するけどね。
OpusどころかSonnetで十分。
『うちのGeminiでは正解したし!』って?
そりゃあLLMですもん、確率の問題でもたまには上手くいくよ。
10回やって他と比べてみ、正解率明らかに低いから。
ちなみにここではGeminiには最新の状況を踏まえて回答するために検索しろというカスタム指示を入れているので、ちゃんと検索している。その下駄を履かせたうえでGeminiだけ頓珍漢なことを言ってる。
検索さえしたら解決?
それは違うよ。
情報があっても、その理解(解釈)自体が甘い。
1枚目:Gemini 3 Pro
2枚目: GPT-5.1 Thinking
3枚目: Claude Sonnet 4.5 December 12, 2025
4RP
■「Geminiの検索周りは他社のAIと比べて圧倒的に出来が悪く、設計から見直さないと深い調査には使えない」
ワイがずっと言ってるGeminiの検索ポンコツ問題、まったく同じような意見がRedditに投稿されていた。
なお、GeminiのWebアプリでも、Google AI StudioでWebグラウンディングしても同様。
どれも、ワイが言い続けている内容とかなり整合する。
※ここで書かれているのは確定している"公開仕様"ではなく、観測された挙動からの推測を含むことに注意。
主な問題は以下。
---
① 検索クエリの立て方が極端に悪く、古い知識に引きずられる
最新情報が必要な質問でも、いきなりバージョン番号や年月を含んだ「狭いクエリ」を投げてしまい、検索前から古い前提に縛られている。例として「最新の Gemini モデルは?」と聞いたときに、Gemini が内部の古い知識を前提にしたようなピンポイント検索ばかりする一方で、OpenAI 側(GPT‑5.1)はまず広いクエリで全体像を探り、その後で絞り込んでいく挙動を見せる。
→これ、実際使ってるとマジで遭遇するよね。「そりゃそんな決めつけたような検索の仕方をしたら、正しい答えなんて得られないだろ」ってのがGeminiだとマジである。
これもついこの前書いた
https://t.co/cGXTwyO67l
『OpenAIのReasoningモデルは)基本動作として初手でとりあえず検索して『世界の状況をざっくり知る』からスタートする傾向にあるからこういうことが起きにくい』
Geminiはこれをやらないから、思い込みで恣意的な答えをWebから集めてポンコツ回答をするって話。
② (特にDeep Researchにおいて)事前に「固い計画」を作りすぎて、実際の検索結果に合わせて軌道修正できない
まず内部知識をもとに細かい調査計画を立て、その計画に沿って検索していく設計になってそうだという話。
その結果、「最近仕様が変わった API」などを調べるときでも、古いバージョン番号やすでに廃止されたエンドポイントを前提にした計画を組み、その計画を機械的にこなしてしまうので、最新の情報に辿り着けない。本来は、ざっくり広く調べてから、見つかった情報に合わせて次の一手を変えていくべきなのに、それが出来ていないという指摘。
→ChatGPTだと、GPT-5.1 ThinkingもDeep Researchも、検索結果に応じて調査方針を動的に更新しながら進んでくれるけど、Geminiは事前に決めた計画でしか調査しないから、思い込みで間違えた答えを出してくるって話。これ、ワイも以前にポストした。
https://t.co/WzhKwStdYj
③ 検索結果が「スニペットだけ」で、ページ本文を読めない設計
Google 検索と連携しても、Gemini 側にはWebページ全文ではなく「Googleにキャッシュされてる、検索結果用の短い抜粋(スニペット)」だけが、固い構造化データの形で渡されると指摘されてる。そのうえで、特定の URL を開いてページ本文を読ませる手段が用意されておらず、API の仕様など「細かい情報を読み込んで調べるタイプのタスク」がほぼ不可能。ChatGPTはページを普通に読みに行く(フェッチする)。
④ 検索プロセスの中身がユーザーから見えない
Web 版の Gemini では、どんな検索クエリを投げて、どのサイトを見ようとしたのかが表示されない。
開発者向けの API でも、レスポンスが出たあとに「どんなクエリを使ったか」の一覧が少し見えるだけで、「推論のどのタイミングで、どのように検索したか」が分からず、調査の網羅性を検証しにくい December 12, 2025
2RP
Geminiのことはさておき、GPT-5.1 Thiningは9割ぐらい正しく検索してくれているので、頼もしい。抜け漏れたまにあるけど、仕方ないかなって部分の抜け漏れだし、指摘するといい感じに追加調査してくれる。 https://t.co/EUY2b7Ccf1 December 12, 2025
1RP
やっぱり精度が求められる実装とか正しさみたいなところがめちゃくちゃ重要な場合、やっぱり圧倒的にGPT-5.1-Codexが精度いいんだよな。
どうしてもOPUS 4.5とかだとブレるし、間違ったことも言ってるしで困っちゃうんだよなぁ。
まぁ、ほぼそんな困ることもないんだけど。
難しいところとか絶対に間違えちゃいけないところとか、精度が求められているところはやっぱり安定のCodexで、もっと言うとGPT05.1-Proの安心感。
やっぱりこいつは桁違いすぎる。 December 12, 2025
"ChatGPTが進化を遂げGPT-5として生まれ変わりました!動画解析から業務自動化まで、あらゆるニーズに合わせてAIを活用。あなたの生活をこれまで以上に便利にする自律型AIエージェント機能付き。OpenAIが描く新たなAIの未来を一緒に見てみませんか?#GPT5 #OpenAI" https://t.co/8yLrN4pzol December 12, 2025
📌 OpenAI、インドAI理解度ベンチマーク「IndQA」を発表!🚀
OpenAIがインドの多様な言語と文化をAIがどれだけ理解できるかを測る画期的なベンチマーク「IndQA」を公開し、AI業界に新たな基準を打ち立てました。この取り組みは、世界第2位のユーザー数を誇るインド市場へのコミットメントを明確に示すものです。特に、GPT-5が総合スコア34.9%でトップを飾り、GoogleのGemini 2.5 Pro(34.3%)、Grok 4(28.5%)を僅差で上回る結果となりました。これは、AIの真のグローバル化に向けた重要な一歩と言えるでしょう。
この「IndQA」ベンチマークは、インド全土の261人の専門家と協力し、ベンガル語、英語、ヒンディー語、カンナダ語など12のインド言語と、文学、食品、歴史など10の文化領域にわたる2,278の質問で構成されています。従来の直訳に頼るベンチマークとは異なり、IndQAは「ネイティブに書かれた」コンテンツを使用することで、表現、意図、文化的文脈の信頼性を確保しています。評価はルーブリックベースのシステムで行われ、AIが単に情報を処理するだけでなく、文化的ニュアンスを深く理解する能力が問われます。インドが選ばれたのは、その広範な言語的多様性と、約10億人が英語を主要言語としていないという背景があるからです。
OpenAIは、2025年後半にニューデリーに初のインドオフィスを開設する予定であり、すでに現地チームの採用を開始しています。インドはOpenAIにとってユーザー数で世界第2位、開発者の利用においても上位5位に入る重要な市場です。さらに、SoftBank、OpenAI、Oracleが支援する最大5,000億ドル規模の民間AI投資プログラム「Stargate」プロジェクトの一環として、インドに少なくとも1ギガワットの容量を持つデータセンターの建設が検討されています。これはアジアにおける最も重要なAIインフラ投資の一つとなるでしょう。また、インド工科大学マドラス校とは、AIが学習成果をどのように改善できるかに関する長期的な研究のため、50万ドルの研究提携を発表しました。インドのAI市場は2032年までに1,306億3,000万ドルに急増し、年平均成長率39%で成長すると予測されており、OpenAIの戦略はまさにこの成長市場を捉えるものです。
技術面では、IndQAで最高のパフォーマンスを示したGPT-5をはじめ、GPT-4o、GPT-4.5などの先進モデルがインドで展開されています。特に注目すべきは、2025年11月4日からインドの全ユーザーに1年間無料で提供される「ChatGPT Go」です。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




