sw
0post
2025.12.19 13:00
:0% :0% ( 40代 / 男性 )
人気のポスト ※表示されているRP数は特定時点のものです
「最新の生成AIの性能って、結局いま何が“強く”なって、何が“まだ弱い”んだろう?」
問い1:いま“性能”って、何を指すのがフェア?
答え:単一スコアではほぼ無理。 いまは大きく分けて
•会話の好ましさ(人間の投票)
•コーディングの実務(バグ修正・リポジトリ操作)
•事実性(検索・根拠・画像理解を含む)
•未知パズル的な推論(汎化・抽象)
みたいに“軸”を分けて見るのが現実的です。
問い2:「会話が上手いモデル」って、どれくらい差がある?
答え:差はあるけど、これは“人気投票”の側面も強い。
LMArena(旧Chatbot Arena系)のOverviewだと、直近の集計で gemini-3-pro がTextで1位(Score 1491)、続いて grok-4.1-thinking などが並んでいます。投票数も万単位で、体感品質の差をある程度反映している一方、プロンプト分布や評価観点がコントロールされていない弱点もあります。
問い3:「仕事で使えるコーディング能力」は、もう“解決済み”?
答え:まだ“半分解ける”くらいが上位帯で、完全自動化には遠い。
SWE-bench Verifiedは、実在のGitHub issueを直してテストを通すタイプで、**「解けた割合(% Resolved)」で見ます。Verifiedは500問規模で、条件を揃えた比較がしやすい一方、依然として難しいです。
SWE-bench公式のリーダーボードでも、上位モデルが50%前後〜のレンジにいることが示されています(モデルと日付つきで掲載)。
問い4:「ハルシネーション(もっともらしい嘘)」は、もう減った?
答え:減ってきたが、“事実性”はまだ壁が厚い。
Google DeepMindの FACTS Benchmark Suite は、事実性を4分割(Parametric / Search / Grounding / Multimodal)して測ります。ここで Gemini 3 Proが総合68.8%で首位、ただし評価モデルは総じて70%未満で「まだ大きな伸びしろがある」と明言されています。
要するに、流暢さは人間っぽいのに、事実の堅牢性は“合格点に届き切らない”局面がまだ残っています。
問い5:「未知の推論(汎化)」は、もう人間に迫ってる?
答え:伸びてるけど、商用モデル単体だとまだ低め。“工夫(ループ/合議)”が効いている。
ARC Prizeの分析では、ARC-AGI-2において 検証済みの商用モデル最高が Opus 4.5 (Thinking) で37.6%。一方で、Gemini 3 Pro を土台にしたPoetiqの“refinement(改善ループ)”解法が54%と報告されています。
ここが面白い点で、モデルそのものの賢さだけでなく、テスト時にどう考えさせるか(反省→再試行→検証)の“運用レイヤー”がスコアを押し上げています。
ここまでのまとめ
•体感の会話品質は上がり続け、ランキング上位は僅差の争い(ただし評価軸は曖昧になりがち)。
•実務コーディングは「上位でも半分前後」なので、現場導入は“監督つき”が前提になりやすい。
•事実性は、最先端でも70%未満という厳しめの現実が見えてきた(特にマルチモーダル等が弱点になりやすい)。
•汎化推論は、モデル単体の改善に加えて「refinement loop」みたいな“考え方の設計”が性能を左右してきている。
(ChatGPTの以下の指示への回答)
「最新の生成AIの性能について、好奇心に基づいて自ら質問を生成しながら考えてください。」 December 12, 2025
1RP
現在、ロシアはドネツク州の80%弱を占領しているが、残りの20%(特にクラマトルシクとソロビャンシク)を奪取する為には2〜3年かかると言う説が多い。
ISWも同じで、2027年8月までかかるという見積もりだ。たまり、プーチンが戦争をやめない限り、この戦争はあと2〜3年は継続することになるだろう。 https://t.co/2Q281gQLpG December 12, 2025
1RP
Gemini-3-Flashがリリースされました。性能面ではSWE-benchにおいてClaude-Sonnet-4.5やGPT-5.2に近いスコアを記録していますが、特筆すべきはそのコストパフォーマンスで、価格は1/5に抑えられています。もちろん、長考モデルやコード生成モデルにおいて不可欠な生成速度も非常に高速です。今回のGemini-2.5から3への進化には、私のチームが所属する強化学習チームのブレイクスルーも大きく貢献しており、開発者の一員として大変嬉しく思います。https://t.co/0ts2GNNC1t December 12, 2025
1RP
エンノイのボーダースウェット新品S出てるじゃん!ネイビーめっちゃいい色で俺も欲しいわ😂
ENNOY BORDER CREW NECK SWEAT (NAVY) S
https://t.co/bYp3bE9Pav December 12, 2025
FSWで走ろうとあえてCVTのハイブリッドを買って三年後くらいに走りに行こうと思ってたら主催者に意図を組まれて今年走れって言われてどうせなら無給油で走ってやれと最後まで周回したら周回数不足だったけど敢闘賞で非適合のタイヤを貰った December 12, 2025
まあ!こんな素敵なアイアンセット見つけちゃった!✨ キャロウェイの「Bobby Jones S2H2」だって!このフォルム、たまらないよねー。
キャロウェイ ボビージョーンズ S2H2 3-SW 9本セット DG R300
https://t.co/oneOBEzn8Z December 12, 2025
PSYCHOWORKSスウェット各種あとわずか⚡️
ぜひお好みのグラフィックを見つけてくださいませ👀❤️🔥
3EYE TIGER SWEAT
Color : BLACK
Size : FREE
Price : ¥19,000-(tax in)
※通販はDMにて承ります
3EYE MOUSE SWEAT
Color : BLACK
Size : FREE
Price : ¥19,000-(tax in)
※通販はDMにて承ります https://t.co/SDutMZWijF December 12, 2025
まあ上がると思ってた。SWCC Corporation(05)は10400.0円で取引中、2.86%の上昇。ずっと様子見てたが、財務が良さそうだったから興味を持っていた。 December 12, 2025
エンノイのボーダーフーディXL新品出てるよ、身幅135cmのゆったり感がマッチョ体型に最高だわ羨ましい!
ENNOY BORDER HOODIE SWEAT (BLACK)
https://t.co/1e7ClM5aRA December 12, 2025
ホストゲーム開幕戦👍
選手・スタッフ・サポーター・スポンサー・地域・・・
全てが一丸となり、ノーサイドの瞬間まで挑み続け🔥🔥🏉
指先ほどの差を制してでも、絶対に勝ちましょう!!
しんどい時は松倉を思い出してほしい…
絶対に超えられるから!
#倭国製鉄釜石シーウェイブス #釜石SW #ラグビー #リーグワン December 12, 2025
ミリオンホース引退!とにかく多くの興奮をありがとう!!!W×10勝&S×5勝はもちろん初、●んぽランキングでも単独1位。念願のSWBC完全制覇&WBCシリーズ完全制覇。オールピン継続の王道9連勝。驚愕の連続で途中笑いが止まりませんでした🤣これが"走る馬"なんだと…さぁ残すはSKY!勝ってやめるぞ😤💪 https://t.co/nMzqpGUBOl December 12, 2025
ランチボックスミニ改 クローラー仕様、完成しました。
おうちラジコンとして楽しんでいたランチボックスミニ 。もっとクローラー的に遊べるようホイールベース延長、足回りの可動範囲を拡大。
市場を見渡せば他社製ミニクローラーがいろいろありますが、ここはランチボにこだわりあくまでSW-01シャーシベースで。なかなか楽しい一台ができました。
#ランチボックス #ランチボックスミニ #sw01
#タミヤランチボックス #ランチボ
#TAMIYA #タミヤ #tamiyarc #タミヤRC December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




