オフライン
0post
2025.12.01 07:00
:0% :0% (40代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
強化学習ではスケールによる創発はこれまでみられてなかった。今回、対比強化学習と1000層にも及ぶ深いネットワークを組み合わせることで、スケールによって大きな性能向上が達成し、様々な能力を創発できることが示された。NeurIPS 2025のベストペーパーの一つに選ばれている。
この研究では、対比RL(Contrastive Reinforcement Learning)を使っている。これは報酬は疎(ゴールに到達したら1をもらえて、それ以外は0)、デモデータは不要な手法である。
方策は現在の状態sとゴールgの両方を入力として受け取る。
π(a | s, g)
対比RLはactor-criticに基づく手法であり、criticは状態・行動とゴールがどれだけ一致するかを評価、actorはcriticを最大化するような行動を選択するように学習する。
criticは、「今の状態sでその行動aをとった時、それがゴールgに向かう良い行動か」を評価する。具体的には状態・行動ペアの埋め込みと、ゴール埋め込みのL2距離の形で定義される。
f(s, a, g) = ||Φ(s, a) - Ψ(g)||^2
Φ(s, a):状態・行動埋め込み
Ψ(g):ゴール埋め込み
CriticはInfoNCE目的関数で学習する。バッチ内で同じ軌跡内の正例と、別の軌跡から得られた別の目標g'を負例として、分類学習する。このように強化学習を回帰ではなく分類問題として扱うことがスケール化時の安定化でクリティカルと指摘されている。
ActorはCriticを最大化するように更新される。つまり、Criticが、「今の行動をとることが目標に向かっている」と判断する行動を選ぶように学習する。
InfoNCEは、従来のRLで使われていたTD学習で必要な未来状態の理解を分類問題で代替し、TDの不安定性を回避することで大規模化を成功させたといえる。
従来のネットワークは4ブロックのResNetを利用するが、今回は各ブロック内のdenseLayerを通常の4から64まで増やしたネットワークで検証した。一番大きい実験では256(256*4=1024)まで増やしている。
ネットワーク深さを増やすと、ロボット操作タスクでの性能は2~5倍、迷路系タスクでは20倍、ヒューマノイド系タスクでは50倍の性能改善がみられた
このような性能改善は従来RLではみられなかったものである。
また、深さを増やしていった時、性能は滑らかに改善するのではなく、ある臨界点を超えると突然大きく更新されているのがみられた。
例えば、ヒューマノイドタスクでは深さ4の時は転びながらゴールに向かって体を投げていたものが、深さ16で直立歩行が学習される、深さ256では体を折りたたんではね超えるといったような、これまで報告されていない複雑なスキルが創発されていることが確認された。
今回のスケーリングで重要だったこととして、まずバッチサイズは大きいほどよいことが確認された。バッチサイズは256では足らず、1024や4096が必要だった。これはInfoNCEの負例サンプルが十分ないと未来分布を正確に識別できるような表現がえられないためといえる。
またネットワークの幅と深さを比較すると、深さの方がはるかに効果的であることがわかった。深さにおいてもネットワークのなかではCriticの状態・行動ペアとゴールの埋め込みネットワークの両方を伸ばした時が重要であることがわかった。このように対比RLでは、Criticが重要であり、ActorはCriticの誘導に従いさえすればよいことが示された
また、探索ノイズの有無で性能はほとんど変わらず、今回深さによる未来予測・表現能力の向上が性能向上に起因していることがわかった。
今回うまくいった対比RLはスケール化で性能向上できるだけでなく、従来のRLと比べて次の利点がある
・ブートストラップがなく安定する
・目標が固定
・Q学習のoverestimation(ノイズによって実際よりも良いと誤解した行動をとる)問題がない
・デモを必要としない
コメント
===
対比RL自体は数年前から提唱されていたものだが、今回はネットワークを深くすることで様々な能力が創発し、大きく性能向上されることが示された。
また、今回得られるCriticは非常に応用範囲が広く、汎化することも重要である(直前のサツケバーのコメントにも関連)。このCriticは様々なタスクを意図せず学習する際に、重要な役割を果たしていくだろう。Criticゴール到達予測器というよりも「汎用の未来状態予測器」(今の状態でどの行動をとったら、最終的にどうなるのか)といってもいいのではないだろうか
結果はインパクトが大きいが、まだよくわかっていないことが多い。まず、なぜネットワークの深さをここまですると性能があがるかについてはよくわかっていない。Deep Priorの論文や生成モデルの一部のpaperではdense層の数を非常に多くすると大きな性能向上が達成できるとされた。今回も通常では考えられないほど増やしている。ここまで増やした場合に性能が出るという部分は表現力だけでなく最適化問題としても特徴がでてくるのだと思われる。
また、スケール化による性能向上は、この対比強化学習の枠組みで現れ従来のTD手法では改善がみられないこと、またオフライン環境では効果がみられないこと(予備実験までだが)から、まだ何が決定的な要因なのかの理解にいたっていない。 December 12, 2025
3RP
本日も練習会をご視聴頂き、ありがとうございました。
二度の配信外練習を経てインテンポにも手が届き、ここからは更に“情熱”の表現を模索していく段階に...!
次回は12月5日(金)夜、セラフ・ダズルガーデンのチャンネルにてオフライン練習会となります。
お楽しみに!
#楽団ViVO December 12, 2025
2RP
昨日は時間は短かったけど杏さんチャージできて良かったよ。でももう会いたくなっちゃった🥺杏さんに会いたい💜
杏さん大好き💜
2025.11.30オフライン特典会品川
#杏ジュリア
#超ときめき宣伝部 https://t.co/CVyKV3eRuJ December 12, 2025
1RP
ギガンテスのパーツ、オフラインになると全然出ないってなってたけど
8時間かけて(最後の1時間だけで5つ)ようやくミッション終えれた
体験談
ギガンテス出ないなら操作キャラを変える
私の場合デデデにしたら沼から抜けた
(普段マホロア)
設定は何も変えない
変えると逆に出なくなる説がある
クリアチェッカーから+で挑戦した方が堅実
ギガンテスの試合は伝説のパーツが多い、予告が存在しない(と思っている)から、
リセマラするなら、
予告が嘘でも本でも存在する、
残り3分30秒になっても何も伝説パーツが存在しない、
伝説パーツが何かしらあって、残り2分になってもギガンテスパーツが存在しないのならやり直していいと思う
#エアライダー December 12, 2025
12月の目標🎄
・制作物投稿×3
・Xで楽しく交流する
・目の前のお仕事に全力で向き合う
・楽しみなオフラインでの交流で、たくさんのことを吸収する!
出来たことにしっかりと目を向けること!を意識して12月も進んでいきます✨
今月もどうぞよろしくお願いいたします! December 12, 2025
嬉しい🥰
1億曲を超える曲が聴き放題
Amazon Music3ヶ月無料キャンペーン
無料の対象者か確認できる
✅https://t.co/ZIl0QSNhRf
高音質 オフライン再生🎉
最近サブスク解禁多い♡
SnowMan、SixTONES、V6!
ミセス / 米津玄師 / 藤井風 / BE:FIRST / Ado / LiSA #ad December 12, 2025
とじともオフライン版、ログイン1494日目
★4古波蔵エレン【祭祀礼装・禊】
決めポーズがいかにもな感じでカッコよいぜ
#とじとも https://t.co/mOm9UGxEpQ December 12, 2025
本日は、エンジニア女子会が開催されます🎉
ココロザシはフルリモート環境だからこそ、
オフラインで交流できる機会を大切にしています🌟
私は今回が初参加なのでドキドキワクワクです!
当日の様子は後日ポストしますのでお楽しみに🤭 December 12, 2025
お〜ざ〜す♪
エテルノ滞在3,962日目。
今朝はいさりん♡ デート服&ブリリアントヘア2024
さすが二穂様の従者!朝からキッチリしてらっしゃる。
でも、その割に意外とポンコツなイメージなのはナゼだろう!?
千葉は晴れ時々曇り🌤20℃。暑いぞ!
#スクスト2 #スクスト2オフライン #灰島依咲里 https://t.co/jQNI9kmQnM December 12, 2025
アノ、昨日のりうさんの配信最後の方のだいすき愛してるよおやすみみたいな事言ってるとこからオフラインになる所までの画録あるひとください😭😭最後の方だけ撮れてなかったの😭😭 December 12, 2025
KCONドイツ限定の拓実トレカ出てるで!現地特典とか羨ましすぎて禿げたw(^ω^)
KCON ドイツ オフライン トレカ 川西拓実
https://t.co/1KUNEjaFYD December 12, 2025
#エヌイチ #AIコンサル #AI勉強会
AI勉強会・オフライン交流会に参加。スタッフの方との直接の会話がものすごいメリットと感じるし、寄り添い度合いが半端ない。こちらも必然的に何かGIVEしたくなる。そして何より同じ方向を向いた仲間ができるのが大きいし刺激になるいい環境! December 12, 2025
オフライン再生◎
🔻君の名は。
https://t.co/kJVPp5r1Dw
Amazon Audibleは
✔ 1ヶ月無料
✔ 期間内解約しても完全タダ
🔻学生は半年無料!
https://t.co/q7twyMlez2
#pr 新海誠監督 声優 ナレーション 朗読 朴璐美 神木隆之介 長澤まさみ 花澤香菜 上白石萌音 悠木碧 12/01 07:44 December 12, 2025
今年3月に機種変更した旧端末のiPhone8のスクスト2を起動したら、サービス終了のご案内と共にオフライン版への更新が始まって、メインのiPhone16とは別のエテルノ世界が始まった
今は各隊長の端末毎に異なる数多のエテルノ世界が存在してるのかと思うと感慨深い
#スクスト2 https://t.co/7Cm2Fi4Jqk December 12, 2025
Amazonブラックフライデーのサブスク
🎧 Audibleプレミアム 3ヶ月99円+Kindle本300円OFFクーポン
・通常1,500円→99円は大事件
・ビジネス書/小説/教養など聴き放題
・通勤・家事・寝る前など
👉 https://t.co/DV0JPSF2OT
━━━━━━━━━━━━━━━
📚 Kindle Unlimited 3ヶ月99円
・漫画・雑誌・実用書–なんでも読める
・1冊でも読めば即ペイ
・読書の習慣づくりには最強の入口
👉 https://t.co/IdBzcrqbVG
━━━━━━━━━━━━━━━
🎵 Amazon Music Unlimited 3ヶ月無料
・無料で使い放題
・オフライン再生OK
・作業BGM・移動・ランニングの強い味方
👉 https://t.co/4R2yv8OazY
Audible → 耳のすき間時間
Kindle → 手が空いた時間
Music → ずっと流す時間 December 12, 2025
トラウマからくる生きづらさ。その解放のためにやって後悔したこと3つ。
①トラウマ記憶を掘り返す
②ノートに感情を書く
③自分と徹底的に向き合う
これで私は余計にこじらせてしまいました。
実はどれも回復に役立つ方法とされているもの。実際の心理療法でも使われる、大切なプロセスです。
じゃあ、なぜ私はこじれたのか。
「やり方」と「状況」が悪かったからです。
・たった一人で
・安全じゃない場所で
・自分を責めながら
この状態で記憶を掘り、ノートを書きなぐり、自分を追い詰める。 これでは、心も体もすり減るだけ。
私は適応障害になってから何年も、「自分を責める特訓」を一人で続けていたような状態でした。
その状態で無理に向き合っても、体は勘違いします。 「また一人で耐えなきゃいけない」 「助けなんて来ない」と。
体が覚えている恐怖は、「安全を感じながら」有効なことを行うことで初めて溶けていきます。
わたしの場合は安全な相手の前で、話すということを繰り返す中で身体が「安心」を少しずつ理解できるようになっていった。警戒状態を弱めていった。
私はこれを体験しました。
でも心理療法の助けも併用していました。とはいえ、その治療の効果が体に届いたのは「安全な人とのつながり」という土台があったのも影響している。
だから伝えたいのは、 「記憶に触れるな」「ノートを書くな」ではありません。
「安全じゃない状態で、一人きりでやみくもに良さげなことをやり続けること」 それは虚しい努力になってしまうということです。
この話を聞いて「一人で抱え込むのをやめてみたい」 「安全に話してみたい」
そんな気持ちが、少しでも動き始めている人がいたら教えてください。わたしはオンライン・オフラインでそういう場を開いています。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。




