1
learning
0post
2025.12.02 08:00
:0% :0% (50代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
強化学習ではスケールによる創発はこれまでみられてなかった。今回、対比強化学習と1000層にも及ぶ深いネットワークを組み合わせることで、スケールによって大きな性能向上が達成し、様々な能力を創発できることが示された。NeurIPS 2025のベストペーパーの一つに選ばれている。
この研究では、対比RL(Contrastive Reinforcement Learning)を使っている。これは報酬は疎(ゴールに到達したら1をもらえて、それ以外は0)、デモデータは不要な手法である。
方策は現在の状態sとゴールgの両方を入力として受け取る。
π(a | s, g)
対比RLはactor-criticに基づく手法であり、criticは状態・行動とゴールがどれだけ一致するかを評価、actorはcriticを最大化するような行動を選択するように学習する。
criticは、「今の状態sでその行動aをとった時、それがゴールgに向かう良い行動か」を評価する。具体的には状態・行動ペアの埋め込みと、ゴール埋め込みのL2距離の形で定義される。
f(s, a, g) = ||Φ(s, a) - Ψ(g)||^2
Φ(s, a):状態・行動埋め込み
Ψ(g):ゴール埋め込み
CriticはInfoNCE目的関数で学習する。バッチ内で同じ軌跡内の正例と、別の軌跡から得られた別の目標g'を負例として、分類学習する。このように強化学習を回帰ではなく分類問題として扱うことがスケール化時の安定化でクリティカルと指摘されている。
ActorはCriticを最大化するように更新される。つまり、Criticが、「今の行動をとることが目標に向かっている」と判断する行動を選ぶように学習する。
InfoNCEは、従来のRLで使われていたTD学習で必要な未来状態の理解を分類問題で代替し、TDの不安定性を回避することで大規模化を成功させたといえる。
従来のネットワークは4ブロックのResNetを利用するが、今回は各ブロック内のdenseLayerを通常の4から64まで増やしたネットワークで検証した。一番大きい実験では256(256*4=1024)まで増やしている。
ネットワーク深さを増やすと、ロボット操作タスクでの性能は2~5倍、迷路系タスクでは20倍、ヒューマノイド系タスクでは50倍の性能改善がみられた
このような性能改善は従来RLではみられなかったものである。
また、深さを増やしていった時、性能は滑らかに改善するのではなく、ある臨界点を超えると突然大きく更新されているのがみられた。
例えば、ヒューマノイドタスクでは深さ4の時は転びながらゴールに向かって体を投げていたものが、深さ16で直立歩行が学習される、深さ256では体を折りたたんではね超えるといったような、これまで報告されていない複雑なスキルが創発されていることが確認された。
今回のスケーリングで重要だったこととして、まずバッチサイズは大きいほどよいことが確認された。バッチサイズは256では足らず、1024や4096が必要だった。これはInfoNCEの負例サンプルが十分ないと未来分布を正確に識別できるような表現がえられないためといえる。
またネットワークの幅と深さを比較すると、深さの方がはるかに効果的であることがわかった。深さにおいてもネットワークのなかではCriticの状態・行動ペアとゴールの埋め込みネットワークの両方を伸ばした時が重要であることがわかった。このように対比RLでは、Criticが重要であり、ActorはCriticの誘導に従いさえすればよいことが示された
また、探索ノイズの有無で性能はほとんど変わらず、今回深さによる未来予測・表現能力の向上が性能向上に起因していることがわかった。
今回うまくいった対比RLはスケール化で性能向上できるだけでなく、従来のRLと比べて次の利点がある
・ブートストラップがなく安定する
・目標が固定
・Q学習のoverestimation(ノイズによって実際よりも良いと誤解した行動をとる)問題がない
・デモを必要としない
コメント
===
対比RL自体は数年前から提唱されていたものだが、今回はネットワークを深くすることで様々な能力が創発し、大きく性能向上されることが示された。
また、今回得られるCriticは非常に応用範囲が広く、汎化することも重要である(直前のサツケバーのコメントにも関連)。このCriticは様々なタスクを意図せず学習する際に、重要な役割を果たしていくだろう。Criticゴール到達予測器というよりも「汎用の未来状態予測器」(今の状態でどの行動をとったら、最終的にどうなるのか)といってもいいのではないだろうか
結果はインパクトが大きいが、まだよくわかっていないことが多い。まず、なぜネットワークの深さをここまですると性能があがるかについてはよくわかっていない。Deep Priorの論文や生成モデルの一部のpaperではdense層の数を非常に多くすると大きな性能向上が達成できるとされた。今回も通常では考えられないほど増やしている。ここまで増やした場合に性能が出るという部分は表現力だけでなく最適化問題としても特徴がでてくるのだと思われる。
また、スケール化による性能向上は、この対比強化学習の枠組みで現れ従来のTD手法では改善がみられないこと、またオフライン環境では効果がみられないこと(予備実験までだが)から、まだ何が決定的な要因なのかの理解にいたっていない。 December 12, 2025
2RP
こんばんは☕🌸
お越し下さり誠にありがとうございました💛
Thank you to everyone who came and join to my stream.
https://t.co/NnREqUIrIz
I raided @a_ace1101 まーぶるにゃん🌸
#ENVtuber #learningJapanese https://t.co/6MtSU2psKU https://t.co/l8UnsCcLHN December 12, 2025
1RP
【FXクオンツトレードの王道:平均回帰の特性】
現在、”Graph Learning for Foreign Exchange Rate Prediction and Statistical Arbitrage” という論文を読み、FX取引について学習しています。
為替相場が持つ「平均回帰性」に着目し、その特性を活かしたトレード戦略を構築するため、価格変動を確率過程としてモデリングすることを検討しています。
内容も面白いです。いろいろと実験で平均回帰の特性を調べたいと思います。
論文のURL
https://t.co/0jgwVtFnse December 12, 2025
Discover Langmate 🇯🇵 the Japanese app that connects you with real Japanese people, lets you exchange culture, and have fun learning languages! 🎉🎌 楽しみましょう!
https://t.co/i5tI3wC1dS
#Japan #nihongo #倭国語 #learnjapanese #japaneselanguage #makefriends #Langmate December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



