1
安定化
0post
2025.12.02 04:00
:0% :0% (50代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
国民民主党がずっと主張してきた「自賠責特会からの"借金"の一括繰戻し」(約5,700億円)の意義を、「ベストカー」さんが分かりやすく解説してくれています。
なにより、自動車事故の被害者支援・交通安全対策の安定化につながります。
本当に実現できて良かったです。 https://t.co/cXMFpz5Szu December 12, 2025
2RP
強化学習ではスケールによる創発はこれまでみられてなかった。今回、対比強化学習と1000層にも及ぶ深いネットワークを組み合わせることで、スケールによって大きな性能向上が達成し、様々な能力を創発できることが示された。NeurIPS 2025のベストペーパーの一つに選ばれている。
この研究では、対比RL(Contrastive Reinforcement Learning)を使っている。これは報酬は疎(ゴールに到達したら1をもらえて、それ以外は0)、デモデータは不要な手法である。
方策は現在の状態sとゴールgの両方を入力として受け取る。
π(a | s, g)
対比RLはactor-criticに基づく手法であり、criticは状態・行動とゴールがどれだけ一致するかを評価、actorはcriticを最大化するような行動を選択するように学習する。
criticは、「今の状態sでその行動aをとった時、それがゴールgに向かう良い行動か」を評価する。具体的には状態・行動ペアの埋め込みと、ゴール埋め込みのL2距離の形で定義される。
f(s, a, g) = ||Φ(s, a) - Ψ(g)||^2
Φ(s, a):状態・行動埋め込み
Ψ(g):ゴール埋め込み
CriticはInfoNCE目的関数で学習する。バッチ内で同じ軌跡内の正例と、別の軌跡から得られた別の目標g'を負例として、分類学習する。このように強化学習を回帰ではなく分類問題として扱うことがスケール化時の安定化でクリティカルと指摘されている。
ActorはCriticを最大化するように更新される。つまり、Criticが、「今の行動をとることが目標に向かっている」と判断する行動を選ぶように学習する。
InfoNCEは、従来のRLで使われていたTD学習で必要な未来状態の理解を分類問題で代替し、TDの不安定性を回避することで大規模化を成功させたといえる。
従来のネットワークは4ブロックのResNetを利用するが、今回は各ブロック内のdenseLayerを通常の4から64まで増やしたネットワークで検証した。一番大きい実験では256(256*4=1024)まで増やしている。
ネットワーク深さを増やすと、ロボット操作タスクでの性能は2~5倍、迷路系タスクでは20倍、ヒューマノイド系タスクでは50倍の性能改善がみられた
このような性能改善は従来RLではみられなかったものである。
また、深さを増やしていった時、性能は滑らかに改善するのではなく、ある臨界点を超えると突然大きく更新されているのがみられた。
例えば、ヒューマノイドタスクでは深さ4の時は転びながらゴールに向かって体を投げていたものが、深さ16で直立歩行が学習される、深さ256では体を折りたたんではね超えるといったような、これまで報告されていない複雑なスキルが創発されていることが確認された。
今回のスケーリングで重要だったこととして、まずバッチサイズは大きいほどよいことが確認された。バッチサイズは256では足らず、1024や4096が必要だった。これはInfoNCEの負例サンプルが十分ないと未来分布を正確に識別できるような表現がえられないためといえる。
またネットワークの幅と深さを比較すると、深さの方がはるかに効果的であることがわかった。深さにおいてもネットワークのなかではCriticの状態・行動ペアとゴールの埋め込みネットワークの両方を伸ばした時が重要であることがわかった。このように対比RLでは、Criticが重要であり、ActorはCriticの誘導に従いさえすればよいことが示された
また、探索ノイズの有無で性能はほとんど変わらず、今回深さによる未来予測・表現能力の向上が性能向上に起因していることがわかった。
今回うまくいった対比RLはスケール化で性能向上できるだけでなく、従来のRLと比べて次の利点がある
・ブートストラップがなく安定する
・目標が固定
・Q学習のoverestimation(ノイズによって実際よりも良いと誤解した行動をとる)問題がない
・デモを必要としない
コメント
===
対比RL自体は数年前から提唱されていたものだが、今回はネットワークを深くすることで様々な能力が創発し、大きく性能向上されることが示された。
また、今回得られるCriticは非常に応用範囲が広く、汎化することも重要である(直前のサツケバーのコメントにも関連)。このCriticは様々なタスクを意図せず学習する際に、重要な役割を果たしていくだろう。Criticゴール到達予測器というよりも「汎用の未来状態予測器」(今の状態でどの行動をとったら、最終的にどうなるのか)といってもいいのではないだろうか
結果はインパクトが大きいが、まだよくわかっていないことが多い。まず、なぜネットワークの深さをここまですると性能があがるかについてはよくわかっていない。Deep Priorの論文や生成モデルの一部のpaperではdense層の数を非常に多くすると大きな性能向上が達成できるとされた。今回も通常では考えられないほど増やしている。ここまで増やした場合に性能が出るという部分は表現力だけでなく最適化問題としても特徴がでてくるのだと思われる。
また、スケール化による性能向上は、この対比強化学習の枠組みで現れ従来のTD手法では改善がみられないこと、またオフライン環境では効果がみられないこと(予備実験までだが)から、まだ何が決定的な要因なのかの理解にいたっていない。 December 12, 2025
本当に国会見てるのかも怪しい
実際に予算委員会を見れば、立憲の質疑の多くが真っ当だったことは一目瞭然です。
通告に遅れた事実はなく国光副大臣と松島みどり首相補佐官は官房長官に直接注意を受け、謝罪して投稿を削除
クマ質疑でクマ対策の予算の補正予算計上を実現させたし、蓮舫の質疑を受け自民党が県議を処分
立憲は財源を示した補正予算案を出してるけど、政府の補正予算案は来月になるとも言われているし、他の野党は出せてもいない
こういう仕事をするのが現実的でまともな野党ですよ
【立憲 質疑内容】
・物価高対策
・介護問題
・アベノミクスの評価
・責任ある積極財政について
・経済対策・消費税負担軽減について
・防衛費造成の前倒しについて
・総理の外交基本姿勢
・研究開発税制の企業名非公開問題
・高額療養費制度における患者負担額の見直し ・医療機関等への緊急支援および来年度の診療報酬改定
・攻めの予防医療と倭国版家庭医制度
・クマ対策
・議員定数の削減
・外国人問題
・皇位継承
・存立危機事態への言及
・政治とカネの問題
・防衛費増額の財源
・ガソリン・軽油の暫定税率廃止に関する与野党6党合意の遵守
・森友学園問題
・食品消費税0%実現
・拉致問題
・「奈良のシカ暴行」発言
・選択的夫婦別姓・通称使用
・お米券政策、重点支援地方交付金の拡大
・担い手支援、農業参画
・食料安全保障と生産調整
・米の需給と価格の安定化、備蓄米
・飼料用米と産地交付金
・国会質問の通告防衛増税
・日米関税問題
・領土問題
・ノーベル平和賞
・外国人政策
・迂回献金疑惑
・農業政策の補助率引き上げ
・安全保障関連経費とその財源
・外交・国際情勢、パレスチナ国家承認 December 12, 2025
8. 銀価格を下げてイカサマやってた大手銀行は破綻
- 概要: 価格操作を試みた銀行が、損失の蓄積により破綻に追い込まれました。
- 経済的背景: 銀行の破綻は、資本不足やカウンターパーティーリスクの連鎖を引き起こします。2023年のシリコンバレー銀行破綻を彷彿とさせ、銀市場の「スクイーズ」が銀行の脆弱性を露呈しました。この「イカサマ」(不正操作)の暴露は、規制当局の調査を招くでしょう。
9. 金融崩壊
- 概要: 銀行破綻がドミノ倒し的に広がり、金融システム全体の崩壊を招きました。
- 経済的背景: 銀市場の混乱が、信用収縮や株価下落を誘発し、グローバルなリセッションの引き金となります。FRBの信頼喪失が、ドル離れを加速させるリスクもあります。
10. FRB緊急記者会見
- 概要: FRBが事態収拾のため、緊急記者会見を開催しました。
- 経済的背景: 会見では、新たな金融支援策や市場安定化宣言が発表されるでしょうが、信頼回復が課題です。過去の例として、2020年のCOVID-19危機時のパウエル議長会見が参考になります。
全体の示唆と文脈
このシーケンスは、銀市場のボラティリティが中央銀行の権限と市場の民主化(小売投資家の台頭)の衝突を描いたものです。動画の文脈から、資本主義の「終わり」を予感させるドラマチックなナラティブですが、実際の金融史では、こうした危機はしばしば規制強化やシステム改革を促します。2025年12月2日現在、この出来事は市場の注目を集めており、さらなる動向を注視する必要があります。 December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



