1
安定化
0post
2025.12.03 01:00
:0% :0% (20代/男性)
人気のポスト ※表示されているRP数は特定時点のものです
「関係者によると、議連側は10月下旬の高市内閣発足以降、水面下で中国側に年内訪中を打診していた。中国共産党の対外交流部門、中央対外連絡部(中連部)の劉海星部長との会談を模索しているが、中国側からの明確な返答はないという。」
→関係者が今この日中信頼回復プロセスに対して若干ネガティブな情報をマスコミにリークしたのは戦略的判断(何の目的?)なのか、それともただ不意に語ってしまったのか。
本チャネル(小渕優子・日中議連チャネル)も含めてチャイナ側にアクセスしようとする試みはリスク回避安定化装置としてポジティブなのだけれども、倭国側対北京中央チャネル本命の小渕優子氏をもってしても「大使との接触」という比較的低いレイヤーでのキャッチボールしか、まだできていないことが露呈するのは総合的には安心できる材料ではない。
首相官邸がいくつかの対北京中央チャネル開拓を必死に試みているはずだけれども、そんなに一朝一夕に信頼関係を構築できるわけもなく。
北京中央側視点に立てば、今回の台湾関連問題だけでなく、恒常的なトップ外交/対高市首相交渉として、倭国側の誰を信頼したら良いのか(マスコミに一切漏らさず、ときには外務省にも話さず、水面下の隠密行動がとれて、エーカッコシーではなく、高市首相と直接繋がり、高市首相が個人的に信頼する、それなりに重鎮の政治家密使たりうるか)、が不明な状況は続く。そして、そうしたチャネルが無ければ、今回の台湾関連問題でなくとも、また日中間の激しい衝突は発生するはず。
これは、倭国側だけがへりくだってチャイナ側とコンタクトとるべき、という話ではなく、チャイナ側のほとんどの高度政治官僚は常に総書記に直接連結されていて、倭国側政治家は総理に直接連結されていないという構造があるから。一見すると、倭国側だけがチャネル窓口要員選定に努力しているように誤解されがちだけども、そういうことではない。北京中央側は特別なチャネル窓口を用意する必要がなく、外部からは、適当な紅い細胞にアクセスすれば紅いコアにたどり着く。
チャイナ側は政治官僚機構は、ほぼ一枚岩といえるので、倭国側がアクセスはしやすい。どのレイヤーに話を持ち込んでも、十分に指導部に伝達される。
いずれにしても、倭国側としてのレッドライン/落としどころ/ソフトランディング協議などについての「高市首相個人の思考」は、いつかは北京中央側に直接伝えねばならず、それがいつになるんだろうか、…とトーストとコーヒーを朝食にとりながら眺めたニュース。一般ピーポーの僕は関与しないことなので、「関係者はたいへんだなぁ」とボンヤリおもった、まる
https://t.co/u7YXThlS1f December 12, 2025
1RP
📢動画投稿
『ナゲ式 状況別 読み合い論~立ち回り編~』大局の流れを把握して、試合の安定化を目指せ!!【GGST】
https://t.co/z0vklPrIu8
今回は立ち回り編です。内容自体はかなりシンプルなので、じっくりめに話をしています。
チャンネル登録や高評価よろしくお願いします🫡🫡🫡 https://t.co/Y30ReZpJ5D December 12, 2025
強化学習ではスケールによる創発はこれまでみられてなかった。今回、対比強化学習と1000層にも及ぶ深いネットワークを組み合わせることで、スケールによって大きな性能向上が達成し、様々な能力を創発できることが示された。NeurIPS 2025のベストペーパーの一つに選ばれている。
この研究では、対比RL(Contrastive Reinforcement Learning)を使っている。これは報酬は疎(ゴールに到達したら1をもらえて、それ以外は0)、デモデータは不要な手法である。
方策は現在の状態sとゴールgの両方を入力として受け取る。
π(a | s, g)
対比RLはactor-criticに基づく手法であり、criticは状態・行動とゴールがどれだけ一致するかを評価、actorはcriticを最大化するような行動を選択するように学習する。
criticは、「今の状態sでその行動aをとった時、それがゴールgに向かう良い行動か」を評価する。具体的には状態・行動ペアの埋め込みと、ゴール埋め込みのL2距離の形で定義される。
f(s, a, g) = ||Φ(s, a) - Ψ(g)||^2
Φ(s, a):状態・行動埋め込み
Ψ(g):ゴール埋め込み
CriticはInfoNCE目的関数で学習する。バッチ内で同じ軌跡内の正例と、別の軌跡から得られた別の目標g'を負例として、分類学習する。このように強化学習を回帰ではなく分類問題として扱うことがスケール化時の安定化でクリティカルと指摘されている。
ActorはCriticを最大化するように更新される。つまり、Criticが、「今の行動をとることが目標に向かっている」と判断する行動を選ぶように学習する。
InfoNCEは、従来のRLで使われていたTD学習で必要な未来状態の理解を分類問題で代替し、TDの不安定性を回避することで大規模化を成功させたといえる。
従来のネットワークは4ブロックのResNetを利用するが、今回は各ブロック内のdenseLayerを通常の4から64まで増やしたネットワークで検証した。一番大きい実験では256(256*4=1024)まで増やしている。
ネットワーク深さを増やすと、ロボット操作タスクでの性能は2~5倍、迷路系タスクでは20倍、ヒューマノイド系タスクでは50倍の性能改善がみられた
このような性能改善は従来RLではみられなかったものである。
また、深さを増やしていった時、性能は滑らかに改善するのではなく、ある臨界点を超えると突然大きく更新されているのがみられた。
例えば、ヒューマノイドタスクでは深さ4の時は転びながらゴールに向かって体を投げていたものが、深さ16で直立歩行が学習される、深さ256では体を折りたたんではね超えるといったような、これまで報告されていない複雑なスキルが創発されていることが確認された。
今回のスケーリングで重要だったこととして、まずバッチサイズは大きいほどよいことが確認された。バッチサイズは256では足らず、1024や4096が必要だった。これはInfoNCEの負例サンプルが十分ないと未来分布を正確に識別できるような表現がえられないためといえる。
またネットワークの幅と深さを比較すると、深さの方がはるかに効果的であることがわかった。深さにおいてもネットワークのなかではCriticの状態・行動ペアとゴールの埋め込みネットワークの両方を伸ばした時が重要であることがわかった。このように対比RLでは、Criticが重要であり、ActorはCriticの誘導に従いさえすればよいことが示された
また、探索ノイズの有無で性能はほとんど変わらず、今回深さによる未来予測・表現能力の向上が性能向上に起因していることがわかった。
今回うまくいった対比RLはスケール化で性能向上できるだけでなく、従来のRLと比べて次の利点がある
・ブートストラップがなく安定する
・目標が固定
・Q学習のoverestimation(ノイズによって実際よりも良いと誤解した行動をとる)問題がない
・デモを必要としない
コメント
===
対比RL自体は数年前から提唱されていたものだが、今回はネットワークを深くすることで様々な能力が創発し、大きく性能向上されることが示された。
また、今回得られるCriticは非常に応用範囲が広く、汎化することも重要である(直前のサツケバーのコメントにも関連)。このCriticは様々なタスクを意図せず学習する際に、重要な役割を果たしていくだろう。Criticゴール到達予測器というよりも「汎用の未来状態予測器」(今の状態でどの行動をとったら、最終的にどうなるのか)といってもいいのではないだろうか
結果はインパクトが大きいが、まだよくわかっていないことが多い。まず、なぜネットワークの深さをここまですると性能があがるかについてはよくわかっていない。Deep Priorの論文や生成モデルの一部のpaperではdense層の数を非常に多くすると大きな性能向上が達成できるとされた。今回も通常では考えられないほど増やしている。ここまで増やした場合に性能が出るという部分は表現力だけでなく最適化問題としても特徴がでてくるのだと思われる。
また、スケール化による性能向上は、この対比強化学習の枠組みで現れ従来のTD手法では改善がみられないこと、またオフライン環境では効果がみられないこと(予備実験までだが)から、まだ何が決定的な要因なのかの理解にいたっていない。 December 12, 2025
custom inner attributes、安定化してほしい...
言われているように絶対パス(hooqなら `#![::hooq::hooq(...)]` )しか許さないようにすればいいだけなんじゃないの...?
https://t.co/P7Q3QLaHBF December 12, 2025
<ポストの表示について>
本サイトではXの利用規約に沿ってポストを表示させていただいております。ポストの非表示を希望される方はこちらのお問い合わせフォームまでご連絡下さい。こちらのデータはAPIでも販売しております。



