AIが「自己適応」!言語モデルの新しい学習戦略 Self-Adapting Language Models
引用元:https://news.ycombinator.com/item?id=44271284
自己編集アプローチ、賢いね!
RLを使ってモデルが自分で学習しやすいように情報を再構築するんだ。
人間が数学と歴史でノートの取り方を変えるみたいに、知識の種類によって最適な表現があるって洞察がキモ。
知長組み込みの結果(GPT-4.1データで47% vs 46.3%、小規模モデルより断然高い)を見ると、データ量じゃなくてより良い学習形式を見つけられてるってわかる。
でも、壊滅的忘却問題は残ってるし、データ多様性が改善されたかはっきりしないね。
計算コストはエグい!
報酬評価に30〜45秒かかるから、ほとんどの用途じゃ現実的じゃない。
でも、最適な保持がホントに必要な高価値なドキュメント処理なら価値があるかも。
明確な評価指標があるタスクに限定されるのが最大の制約だね。
報酬計算には正解のQ&Aペアとかテストケースが必要。
それでも、技術文書とか教育コンテンツみたいに評価を生成できる分野では、新しい情報の処理を大幅に改善できる可能性あるよ。
まだ「継続的に自己改善するエージェント」の段階じゃないけど、モデルが自分の学習戦略を適応させる方向への重要な一歩って感じ。
俺の親しい友達で、数学の天才で早期(2010年代半ば)にMLやった2人が、これに似たアルゴリズムについていつも話してたんだ!
「NEAT/HyperNEAT」(Neuroevolution of Augmented Topologies)[0]ってやつ。
俺はMLの専門家じゃないけど、理解してる限りでは、NEATとこの論文の違いは、NEATがネットワークのトポロジーを進化させるのに対して、この論文は重みを進化させるってことかな。
ネットワーク構造を進化させるか、重みを進化させるか、同じ問題を解こうとする2つのアプローチみたいだね。
その2人の友達は、俺が今まで会った中で一番頭いい可能性があって、RLと進化的アルゴリズムがMLの今後の道筋だってホントに確信してたんだ。
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t…
人間ってすごいよね。
ニューロンを理解しようと仮説的なコンピューティングシステムを構築して、それが実際にはそうじゃないってわかっても、まあいいやって感じでそれでパラダイムシフトを起こす技術を築き上げてる。
そして、その架空のシステムから得たアイデアで今もそれを強化し続けてるんだから。
本物みたいに構築する知識も手段もないんだから、今はこれで進むしかないよね。
業界が入手可能なもので進むのは明らかだと思う。
とはいえ、脳みたいに動くと思ってる人たちの、情報がないままの過剰な盛り上がりは確かにうざいけど。
NEATに関するお気に入りの紹介動画はこちら!
SethBling’s MarI/O - Machine Learning for Video Games
https://www.youtube.com/watch?v=qv6UVOQ0F44
このアイデアに最近ハマったんだ!
遺伝的アルゴリズムを使って声のクローン(Kokoro用)にある程度成功した後、アーキテクチャを進化させられるか考えてみたんだ。
自己組織化知能のアイデアにはすごく興味あるけど、どうすれば実現可能なのか考えてしまうね。
LLMがどうなったかを考えると、こういうハイブリッドアプローチが一番いいのかも。
遺伝的アルゴリズム/遺伝的プログラミングの問題点は、集団がたどる経路をうまく扱わないといけないこと。
ディープラーニングのy = f(x)(f()がニューラルネットワークが計算するもの、Xとyが訓練データ)というより、強化学習に近いかな。
良いスコアリングアルゴリズムを見つけるのは難しい、GAは簡単にチートできちゃうからね…。
出典:経験談
Anthropicからも数日前に出てたよ、自己ファインチューニング!
https://arxiv.org/html/2506.10139v1
これやばいね!
「Claude 3.5 Sonnetのプロダクション用RMで評価すると、我々の教師なしアシスタントポリシーは、人間の教師ありRMで訓練されたポリシーとの一対一比較で60%勝つ」だって。
つまり、モデルは新しいモデルの訓練後の調整さえ、人間よりもうまくできるってことか。
ARC AGIのEverytopモデルはテスト時にファインチューニングみたいなやり方を使ってたんだって。ただ、彼らは例を1つしか持ってなくて、ファインチューニングのためにそれの変換(色とかミラーリングとか)をよくやってたみたいで、それは手作業でコード化されてたかもしれないね。
関連する進行中のスレッドだよ:Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
LLMに「仕事中に学習させる」(継続ファインチューニングなど)研究って今どこまで進んでるの?実用的なものにする上での課題(コスト?モデル崩壊?他?)を知ってる人いる?コードベースを時間かけて学べるモデル+コーディングエージェントとかさ。
大手はやってるだろうけど、外からLLMユーザーとして見ると、あまり話を聞かない気がする。今は訓練(例えば強化学習)改善に焦点で、訓練で学ばないことはコンテキストに詰める、って感じ。でも素朴には、訓練後に経験から学べないのがAGIへの最大の壁に見えるんだよね。
継続学習のやり方はまだ全然分かってないんだ。計算量、崩壊、忘却とか、ここで多くの人が言う通りだよ。
唯一の「現実的」な方法は、
1. モデルを訓練する
2. 新しいデータがくる
3. 新しいデータ全部とモデル全体を再訓練する
4. 繰り返す
5. これでも「時間」の保証はないんだけどね。
でもCL分野は、真の意味でのやり方には答えがほぼゼロ。解決策が矛盾してる部分が多くてめちゃくちゃ難しいんだ。モデルの表現空間を拡張しつつ、前の表現空間はほぼ同じに保つ?つまり、変更せずに修正する必要があるんだ。
一番困るのは、一番小さい自然な脳ですらこれが簡単にできること。俺には長い持論があるんだけど、要はAIもどうにか「睡眠」とか休憩が必要なんじゃないかってこと。
部外者/非学者として見ててAIのクールな点は、クローンが比較的安価ってことだね。睡眠/休憩は「クローン」にさせて、利点はローリングスケジュールで配布できるんじゃない?
1つのクローンが昼寝してる間にもう1つが働くってのはかなりクールだね。
でも、クローンは寝ずに動けないの?だったらクローンじゃなくてチームメイトっぽいね。
1つが働いてる間に別の1つが寝て、それから交代する。
もしこの方法がうまくいったら、今のアライメント方法は全部ポイだよ。それらは完全に別々のAIになるはず。
確信はないけど、俺はAIエンジニアでも数学者でもないからね。でも「ウェイクアップ」の時点でインスタンスを均一化するんじゃないかな。
例えば、「睡眠」中に、モデルの重み n
に関数/操作のリスト m
を適用して新しいモデル n + 1
を作る。n + 1
をクローンして仕事に送り出し、新しい訓練実行 m + 1
を開始して n + 2
を作る、ってことじゃない?
俺も最初にそう思ったんだ。継続的に訓練して、各サイクル後にクローンを再展開する。素人的にはこれは理にかなってるように見えるね 🤔
同じモデルを永久に訓練し続けるのは現実的じゃないよ。前に知ってたことを忘れ始めるからね。これの正式名称は「壊滅的忘却」っていうんだ。
LoRAについて調べてみるといいよ。部分的な再訓練方法で、モデル全体を再訓練するほどは必要ないんだ。それはこの論文が提案してることとは違うけどね。この論文の自己改善は、改善のためのルールすら自分で設定していて、 basically 新しいデータを今持ってるものから作り出してる。LoRA論文:https://arxiv.org/abs/2106.09685
これって今のモデルに限った話みたいだね。「オンライン学習」はモデルを運用しつつ学習を続けるための言葉で、もっと基本的なモデルでは昔から使われてたんだよ。
CL(継続学習)をどれだけ掘り下げたか分からないけど、オンライン学習は似てるけど同じじゃないよ。オンライン学習はRLに近い感じで、構造化された箱の中の環境だよ。その箱から出たり箱が変わりすぎたりすると崩壊する。CLはメタ学習にもっと似てるね。これまでの知識を維持しつつ新しい内容を学ぶことに重点があるんだ。CLはあらゆるモデルタイプにとって完全に未解決の問題だよ。EWCは良い試みのうちの一つ(個人的にお気に入り)だけど、大きな限界があるね。
そうだけど、RNNやエネルギーモデルに似てるね。それらは常に更新される単一の連続的な「状態」を維持しようとするんだ。CLが約束する「無限に続く」学習というよりは、「より遠くへ行く」という感じかな。スケール則は無限にスケールすれば100%AGIに繋がるっていう意味では正しい。でも同時に問題は、タスクごとの計算量を無限にスケールできないことだよ。RLは一般的にこの問題を解決するけど、未来を知ってるっていう深い前提があるんだ。箱の外に一歩でも出ると崩壊する。最小の自然脳は、タイムステップあたりの計算予算が固定されてて、未知の未来の状態に対応できる。これって本当に信じられないことだよ。
でも自然脳も寝るよね、それが君の言いたいことかな。でも、人間の脳でニューラル計算の大部分が評価なのか訓練なのか、そもそも明確なのかな?多分、脳は例えば20Tのモデル計算を実行できて、特定の時間に2Bのモデルを展開し、計算の大部分はバックグラウンドで新しいモデルを訓練してるのかも—つまり、スクラッチからの訓練以外は分からないって君が言うみたいに、もし計算能力の容量を大幅に下回って作業しているなら、実際にスクラッチから繰り返し積極的に訓練できるのかも(xAIクラスターならgpt4oサイズを数時間で訓練できるだろうしね)。
AGIは多分、これら2つの論文と新しい何か(おそらく蒸留の類)の組み合わせだろうね。
1. 崩壊を防ぐ -> モデルが「いっぱいになる」
https://arxiv.org/pdf/1612.00796
2. 忘れることがより良い汎化を引き起こす
https://arxiv.org/abs/2307.01163
3. これらを繋ぐ未知の論文
- 時間とともに汎化能力を高める「忘れる」モデルを許可する。
- 長い間これを作ろうとしたけど、ちょっと難しいんだ。
面白い示唆としては、もしこれが本当なら、AGIは「休憩」が必要で、人間がするように多様性の高い非タスクコンテンツを消費する必要があるだろうということだね。
LLMが一般的な推論能力がある兆候は全くないよ、むしろ逆だね。だからAGIについては落ち着いて。基本的な組み合わせができることは証明されてる(開発者として、アシスタントでコードを生成するたびにその証明を見てる)し、それだけでもすごいことだけど、「汎用知能」のようなものからはまだ遠いんだ。
僕の主張は、僕たちは既に擬似的な\静的推論器を持っているってことだよ。CLが僕たちの非推論器を推論器に変えるんだ。CLはAI研究の最初期から基本的に解決策のない未解決問題だった。その普及は、僕たちの推論に関する知識に非常に深い誤解があることを示してるんだ。
全然あり得るよ!ただそれについて話すのが好きなだけなんだ。以前の知識を「使える」状態に保ちながら分布外のコンテンツを学習する能力は、僕たちが現在持っている全てのAI手法を絶対に超強化する能力だとは言えるね。少なくとも、現在僕たちがやっている「全てを無限にスケールする」以外の正直な研究方向への試みだよ。自然脳が信じられないことをどうやってるか考えてみて。1. タイムステップあたりの計算予算が固定されてる。2. 以前の状態を維持しつつ、全く新しいタスクを継続的に学ぶ。これは僕のAIにぜひ欲しい能力だよ。スケール則は正しいけど、僕たちが人間に全く近づけない理由でもあるんだ。単純な仕事、例えば事務作業を考えてみて。各タイムステップは前のタイムステップに依存してる。複雑な仕事じゃないし、AIもしばらくはやれるだろうけど、時間が経つにつれて、その記憶を「振り返って」次のステップに繋げるのに必要な計算量は指数関数的に近いくらい増えるんだ。RAGもこの問題の完璧な例だよ。AGIはスパコンじゃなくてホワイトボードを持った子供によって解決されると強く信じてる。CLがそれが何を意味するかの僕の最善の推測だよ。多分すごいRLかエネルギータイプのメソッドかな、見たことないけど。
専門家じゃないけど、プライバシーは重要だと思うんだ(そうあるべき)。計算リソース的に、学習はユーザーごとじゃなくて全体でやるしかないだろうし、そうなるとセッション間で情報が漏れるリスクが高そう。
継続的な学習を安全にやる方法を見つけるのが、AGIへの最大の壁だってことには全面的に賛成だよ。
本当の理由は、自動評価を誰も信用してないってことだよ。評価スコアが上がっても、自動学習されたリリースが本当に性能向上したか自信が持てないんだ。だから今はみんなまとめて更新して、雰囲気で大丈夫そうか確認してから出してるんだよ。
一番の問題はアライメントだよ。LLMのファインチューニングでアライメントが崩れるのは知られてるから、継続的なファインチューニングでも理論的には崩れる可能性があるね。
もっとコメントを表示(1)
どんなアライメントの話かな?もっとファインチューニングすると以前の設定が崩れるのは、バグじゃなくてむしろ機能じゃない?
最も明白な壁は壊滅的忘却だよ。
それって絶対壁かな?他の人も言ってるけど、個人レベルで非公開の再学習ができるくらい計算リソースが増えたら可能になるかも。その場合、モデルは汎用性いる?特定の組織やコードベース向けに特化した継続学習モデルの方が望ましいってこともありえるよね。
何か学ぶたびにモデル全体をゼロから再学習するのは解決策じゃないよ。モデルに汎用性いる?賢いままでいてほしいならね。
一番の壁は計算リソースだよ。これにはとんでもない量の計算が必要になる。
もし計算リソースだけなら、簡単な例があるはずでしょ。一番小さいAIモデルですらこれはできない。1つのGPUで簡単に実行できるベンチマークもたくさんある。計算リソースだけって言うのは、唯一の方法が毎ステップゼロから再学習って意味ならそうだけど。CNNで継続学習を解決できたら、それはもうAGIを作ったようなもんだよ。
うん、でもゼロから学習するのも有効な解決策だよ。もっと簡単な方法が見つからないなら、とにかくそれを実現しようとすべき。計算リソースはシリコン対生物コンピュータで俺たちが持つ最大の利点だから、どんどん活用しようぜ。理想的には、そのうちデータセンター級AIが難問解いてて、計算の95%以上が学習に使われてるかもね。AIって推論より学習がすごいし。Alphaproofも簡単な問題の学習に計算使ってるよ。これは継続学習の一例で、実装されてるんだ。
ゼロから再学習すれば技術的には解決するけど、時間かかるし、データをランダム化しないとモデル崩壊したり偏ったりするって。まだ劇的に効果的な方法はないみたいだよ。
モデルを継続的に学習できるってだけで、「汎用人工知能」(AGI)になるって考えるのはどうして?どういう考え方でそう飛躍するの?
なるほどね。でももしコストなんて度外視で、H100(GPU)が好きなだけ使えるとしたら、それでも継続学習って実際にうまくいくのかな?
推論で出力した結果の一部を、ネットワークの更新に使うとかっていうのはどうかな。
> 大規模言語モデル(LLM)は強力だけど静的。新しいタスクに合わせて重みを適応させる仕組みがない
学習と推論のプロセスが完全に分かれてるんだよね。人間が物事を学習して現実世界で応用するのが統合されたフィードバックプロセスなのとは違って、LLMは学習させて展開して、ちょっとだけ「学んだ」新しいモデルに捨ててしまう。LLMにとって、推論は学習の終わりなんだ。
これって多分、AIについて一番誤解されてるところだよ。もしLLMが学習してるって思ってるなら、AGIがすぐそこだってfantasize(夢想)するのは簡単だね。
Deepseekが示したみたいに、強化学習(Reinforcement learning)を使ってLLMを洗練させることはできるんだよ。
過去5ヶ月で読んだものは全部逆のこと言ってるな。AppleのMLグループの論文「The Illusion of Thinking」が一番よく説明してると思う。経験的にはうまくいくけど、説明としては単にstochastic parrot(確率的なオウム)が長く鳴けるようになっただけかもね。
いずれにせよ、これは俺が話してたこととは全然違う。せいぜい、コンテキストウィンドウ内でLLMが「学習」できることを示してるだけ(Attention機構がやってることだから、ある程度当たり前だけど)。グローバルな知識ベースや重み更新はないんだ。内容が公開されて、またスクレイピングされて、次のバージョンに訓練されるまではね。これは学習のフィードバックループを示してるけど、外部要因(それを訓練する会社)によって何ヶ月も何年もかかる遅すぎるものだ。知性的とは言えないし、自力で学ぶこともできない。
本当に学習するシステム、つまり環境からの経験データを世界のモデルに取り込むには、ミリ秒単位でこれを行う必要がある。単細胞生物だってできるのに。AGIはどこにいるんだ?って感じ。
> 説明としては単にstochastic parrotが長く鳴けるようになっただけかもね
研究や科学コミュニティの誰もこれに反論したことないし、もし反論したら長くはいられないだろうね( aunque muchos de ellos encontrarían problemas con tu referencia a la estocástica parrot - これは誤って他の言語が混入したようです、無視または削除します)。(再要約)
研究者で「オウム返しが長くなっただけ」って誰も否定してないし(though I imagine many of them would find issue with your stochastic parrot reference - 「確率的なオウム」って表現には異論あるだろうけど)。Appleの論文はタイトルが内容より強いんだよ。基本的に、「思考」は特定の難易度の問題では通用しないって分かっただけで、単に「思考」をスケールアップしても役に立たないって言ってるだけだ。
「思考」がうまくいかないなんて言ってない。みんなタイトルと既存の偏見を組み合わせて、見たい結論を導いてるだけさ。
ユーザーがモデルの出力に肯定的に反応したか、否定的に反応したかを確認して、その入力と出力のペアでLLMを訓練するのはどうかな?
うーん、これってLoRAアダプターをファインチューニングして、それを元のモデルにマージするだけのフレームワークに見えるんだけど。HuggingFaceライブラリのPeftModelとその“merge_and_unload”を使ってるし…具体的に何が新しいんだ?って疑問だね。
このアプローチの安定性、アライメント税やモデル崩壊を避けることに関係してるみたいだね。ハイパーネットワークとLoRAで継続的にモデルが更新されていく様子を見てみたい。新しいモデルの状態に対応するためにハイパーネットワークも更新が必要だ。ハイパーネットワークにLoRAを適用するには、メタハイパーネットワークが必要になるだろうけど、そうすれば効果的な継続学習ができるかもね。
コードと例があるウェブサイトだよ: https://jyopari.github.io/posts/seal
最近、この分野では「正しく学ぶ」ことよりも「正しく忘れる」ことがより重要な問題になってきてる気がするんだ。新しい事実をAIに学ばせるのは進んでるけど、新しい知識に対して最も関連性の低い情報を捨てる技術は遅れてるね。
「正しく忘れる」のは人間の脳が得意なことでもある。どういう仕組みなんだろうね?
人間が「正しく忘れる」のが得意だとは思わないな。人間の脳がそんなに何でも「超得意」だとも思わないし。人間の脳の記憶容量はすごく大きいから、忘れることのほとんどは「新しい情報のスペースを空けるため」じゃなくて、一部の過去の悪い情報が新しい学習の邪魔になることを脳が正しく知ってるからだと思うよ。
ああ、俺が知る限り、人間の記憶力の限界はまだ本当には分かってないんだよね。どっちにしても、海馬がどこかで発火するニューロンのシーケンスを符号化して、後で再生できるのはすごいことだよね。
いや、俺は違う意見だな。まず、人間の脳はフィルタリングに関しては進化の奇跡だよ。新しい部屋に入って後で質問されても、ドアとか特定の物体の場所は覚えているだろうけど、その後は脳がフィルタリングして、必要に応じて詳細を作り出すんだ。
もう一つは、脳は使わない経路の価値を下げて(枝刈りして)、使う経路を強化することだね。だから、しばらくやってないことは、またちゃんとやるために練習が必要なんだよ。
俺が知る限り、ANN(人工ニューラルネットワーク)で、どの重みがどの程度、どの出力に関係してるかっていう特定については、ほとんど進歩がないんだ。だから、ユーザーが間違いとか不正確だとか不必要な情報だとマークしても、それを捨てることができない。
でも人間の心はそれが簡単にできる。私たちは(完璧じゃないけど)何かが間違っている、役に立たない、無関係だと分類して覚えて、もうそれをしなくなるし、時間が経てばそのあまり通らなくなった経路のことは忘れていく。ANNには少なくともそういう明確なメカニズムがないんだよね。
学習ってSpaced Repetition(間隔反復)と強く関係してるよね。Ankiとかの学習ツールとよく関連付けられるけど、現実世界って全部、特定の頻度で物事に遭遇することなんだ(昼夜のサイクル、季節、訪れる場所、会う人…本当に何もかも)。
SRの逆みたいなものがあるのか、ちょっと気になるな。
興味深い研究があって、実はLLMは内部データを「隠してる」んだって。ただ「忘れる」んじゃなくて、トレーニングを続けると後で情報が戻ってくることがあるらしいんだよ。
だから基本的に、モデルをトレーニングするたびに、一部だけじゃなくて全体の記憶をチェックする必要があるね。
これってleast-recently-used的な感じ?自分の頭で試して理解しようとしてるとこ!この分野の面白いとこってこういうとこだよね。
2028年までにすごいLLMは公開テキスト全部で学習終わるって予測があるんだって。データ壁が来るから、モデル自身が学習データ作る必要があると。次世代モデルはSEALみたいな専用モデルで新しい学習データ作って、もっと効率良くスケールするって話。2028年もうすぐじゃん…めっちゃ面白い insight だわ。
それって単なる理論じゃない?人間の脳はウェブより全然複雑で、どう考えてるかすら理解してない。モデルが自分で学習データ作れるってのはただの推測で、人間の思考と同じクオリティじゃないかも。既存情報の繰り返しで全然進歩しないかもね。それを”insight”って言うのは楽観的すぎじゃない?
それってさ、もう今の話だよ。すごいLLMは公開テキスト全部で学習済みだし、コーディングみたいな検証できるタスクの改善のために合成データでめちゃくちゃ学習してるよ。
もっとコメントを表示(2)
これってまだファインチューニング頼りだよね。クラウドLLMでユーザー全員がファインチューニングしたらどうなるの?ローカルなLLM向きかな。でもローカルでの継続学習とか、ハードウェア的にまだSFレベルだよ。今だって、そこそこのコンテキストで推論するだけで大変なのに。
オプティマイザーそのものはどうなるの?報酬で表現形式を調整するけど、それがズレたらタスクに合ってるか、評価をハックしてるだけか分からなくなるよね。オプティマイザーの動きを長期的に見る仕組みがないと、推論が良くなってるのか、評価で点取るのが上手くなってるだけか分からない。誰かアイデアある?
え、ちょっと待って。モデルが実行中に自分で重みを変えちゃったら、デバッグどうすんの?間違った答えが元のモデルのせいか、自分で変えたせいか、どうやって見分けるの?
イベントホライズンに近づいてるね。
そうそう!AIシンギュラリティにとってイベントホライズンが重要って分かってるコメント、初めて見たよ!
”俺たちはイベントホライズンを超えた。テイクオフは始まった。” - Sam Altman、4日前だって
それってどういう意味だよ?笑
あの人バズワードばっかだな。イベントホライズンの向こうはクラッシュダウンが始まるところで、光さえ脱出できないんだよ。テイクオフするとこじゃないでしょ。