MiniMax-M1、ついに発表! 大規模オープンウェイトのハイブリッドアテンション推論モデル
引用元:https://news.ycombinator.com/item?id=44307290
MiniMaxは今週発表ラッシュ!月曜M1、火曜Hailuo 2。
このペース続くかな?
LLMと動画以外はまだあまり知られてないけど、最新情報はここをチェック→ https://x.com/MiniMax__AI
M1の技術レポートは読む価値あり→ https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M…
Lightning AttentionやCISPOについてすごい主張をしてるよ。
(関係者じゃないけど情報共有)
MiniMaxは音声モデル、特にTTSもすごいんだよ。
一部リーダーボードでトップらしい(私も好き)→ https://artificialanalysis.ai/text-to-speech/arena?tab=leade…
月曜M1、火曜Hailuo 2ね。
AppleみたいにM1, M1 Pro, M1 Ultraって名付けたら面白かったのにねー。
MiniMax M1を動かすのに何が必要かって?
8台のH200 141GBだって [1]。費用は約25万ドル [2]!
[1] https://github.com/MiniMax-AI/MiniMax-M1/issues/2#issuecomme…
[2] https://www.ebay.com/itm/335830302628
それ、フル量子化での話でしょ?
Q4かQ8なら、1万ドルもしない機器で動かせるよ。
重く量子化したモデルの経験だと、同じサイズの量子化してないモデルよりはいいけど、元のモデルの性能には全然届かない感じなんだよね。
みんなテストしてるよ。
Q8は品質ほぼ変わらないし、Q4も差はあるけど実際使う上では問題ないって。
気になるなら商用のSaaS使えばいいじゃん。
それって、ベンチマークが実際の使い方を表してるって前提だよね?
悪く言うつもりはないけど、LLMのベンチマークってすごく難しいんだよ。
うん、言いたいことはわかるけど、結局’わかんない’だね。
シンプルなコードになるから逆に良くなるって考え方もできるけど。
フル量子化以外を動かす意味ないね。
量子化効かないって?マジ?
しかも重い疎化を足せば、ラズベリーパイでも動くはずだよ。
半年後くらいには、リストにあったH200を$250kで買った人が騙されたってわかるよ。だって、モデルに特定の量子化とちょっとした最適化を加えるだけでローカルで動かせるって気づくから。自分のモデルを訓練したいとかなら別だけど、推論のために$250kで買うのは不要だし、本格的なプロダクション展開には全然足りないよ。
それ、150兆パラメータのモデルからすでに疎化されてるんだよ‥。
150兆パラメータが人間の脳のシナプス数への言及だと気づくのに何時間もかかっちゃったよ。
Mac Studioの512GBモデルじゃ動かせないの?それなら$8,500くらいだけど。
あと、速度が20分の1だよ。だからあんまり使えないね。
このモデルってパラメータ数いくつなの?
4560億だよ、同時には約460億がアクティブ(MoEだからね)。
MiniMax-M1のArXiv論文に公開URLが載ってて、それが空のリポジトリじゃないのがいいね!もうこの人たち好きになったよ。
LinkedInだとシンガポールの会社みたいだね。すごくいいLLMを作るのに、そんなに参入障壁はないのかも。
オープンなモデルとStrix Halo / Ryzen AI Maxの進化で、数年後にはローカルでLLMを動かすのがかなり安くなりそうで期待してるよ。
MiniMaxはシンガポールじゃなくて、上海拠点の中国企業だよ。
SCMPの記事によると、もうすぐ香港でIPOするらしいよ。
https://www.scmp.com/tech/tech-trends/article/3314819/deepse…
そのIPO、注目しとくね。
どんどんローカルでモデルを動かすのが避けられない流れになってきたみたいだね。楽しみでもあるし、心配な面もあるよ。
この分野で尊敬してる人とかいたら、考えを聞いてみたいな。
今はハードウェアが一番のボトルネックだと思うな。GPUはVRAM、CPUは帯域とかベクトル演算能力が足りないんだ。だからStrix Haloはすごく楽しみなんだよ。帯域も演算力もあってメモリもたくさん積める。まだ専用GPUには及ばないけど、数世代後には置き換えられるかもね。専門家じゃないから他の意見も聞きたいな。
Apple SiliconのGPU向け共有メモリはどう関係してくる?コンシューマー向けでそんな安くはないけど、CPUとGPUでメモリを共有するから、ミドルレンジのマシンでも100GBとか大容量メモリが使えるじゃない。
M4はStrix Haloと似てるね。M4は帯域が約2倍、演算力が半分、同等メモリだと値段が2倍くらいかな。
俺はコストとLinuxデスクトップで使えるからAMDチップに興味あるんだ。Apple tax払うの気にしないならMacもいい選択肢かもね。Apple SiliconでのLLMソフトは大丈夫だと思うし。
Strix Halo搭載のFrameworkデスクトップもあるよ。
https://frame.work/gb/en/products/desktop-diy-amd-aimax300/c…
俺もLLMをローカルで動かすためにAMDのStrix Haloにすごい期待してるんだ。Framework Desktopも注文したよ(バッチ1!)。
Alex Ziskindって人がYouTubeでStrix HaloとかM4 Mac mini、RTX 5090なんかを比較してる動画を出してるよ。消費電力とかも。データが動画内にしかないのがちょっと難点かな。最近の動画はこちらだよ。
https://www.youtube.com/watch?v=B7GDr-VFuEo
Appleはメモリバスを倍にしてStrix Haloの2倍とか3倍くらいの帯域幅を持つマシンがあるけど、高くなるんだよね。
率直な質問なんだけど、それの何が懸念されることなの?
もっとコメントを表示(1)
LLMをローカルで動かすのが、他のソフトをローカルで動かすのと比べて何が悪いのかな、私には分からないな。
社会の端で自由を持つことに何か根本的に新しいことなんてないよ。もちろん、誰かが近所の人を殺したり、皆が使える新しいツールを使うことで、ひどい状況になることもあるかもしれない。
でも、それよりは、強力な新しいツールが、最も強欲な人間たちの完全に集中した支配下にあることの方がよっぽど心配だよ。彼らは、自分たちの見解に合わないことがあれば、喜んでどんな妨げでもジェノサイドまでエスカレートさせるだろうからね。
> LinkedInによるとシンガポールの会社
いや、ここは上海ベースの会社だよ。
中国の親会社、上海稀宇科技有限公司のウェブサイトは https://www.minimaxi.com だよ。中国国外の事業を扱うシンガポールベースの会社、Nanonoble Pte Ltdの国際ウェブサイトは https://minimax.io だね。
どんな情報源が欲しい?僕にはそこで働いている友人が何人かいて、ほとんどが上海か北京に住んでるよ。彼らがシンガポールとか他のどこかに拠点があるなんて言ってるのを見たことないな。これで十分?
Wikipedia自体は情報源にならないし、前のメッセージを読んで見に行ったけど、驚いたことにどちらの記述にも情報源がついてないね。リンクされてる記事にも、彼らの本社がどこにあるかについての情報は全くないよ。
もし、それをはっきり述べている信頼できる記事を知ってる人がいたら、自由に共有してほしいな。
LinkedInで確認してから、シンガポールだと言った元の投稿者だけど、その後、上で投稿したWikipediaページを見つけたんだ。ここのコメントの中には、BloombergのIPOに関する記事へのリンクもあるね。特にどちらか肩入れするつもりはないよ。ただ見つけた情報を伝えただけ。
Twitterの投稿で約50万ドル(53万4700ドル?)で学習したらしいよ。
どうやったんだろ?
RLで驚きの効率って書いてるね。
https://x.com/MiniMax__AI/status/1934637031193514237
公式ページにはどこにも書いてないけど、MiniMaxって中国の会社なんだって。
Wikipediaに載ってるよ。
https://en.wikipedia.org/wiki/MiniMax_(company)
みんなMiniMaxが中国だって知ってるんじゃない?
動画生成AIの名前“Hailuo”がめっちゃ中国っぽいし、今までこれで有名だったからさ。
会社が自分でどこにあるか言うのが一番だね。
言ってない、隠してるってこと自体も情報だよ。
Hailuoって名前は中国っぽいけど、台湾とかシンガポール、それか外国風ブランド名って可能性もあるよね。
Häagen-Dazsみたいに。
なんでMiniMaxのプロジェクトページで会社がどこにあるか言うこと期待するの?
理由?
1. 慣習だし、
2. 法的な義務の国もある(英国の例:https://www.gov.uk/running-a-limited-company/signs-stationer…)、
3. 求職者にも役立つからじゃない?
>1. 慣習だから。
モデルやウェイトのリリースで、著者や会社の国が載ってるの見たことないな。
学習言語とか関係性は載ってるけど。
論文に会社の国とか書くのって慣習?
むしろ、そっちの方が目立つと思うけどね。
OPは“公式ページ”って言ってたけど、会社のウェブサイト(https://www.minimax.io/)のことだと思ったんだ。
リポジトリとか論文のことじゃないよ。
OK、“会社のプロジェクトページに所在地を載せるのが慣習”って話に変えよう。
どこの会社がやってるの?
OpenAIやAnthropicもやってないみたいだけど。
もしGitHubのREADME.mdみたいなページのこと言ってるなら、そこに国の情報が載ってるとは思わないな。
もしGitHubページのこと言ってるなら、どこに国の記載があると思うの?言いたいことがよく分からないな〜。
そうするのが慣例?どこで見た?OpenAIのサイト https://openai.com/about/ 見ても拠点は書いてないし、スタートアップの拠点は探すの結構大変なんだよね。
規約に書いてあるじゃん! https://openai.com/policies/terms-of-use/
各ページの下にもあるよ。
知的財産権の侵害について連絡先はこれね。 OpenAI, L.L.C. 1455 3rd Street San Francisco, CA 94158
これのこと言ってるの?
- GitHubには会社の登録場所なんて普通書かないよ。Googleの例 https://github.com/google/material-design-icons 見てみ。2. UKの会社に必要だけど、お前のリンクもサードパーティサイトについては何も言ってない。3. 求人情報とか、もっと重要なことあるだろ。お前が気にすんのは中国企業だからだろ!アメリカとか他の国なら何も言わないくせに!
お前のリンクの親ページ https://github.com/google に United States of America って書いてあるから、それは良い例じゃないね。
私は素人だけど、個人的にどこで作られたか気になるんだ。ITプロジェクトで使うときは特に重要だよ。
OPは「公式ページ」って言ってたから、会社のサイト https://www.minimax.io/ のことだと思ったんだけど。
それに、勝手に決めつけないで!もしメキシコとかジンバブエから最先端モデルが出たら、めっちゃ面白いと思うよ。
MinimaxのサイトとOpenAIの比べたけど、大差ないね。どっちもアメリカとか中国の会社って書いてないし。
国内向け、食品とかだと国名書くこと多いけどね。
プロジェクトページじゃなく、どの公式ページにも明確な情報なかった。
LinkedInではシンガポール、他ではサンフランシスコって書いてて、中国の会社って言わないのは正直ズルい!
素人にはどうでもいいけど、プロジェクトマネージャーなら超重要。なんで隠すの?って疑問だよ。
このモデル名、もうちょっとなんとかして!私のMac Studioに入ってるプロセッサみたいに聞こえるんだけど(笑)
Minimaxっていう古典的なAIアルゴリズムにちなんで名付けたんだね。Wikipedia見るといいよ。
https://en.wikipedia.org/wiki/Minimax
ざっと読んだ感じでは、Minimaxアルゴリズムは使ってないみたいだね。知ってる人は知ってるだろうけど、Minimaxが初めて使われたのはクロード・シャノンが作ったAIチェスプログラムだったんだ。
https://en.wikipedia.org/wiki/Claude_Shannon#Shannon’s_compu…
この会社はLLMとか動画生成みたいな現代のAIソリューションを提供してるよ。名前はTeslaみたいに単なる引用(リファレンス)だよ。アメリカ化学会のロゴにあるkaliapparatみたいな感じ。
もっとコメントを表示(2)
Facebookのモデルはllama(ラマ)を使ってるの?名前なんだから、意味に100%合ってなくてもいいじゃん。
それは会社名だよ。
でも”M1”っていう部分もあるよね。
君のMacは’Apple’(リンゴ)が作ってて、文字通りリンゴの品種名から取られてるじゃん。
それって、松の木にならないパイナップルみたいなもん?
…でも、その品種名は人にちなんで付けられたんだよね。:)
どうやらIPOに向けて話題作りしてるっぽいね。詳しくはここ見て→https://www.bloomberg.com/news/articles/2025-06-18/alibaba-b…
「僕らのAttention設計では、7つの lightning attention の transnormer block の後に1つの softmax attention の Transformer block が続く」って書いてあるね。ってことはさ、linear attention が87.5%で full attention が12.5%ってことだ。正直、linear attention っていう言葉遣いは紛らわしいと思うな。 Softmax attention は情報ルーティングの仕組みだけど、linear attention は各レイヤーで使える固定サイズの’register bank’みたいなもんで、attention っていうのはレイヤー単位の計算と互換性があるって意味だけだよ。
もし欧米のクラウドインフラなしでこの規模を学習させたなら、そのトークンスループットの仕組みがどうなってるか知りたいね。
512台の H800 GPU で3週間学習させたらしいよ。コストは約50万ドルだって。詳しくはここね→https://xcancel.com/MiniMax__AI
それは強化学習の部分の話だよ。ベースモデルは多分もっと多くの GPU で、もっと長い時間学習させてるはず。