Mistral AIが初の推論モデルMagistralを発表!
引用元:https://news.ycombinator.com/item?id=44236997
興味ある人向けにGGUF作ったよ!
実行はこんなコマンドで試してみてね。
ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL
or
./llama.cpp/llama-cli -hf unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL –jinja –temp 0.7 –top-k -1 –top-p 0.95 -ngl 99
llama.cppでは–jinjaを使って、温度は0.7、top-pは0.95がいいよ!
Ollamaのコンテキスト長も8Kくらいに伸ばすのがおすすめ。
OLLAMA_CONTEXT_LENGTH=8192 ollama serve &
詳しくはここも見てね→https://docs.unsloth.ai/basics/magistral
考えすぎだってば。
詳しくはこれ見て→https://gist.github.com/gavi/b9985f730f5deefe49b6a28e5569d46…
最初のR1バージョンをローカルで動かした印象だと、そっちも考えすぎてる感じだったな。
考えてなんかいないよ。他のモデルと同じ、ただの統計モデルだって。
僕たちが考えてる時って、いったい何をしてるんだろうね?
”Thinking”(思考)ってのは、Reasoningモデルが答え出す前に内部で”Chain of Thought”を出すことなんだ。
これは、LLMに「step by step考えろ」って明確に言うと性能が上がるっていう初期の観察から来てて、そのテクニックと名前だよ。
今後の建設的な議論の参考になれば嬉しいな。
[1] https://arxiv.org/html/2410.10630v1
[2] https://arxiv.org/pdf/2205.11916
人間のニューロンは統計モデルの人工ニューロンに還元できないよ。一緒くたにしないで。
え、なんでダメなの?
彼らの論文(https://mistral.ai/static/research/magistral.pdf)もすごいんだ!GRPOをこういじったらしいよ!
1. KL Divergenceを削除
2. 全長で正規化(Dr. GRPOスタイル)
3. advantagesにミニバッチ正規化
4. Trust regionを緩和
だって、人間のニューロンのこと全部わかってるわけじゃないじゃん。
直接観察できないものをどうやって正確にモデル化しろっていうのさ?
「reasoning(推論)」ってさぁ、あれ誤解を招く「term of art」っていうか、「term of marketing」だよ。
LLMはreasoningをしない、まさにそれが多くのタスクで使えない理由なんだよね。
ベンチマーク面白いね。
DeepSeek-V3(reasoningじゃない)の12月版とか、DeepSeek-R1の1月版と比較してるんだ。
DeepSeek-R1-0528と比較するのがもっとフェアだと思うな。
例えば、R1はAIME 2024で79.8点だけど、R1-0528は91.4点。
R1はAIME 2025で70点、R1-0528は87.5点。
GPQA Diamond、LiveCodeBench、AiderでもR1-0528は10~15点くらい高いよ。
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
LLMは絶対に推論(reasoning)してないって、どんな定義でそう確信してるの?
その証拠は?
(それに、そのreasoningの定義って、人間にも当てはまったりしない?)
> Removed KL Divergence
え、どうやって損失計算してるの?
LLMは”think(考える)”しない。
https://arxiv.org/abs/2503.09211
”reason(推論)”もしない。
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinkin…
内部状態だっていつも正確に出力するわけじゃないし。
https://arxiv.org/abs/2505.05410
R1-0528-Qwen3-8Bとの比較も面白そうだね(Deepseek-R1-0528からchain-of-thoughtで蒸留してQwen3-8Bに後学習させたやつ)。
AIME 2024で86点、2025で76点だって。
今、古いRTX 2080 Tiで6-bit XL quant動かしてるんだけど、正直かなり感動してるよ。
8GB以下のダウンロードでこれは本当にすごい。
それは確実に分かってるのかな?
ていうか、「thinking(考える)」がどう働くかって、まだ完全に謎じゃん。
ニューロンによるアナログ電気信号ベースの計算がstatistical token prediction(統計的トークン予測)に基づいてないって、どうして確信できるの?
それ、自分でstatistical token prediction(でまかせ)してるだけじゃないの?thinkingってもっとずっと広い活動だよ。
ゲームで「Half-life 2はwater-physics(水の物理演算)がすごい」って言う時、「いや、宇宙の物理法則全部わかってないし、浮動小数点演算だから物理演算じゃない、ただの計算だ」って文句言う?
ゲームの「water-physics」とか「cloth physics」って、サブアトミックレベルでは理解してないことの数学的近似として合意してるじゃん。
AIの「thinking」も、本物じゃなくても外見が人間の思考に似てるだけの、意図的なニセモノとして呼んで良くない?
Minecraftのwaterに「water physicsがある」って言ってOKなのに、AIの文脈で「thinkingは、内部的には無関係でも外見がちょっと人間が考えるのに似てる用語だ」って言うのはダメなの?
それともthinkingって特別?「soul(魂)」みたいに、それを守らないと人間性失うとか?
「あのビル、50年間倒れようか”thinking”してたよ」って言ったら、人間性に対する大失敗?
> https://arxiv.org/abs/2503.09211
この論文には全然感心しないね。
誰も使ってないであろう「thinking」の漠然としたストローマン(都合の良い歪曲)定義を作って、それを叩き潰してるだけだよ(しかもそれが人間に当てはまるかは何も言ってない)。
決定論に頼りすぎてるのもダメだね。
人間が決定論的かどうかなんてまだわかんないし、仮にノイズでLoRA作ったとして、君が意見変えるとも思えないから、君の本当の意見をサポートしてない。
> https://ml-site.cdn-apple.com/papers/the-illusion-of-thinkin…
こっちはもっとちゃんとしてるけど、
”While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scaling properties, and limitations remain insufficiently understood. […] Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities. […] We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across puzzles.”
まず「まだ十分に理解できてない」って言ってる(つまりイエス・ノーを断定できるほどわかってない)のに、その後でリストアップしてる欠点は、俺がずっと言ってるように、たいていの(全部とは言わないけど)人間のreasoningにも当てはまることばかりだよ。
人間のreasoningだって、複雑さが増すと精度が完全に崩壊するし、明確なアルゴリズムを使ってないし、パズルによってreasoningが一貫しないのが観察されてるじゃん。
だから、君の言うanthropomorphization(人間化)の定義が、たいていの人間を除外するようなものじゃない限り、これは全然決定的じゃないね。
> They don’t even always output their internal state accurately.
人間についてもマジで悪い知らせがあるよ。
たぶん(Buddha et al, 500 BCE)がその基礎になるテキストだけど、もっと最近の研究もあるよ(Hume, 1739)、(Kierkegaard, 1849)。
それ、確実にわかってるの?
マジで?
だって俺の理解では、「thinking(考える)」がどう働くかって実はまだ全くの謎なんだよ。
ニューロンがやってるアナログ電気信号ベースの計算の基盤が、statistical prediction(統計的予測)じゃないって、どうして確実にわかるの?
それって実際の証拠があるの?それとも君が自分で「statistical token prediction」してるだけ?
統計モデルを擬人化するのは良くないって話。素人が誤解するだけだし、AIスタートアップの売り込み以外には意味ないよ。
本当の理解の邪魔になるってこと。
ちょっと年寄りだけど、Unslothマジ最高!!!
いつも使ってるし、ちゃんと動くから感謝。
llama.cppはJinja以外に何使ってるの?
コメント1への反論ね。「思考」を人間だけと思ってるから擬人化って言うんでしょ?
LLMに「考えて」って言うと、人間みたいに考えてるように見えるし、精度も上がる。
RLHFされたLLMは人間を「シミュレーション」してるって考えると分かりやすいよ。
十分正確ならシミュレーションと考えの区別なんてない。
あんたの言う「真の理解」って何?
https://www.astralcodexten.com/p/janus-simulators
いいね!
俺はCPUで動かしてるんだけど、比較すると面白いね。
Magistral-Small-2506_Q8_0.ggufは秒間2トークン以下だけど、UD-IQ2_XXSは5.5トークン\sくらいで使える速さ。
でもちょっと幻覚見たりループしたりするけど、小さいのにかなり良いよ。
いつもありがとう!
それって宗教的な人と同じで、証明責任を逆にしてるだけじゃない?
証拠がないことが、存在しない証拠にはならない、みたいなさ。
これって単なるSFTで「蒸留」されたモデルで、RLで最適化されたやつじゃないんだよね?
なんでminibatch advantage normalizationを追加したか知ってる?
論文だとそんなに差が出ないって言ってるし、minibatchの平均で正規化するのって最適ポリシーへの収束には理論的に変じゃない?
シミュレーションに夢中になりすぎて、それを必死に擁護する人もいるんだね。
俺の言いたかった「LLMは人間じゃないし人間みたいに考えない」ってこと、君がうまく証明してくれたよ。
君がどうやってるか知らないからって、俺たちができないってことにはならないよ。
もっとコメントを表示(1)
ベンチマークだとMagistralはDeepseek-R1に負けてるみたい。しかもコストは倍以上とか。EU最高のAI企業でもSOTAについていくの大変そうだな。
“EUは規制をリードしてる”とか言うけど、何考えてんだか分かんないわ。
Mistralの投資家リスト[0]見るとすぐ分かるけど、あそこ全然ヨーロッパじゃないよ。主にアメリカの会社が持ってて、EUとか他の国の会社がちょっと入ってる感じかな。[0] https://tracxn.com/d/companies/mistral-ai/__SLZq7rzxLYqqA97j…
前のコメントの趣旨で言うなら、投資家じゃなくて実際に会社回して働いてる人たちの国籍の方が関係あるんじゃない?
あとは、働いてる場所の規制環境も一番重要かもね。アメリカで働くフランス人は、フランスで働くフランス人より生産的だろうな(たぶんアメリカの方が労働時間長いからってだけでも)。
たぶん“人々はもっと権利とか保護を持つべきだ”みたいな馬鹿げたことじゃない?
もういい加減にしてくれって感じ…
使い古された話だし、ヨーロッパに消費者向けAI企業が少ない理由じゃないでしょ。
じゃあ、何が理由なの?マジで知りたいんだけど。
あと、ここで“消費者向けじゃない”AI企業ってちゃんとやってけてるのあるの?Mistralしか基盤モデル学習させてないみたいだけど、それはそれで良いけど、今のところ全然SOTAじゃないよね。
お金だよ。マジで。
EUにはVCも巨大企業もないんだ。EUがプロジェクト支援してるって笑われるけど、民間のお金で支援してくれるところがないの。ただ、EU内に拠点あるアメリカの会社はいっぱいあって、問題に取り組んでる人はいるけど、自社ブランドって感じじゃないんだよね。
個人的な意見だけど、この技術開発競争は複雑な気持ちになるね。6ヶ月から1年遅れたとしても、トップクラスと比べて数百億ドルも燃やさずに済むなら、エンジニアリングとしては勝ちだと思うんだ。お客さんが「いや、最高の技術しか使わないよ」って言うのもわかるけど、永遠に赤字になるようなビジネスの市場シェアにそこまで価値があるのかな?
ヨーロッパは市場がアメリカのテック大手に開かれてる限り、技術で追いつくのは無理だよ。Techって限界費用がほぼゼロだから、一極集中して世界中に売るのが一番効率いいんだ。今、インフラも人材もUSに集まってるから、EUの技術はニッチな製品しか作れない運命にある。UKやフランスに少しはあるけど、それだけ。対抗できるのはUSと問題抱えてる国、つまり中国とロシアだね。中国は強力な競合を生み出してて、最先端を行ってる。これは規制とは関係ないんだ。USだって州ごとに規制はあるけど、ほとんどが特定の州で起こってること。もしEUとUSの関係がTrump/Muskレベルになったら、EUも最先端のものを持てるかもね。影響力のあるAI研究者の多くはヨーロッパ(UK含む)、イスラエル、カナダ出身だよ。Ilya Sutskeverはこないだ母校のカナダでスピーチしてたし、Andrej Karpathyはスロバキア人。UK、フランス、ポーランド、中国、ドイツとか、パイオニアには非アメリカ人が多いんだ。彼らがUS以外にいる理由さえあれば、技術はUSの外でも生まれるんだよ。中国はその理由を手に入れたし、今の世界情勢を考えると、ヨーロッパも3年半以内にそうなる可能性は十分あると思う。
答えの一部は借金だね。USの債務は35兆ドルで、EU全体だと16兆ドルくらい。もしその債務の差額のたった10%でもテックに投資されてたら、EUのテックにはだいたい2兆ドル多く投資できたってこと。
› アメリカの方がフランスより労働時間が長いって多分違う
それが本当かはわからないな。Mistralはすごくハードワークな場所として知られてるから。
フランスでは法定労働時間35時間を超えるのに追加の費用や法的な手続きが必要だけど、USの方が規制がずっと少ないのは確かだと思うよ。
最初のR1モデルがどれだけすごくて、どれだけ少ない計算リソースで作れたか考えると、新しいR1モデルがオ3や2.5 Proを全てのベンチマークで超えてないのがマジで不思議なんだよね。Magistral Smallはたったの24BなのにAIME2024で70.7%出してて、R1の32B蒸留版が72.6%。で、多数決@64だとMagistral Smallは83.3%で、フルR1より良いんだよ。24Bモデルなら普通のゲーミングGPUで動かせるから、フルR1よりずっと手軽だし。見てみて→ https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B-Qwen-72B-R1
ヨーロッパ人は賢いリスクを取らないから。過剰に規制するから。この答えにみんな結局戻ってくるのが面白いね。規制と税金はインセンティブを減らす。インセンティブが低いと、リスクを取ることも少なくなる。これがまだ議論が必要なレッスンだなんて、バカげてるよ。
EUの規制ってよく「クールなものは持っちゃダメ」って感じなんだよね、「クールなものは公平に運営しなきゃダメ」じゃなくて。彼らは「古い金持ち」を守ることに興味があって、人々を守ることには興味がないんじゃないかな。
DeepSeekが速攻コピーだったからだよ。あれは簡単な部分だったし、だからそんなに計算資源を使わずにトップに近づけたんだ。o3とか2.5 Proを大きく超えるのは、速攻コピーより段違いに金がかかる。中国の文化的なやり方だと、こういう結果によくなるんだよね。車とか飛行機とかインターネットサービスとか産業機械とか軍事とか、同じようなの見るでしょ。イノベーションは超高くて時間かかるけど、速攻コピーはたいてい超安くて早い。85%くらいで十分って考えが多いけど、最後の10〜15%は笑えるくらい高くて大変なんだ。
そうだね、しかも技術が頭打ちになってきてるから、6〜12ヶ月遅れても借金が少ない方が長い目で見ればいい考えだよ。あと、ヨーロッパが競争に参加してるのは消費者にとってすごく大きいことだよ。
これは無知を超えて、完全に何もわかってないね。スタートアップとかハードな研究やってる人はどこでも超絶ハードに働いてるし、Mistralは特に生き残るのが大変で有名だよ。ヨーロッパの創業者とか研究者が「いやぁ、ヨーロッパ人だし、野心ないし、金もいらないし、株式なんて知るか」とか思ってると思ってるの?あと、一点だけ指摘しておくと、研究畑にいたけど100%言えるのは、中国\韓国\日本の人たちほど献身的で勤勉な人は見たことないよ。オフィスに寝袋持ち込むレベルの人たちの話ね。でも、それが必ずしもより良い結果につながるわけじゃないんだ。結果の量が増えることはあるし、それは時々重要だけど、より良い、より関連性の高い、より高品質なもの?それは違う、違う、違う。
HNのやつらが考えるcopiumだね。ヨーロッパの労働者は金のためじゃなく名誉のために必死に働くんだよ。
君のコメント、いくつか苦情が来てるよ。これはHNには合わない書き方。地域とか文化で判断するのやめてね。
何度も言ってるけど、またやるとBANだよ。HNを良くするために協力してね。
magistral-mediumをJSON生成で試したよ。o4-mini(50~70秒)より速くて(34~37秒)、品質は少し低いけど使えるレベル。
速度優先なのがいいね。良い結果だよ。
ファインチューニングすれば品質の差は埋められるんじゃない?o4-miniの結果があるなら簡単そうだよ。
なんでJSON生成に推論モデル使うの?自分はGemma 27b VLLMで試したら~7秒だったよ。
JSONサイズは重要だけど、推論モデルは計算リソース無駄にするし使わないな。
推論モデルってチャット以外だと使い道あるのかな?
ビジネス的に複雑な、大きなネストしたJSONを作るためだよ。単純なモデルだと上手くいかなかったんだ。
MistralのOCRモデル、期待したのにダメだったんだ。600ページのpdfで試したら、テキストの80%が画像扱い。
tesseractよりずっと悪かったよ。請求書見てアカウント削除した。このモデルは良いかもだけど、もうMistralの宣伝は信じない。
MagistralをOllamaとAPIで試したノートだよ。見てみて。
https://simonwillison.net/2025/Jun/10/magistral/
Simonさん、記事の自転車乗ったペリカン、大きな違いって何?ローカルの小さい版とAPIの大きい版のこと?Morganより。
Ollamaって名前の付け方が変で、ollama pull magistral:latest
だとq4_K_M
バージョンになっちゃうんだ(今はね、変わるかも)。MistralのAPIは今magistral-medium-2506
がデフォルトで、これはフル精度で量子化されてないよ。
もっとコメントを表示(2)
マジで誰もOllama使うべきじゃないよ、どんな理由があってもね。メリットゼロで、すべてがもっと悪く、ややこしくなるだけだから。
親コメじゃないけど、デフォルト設定とか名前の付け方がダメだと思う。初心者からの投稿で「なんでモデルがうまく動かないの?」ってのがたくさんあるんだ。大抵はコンテキストサイズがデフォルトでめっちゃ低く設定されてるか、フルモデルじゃなくディストール版(Ollamaはフル版の名前でディストール版を使ってる)を動かしてることに気づいてないかだよ。あと、Ollamaがラッパーとして使ってるllama.cppにちゃんとクレジットを与えてないって論争もあったね。
>Ollamaはディストール版を使う
Ollamaは使ったことないんだけど、ディストールじゃなくて量子化(quantized)のこと言ってるんじゃない?それとも本当にディストール版を使ってるの?
実際にディストール版を使ってるんだ。一番ひどい例は、DeepSeek-R1のディストール版をすべてDeepSeek-R1の別バージョンとして misleading に参照してること。これらはサイズもベースモデルも全然違うのにね。今でも多くのユーザーが、DeepSeek-R1は過大評価されてて、実際の685Bパラメータのモデルを使ってる人が主張するほど性能高くないって勘違いしてるんだ。
Ollamaはllama.cppのラッパーで、ひどいデフォルト設定を追加してるだけ。素直にllama.cppを直接使った方がいいよ。
量子化だけじゃなくて、Ollamaで使えるのはMagistral-small(ローカル推論用)であって、-medium版じゃないってことだね。
うん、ダメだったのがローカルで動くMistral Smallで、良かったのがAPI経由のMistral Mediumだったってことね。
>推論トレースが完全に見えて編集されてない
これはMistralがビジネス顧客向けにアピールしようとしてる機能って面白いね。
でも、誰かが論文(https://arxiv.org/pdf/2505.13792)で、少なくともディストールモデルでは、
>正しいトレースが必ずしも正しい最終解を出力するとは限らない。同様に、正しい最終解と中間トレースの正しさの間には相関が低い
って見つけたんだよね。つまり、結論が推論から必ずしも導かれるわけじゃない。じゃあ、推論を見ること自体にまだ価値はあるのかな?役に立つ情報はあるかもしれないけど、人間の典型的な推論プロセスとして人間が解釈できるか怪しいね。むしろ、結論に影響を与えたかもしれないけど、必ずしも結論に繋がったわけじゃない、関係するテーマについての騒がしい多人数での議論として解釈すべきかも。
一方、自動化疲れ vs 人間による監視の効果を考えると、実際には誰も推論を見ないだろうね。それが存在することを確認して、フォームにチェックを入れる以外は。
なんでベンチマークの選び方こんなバラバラで少ないんだ? Magistral MediumとDeepseek V3, R1, あとは近しい重さのMistral Medium 3としか比べてないじゃん。なんでMagistral Smallを完全に省いて、Alibaba Qwenとかo3, o4のミニバージョンとの比較もしなかったの?
比較を含める時は、何を見せるか、そしてもっと大事なのは何を見せないかが常に意図的な決定なんだよ。もし他のモデルより良いパフォーマンスを示すデータがあったなら、それを強調しない理由はないでしょ。
言葉遊びの楽しい話:”mistral”も”magistral”も両方”masterly”(見事な、巧みな)って意味なんだってさ。”Mistral”はオック語でmasterlyから来てるけど、今日では地中海の風の話でしか英語では使われてないと思う。 “Magistral”は単に”magister”(師、名人)の形容詞形だから”師のような”って感じかな。少し稼ぎたいなら、もっとマイナーなmasterlyの類義語を調べてドメイン名を取ってみたら?
>私が知る限り英語では地中海の風の話でしか使われてない。
この会社はフランスの会社で、フランス語でも”mistral”はこの意味で使われるよ。あと、”magistral”はフランス語で単に”masterful”の翻訳だよ。
Qwen3がチャートに含まれてたら良かったのにと思ったよ、推論では現在のSOTA(最先端)なのに。Qwen3-4Bは利用可能な4つのベンチマークでMagistral-22Bにほぼ勝ってるし、Qwen3-30B-A3Bは全然上を行ってるよ。
30-A3Bは本当に印象的なモデルだよ。API費用を節約するためにローカルでタスクを投げてるけど、1年かそこら前のクローズドソースプロバイダーからの何よりも多分優れてるね。プログラミングタスクでは、GPT-4oよりランクを高くするかな。
それは素晴らしいモデルだし、めちゃくちゃ速いね、特に”推論”モデルにはすごく役立つよ、だって大量のトークンを生成するからね。MistralがMoEモデルを作るのに戻ってくれたら良いのに。Mixtral 8x7Bが大好きだった、当時出た中でローカルで実行できる最高のモデルの一つだったけど、もう古いね。誰かが類似サイズのMoEモデルを出して、64GB RAMのMacBookに快適に収まって速く動くのが欲しいな。今はQwen 30-A3Bが唯一知ってるやつだけど、もう少し大きくて良いのがあれば良いのに(非推論ベースのものも含めて)。他のMoEモデルは標準的なハードウェアでローカル実行するにはどれも大きすぎるんだ。
みんなが使う人気のベンチマークサイトってある?だって自分で全部テストしなきゃいけなかったし、メモリ要件的にQwen3-30B-A3Bがまだ一番良いモデルみたいに見えるんだけど。
- https://livebench.ai/#/
+ AIME + LiveCodeBenchは推論用だよ。
- MMLU-Proは知識用。
- https://lmarena.ai/leaderboard はユーザー評価用ね。
Magistralのは今のところGPQA, AIME & livecodebenchだけだったよ。
私としては驚きはないね。Mistralは他のモデルがいつも優れてるせいで、基本的に役に立たなかったから。でも、欧州のプライドだから、関連性があろうとなかろうと、その名前は聞き続けるんだろうね。