Mistral、Le Chatで深層研究、音声技術、そして注目のプロジェクト群を一挙公開!
引用元:https://news.ycombinator.com/item?id=44594156
画像編集AI、MistralがOpenAIより断然スゴい!
細部まで完璧に修正するし、無関係な部分はそのまま保持するから超優秀。ただ、入力画像は大きいのに、出力は1184pxにしかならないのは残念。
俺の自宅オフィスで「破れたグレーのパネルを新品みたいに直して」って試したら、素晴らしい出来だったよ。画質はちょっと落ちるけど、これはすぐ改善されるはず。
Input image (rescaled): https://i.imgur.com/t0WCKAu.jpeg
Output image: https://i.imgur.com/xb99lmC.png
これ、Craigslistをダメにするね。写真と実物が違いすぎる詐欺が増えるよ。
うちの近所の不動産屋も、AIでボロボロの家を「再想像」してめちゃくちゃ綺麗に見せたら、客が激怒してた。
リアルターはステージングの進化だって言うけど、全然通用しなかったね。結局、物件は引っ込められて、家族が修繕してたよ。
嘘で中古車がもっと売れるの?詐欺にならない?
俺が中古車買った時は、新聞広告で写真もなし。全部現物見に行ったよ。
気に入ったのは独立した業者に事前検査頼んで、ラジエーターのヒビ見つけて値切ったね。
Craigslistには詐欺が多いよ。「サンクコストの誤謬」っていうのがあって、遠くまで行った客は、たとえ品質が悪くても買っちゃうことがある。
AIで写真が嘘だらけになったら、利用者は減って、詐欺が価格に織り込まれるから全体的に値段が下がるはず。そうなると、誰も使わなくなるかも。
EBayでも説明と違うことよくあるし、大体セラーの味方をするんだよね。
EBayの件、俺の経験とは全然違うよ!
2008年から使ってるけど、EBayは購入者寄りで、そのせいで俺はEBayで売るのはやめて、買うだけにしてるよ。
EBayで売ってるけど、これ同意。95%はバイヤーの味方だよ。たとえバイヤーのせいでもね。もしかしたら詐欺セラーには優しいのかもだけど。
サンクコストの誤謬、まさにそれだね。
写真と実物が違っても、見に行くのに2時間以上かかったら、時間とお金を費やしちゃったからって結局買っちゃうことってあるよね。
デートアプリでも顔に加工フィルターかける人いるよね。
会ったら全然違う顔だったら、恋愛ってあるの?多分ないけど、不安だからやる、最初だけなら騙せる、顔は気にするって言うけど実は気にしてない、ってことなのかな。
俺は見た目良くないけど、話す機会をもらえれば、その後は見た目関係なく魅力的だと思ってもらえるんだよね。
深い会話ができれば、それが魅力につながるんだ。
俺自身も、最初は魅力的だと思わなかった人でも、考え方とか経験とかで、どんどん魅力的に見えるようになったことがあるよ。
LLMが出てくる前から不動産屋とかが「reimagining」って言葉使ってたよ。スキルはもっと必要だったけどね。
追加の写真としては有効な使い方だけど、これだけだとダメだよね。
今家探し中なんだけど、「AI staging」は賛成か中立かな。ちゃんと「AIが作った」って書いてあればいいし、空き家だとレイアウトが想像しやすいから助かるよ。
FYI、入力と出力のURLが同じだよ(違いを探そうとしてちょっと混乱した)。
あ、ごめんね、直したよ。
このタスクなら多分Kontextの方が得意じゃないかな、Mistralがそれ使ってるならだけどね。速くて安いし。OpenAIも昨日、高精度な画像編集機能を追加したみたいだよ。APIだけなのかUIでも使えるのかはまだわからないけどね。URL見てみて:[1] https://x.com/OpenAIDevs/status/1945538534884135132[2] https://i.imgur.com/w5Q0UQm.png
彼らはBlack Forest LabsのFlux Kontextを使ってるんだ、すごく良いモデルだよ。
じゃあMistralはただFluxモデルをホスティングしてるだけなの?
そうだよ、でも両方ヨーロッパの会社ってのは素晴らしいよね。
あ!私もそうかなって思ったんだけど、何かソースあるの?
すごいね!でも修正版でも破れ目の影が見えるのが気になるなぁ。それも直すのってどれくらい大変なんだろう?
本のタイトルがめちゃくちゃになっちゃってるよ。
それは画像生成そのものじゃなくて、オートエンコーダのロスかもしれないね。生成なしでオートエンコーダだけ使って往復処理しないと判断は難しいけど、その種のロスっぽい見た目だよ。
それはBFLモデル(ほぼKontextだろうね)を使ってるからだよ。リリースノートにも書いてあるし。
入力画像は約1メガピクセルのアスペクト比に縮小されるんだ。Kontextで実験してみたから、全体に影響せず個別の変更を見れるスライダーを付けたよ。https://specularrealms.com/ai-transcripts/experiments-with-f…
すごく面白い、シェアしてくれてありがとう!
話がそれるけど、両方の写真を開くのに、不要なCookieを受け取らないように何度もクリックしないといけないのがすごくイライラするんだよね。複数のサイトで同じCookieベンダーのポップアップが出るのも迷惑で、”Cookie as a Service”みたいなものがあるのかな?
興味深いことに壁の破れ目の影は直ってないけど、それ以外はすごく説得力のある仕上がりだね。
これって彼ら自身のモデルなの?それとも単にFlux Kontextのインスタンスをホストしてるだけ?
参照: https://bfl.ai/models/flux-kontext
これらのマルチモーダルなテキストと画像モデルが、アーキテクチャ的にどう構築されてるか、良い説明をしてくれる人いる?共通の埋め込み空間があるのかな?それともたくさんの統合なのかな?
専門外だけどね。最近のLLMが画像生成モデルをどう呼び出すか分からないけど、テキストから画像へのモデルは”操縦可能な”拡散モデルっぽいよ。Stefano ErmonのYouTubeトークが良いね。マルチモーダルモデルは通常、Vision Encoderが画像パッチをトークンに変換し、LLMとVisionモデルが共同でファインチューニングされるんだ。GemmaやKimi VLのレポートを読むと良いよ。
やっとEUが目覚めたって感じ!マジで誇らしいよ。
OpenAIとの契約が終わったら速攻Mistralに乗り換えるつもり。
EUを応援しなきゃね、フランス万歳!
マジでMistral Large 3が待ち遠しい!Le Chatの新しい言語モデルになるって匂わせてるし、Mistral Medium 3のブログでも「One more thing」って“大きなもの”を開発中って言ってたよね。今のモデルでもLlama 4 Maverickより断然良いし、Cerebrasの速さがあればChatGPTと比べても最高になるはず!
もっとコメントを表示(1)
MistralのGPUが溶けないように、アルプスとか超寒い場所にサーバー置いてほしいな。2年後には5億ユーザーも来るって予想してるんだ。月20〜30ユーロのコーディングプランがあれば、世界中のユーザーが押し寄せて、EUは競争力とイノベーションで世界ナンバーワンになるよ。今はケチらず投資すべき!オランダもチップ生産もっと頑張って!
>アルプス
氷河がもう大変なことになってるんだから、そこに新たな熱源はいらないってば。
アメリカの投資家が所有してて、アメリカのインフラで動いてて、Microsoftと“戦略的パートナーシップ”組んでる会社が「EUが目覚める」だって?冗談だろ。
また個人がやってることを、政治的な組織であるEUとごっちゃにしてるね。
Mistralはフランスにデータセンターを2つ建設中か、計画してるよ。
国別の所有権ってどこで見れるの?彼らのインフラは?フランスでは何も動いてないの?
ヨーロッパからはたくさんの良いテクノロジーが生まれてるのに、ここでは信じられてないみたいだね。俺はLe Chat、DeepL、Proton Mailを毎日使ってるよ。
Mistralは結構前からあるんだ(この分野じゃ2年でも“結構”長い)。小型モデルを作るのがめっちゃ得意で、最高に賢いわけじゃないけど、だいたいは速攻でキレイな結果が出てくるよ。あと、俺の経験だと、他のところより検閲が緩いんだよね。
MRF、つまりモデルリリース疲れに悩んでるんだ。Claude 4とかGPTとか、新しいLLMに次々切り替えるのがしんどい。これ良い!と思っても、前のに戻ると「うわ、これ最悪」ってなる。LLMのコンテキスト切り替えって本当に疲れるよね。
正直、まだLLMをちゃんと試してないのは、まさにこの疲れが理由かな。たぶん2026年の後半まで待つと思う。その頃には、ローカルで動くLLMと対応ハードウェアが出てるか確認するよ。初期バージョンに奮闘してる人たちには脱帽だね。
LLMを使わないっていう選択肢もあるよ。効率化じゃなくて、コーディングそのものの楽しみに集中しようぜ。だって効率化した分の利益は、結局CEOの懐に入るだけだしね。
疲れはわかるけど、市場にたくさんの選択肢があって、イノベーションが進んでるのは良いことだと思うんだ。常に一番良いものを使おうとすると大変だけど、停滞したり、どこかの独占になるよりは断然マシだよね。
実は、今後はオープンウェイトのモデルってほとんど出なくなる方向なんだ。Metaもクローズドソースに移行してBehemothはリリースしないしね。このAIモデルのリリースラッシュは、始まる前に終わっちゃうかも。だから、現状に感謝すべきだよね。
もし中国がオープンソースを続けてくれたら、世界中がそれに基づいて開発を進めるはず。国内の企業がこれをやらないのが、正直ビックリだね。ファインチューニングって、AGIへの期待よりも、特定のビジネスユースケースでめちゃくちゃ効果的だよ。
なんでそんなに新しいものを追いかけるの?自分に合ったものにずっと集中してれば良くない?
これは短期的な話かもしれないけど、中長期的にはAIを使わない開発者は、使う開発者より成果を出すのが格段に遅くなると思うんだ。俺はもう現実でそうなり始めてるのを見てるよ(AIを使ったコーディングは好きじゃないから、これ最悪なんだけどね)。
「nicely」の定義にもよるけど、OllamaサーバーとQwen Coderモデルを動かしてるよ。大規模なホスト型モデルと比べても、なかなか良い感じ。エージェント機能はあまり使わず、チャット形式がメインかな。サーバーはWindowsゲーミングPCで、クライアントはmacOSラップトップのエディター。2026年後半に向けて、今から準備してるんだ!
URL: [1] https://github.com/ollama/ollama/blob/main/docs/faq.md#how-d… [2] https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22…
まったく同感だよ。やっぱり状況には注意を払うべきだと思う。例えば、俺が今やってる作業では、前までGeminiがコード生成のベストだったけど、今はClaudeの方が主観的に良い結果を出すんだ。確かに慣れたものに固執する手もあるけど、それじゃもっと効率的になったり、楽になったりするチャンスを逃しちゃうよね。
ChatGPT、Llama、Alpacaが次々出てきたとき、1年待ってからAIに飛び込もうと決めたんだ。当時は正しかったけど、今はそうでもないね。自己ホストにこだわる必要はもうないよ。技術が落ち着くのを待ってたけど、そんなことにはならないし、Claude 4みたいなモデルで2025年にはすごいものが作れそう。退屈な技術を待つならいいけど、新しい技術をハックしたいなら今が最高のタイミングだ!
>中国がオープンなら、世界もオープンにする
台湾のニュースで、中国のAIは政治思想に偏ってて、台湾寄りのAIを作る計画が進んでるって聞いたんだ。だから、例えお金にならなくても、思想を広めたり守ったりするために、色々なオープンなAIモデルがリリースされ続けるだろうね。AIはそういうのにぴったりだから。
ここはHNなんだから、みんながみんな賃金労働者じゃないよ。賃金労働者なら、最新の生産性ツールを学ばないと職を失うだけだ。会社でそれが求められる頃には、もう猶予はないよ。個人的に抵抗しても意味なくて、業界の仲間と組織化するしかないんだ。
AIが書いたコードの最初のリリースは遅いかもだけど、本番アプリのメンテやデバッグにはコードの深い知識がいるよね。AIが書く膨大なコードはAI自身が管理しないと人間じゃ無理。それでも速くなるのかは、vibe codedアプリがまだ本番に入ったばかりだから分からないんだ。恐怖は進行中だから、ホラーストーリーはまだ書けないな。AIは好きだけど、vibe codingは“ふざけてたらヤバいことになる”って状況だよ。
完璧なノート取りシステムを探してた日々を思い出すよ。結局何も達成できなかったけどね。最高のメモの取り方を考えるのに忙しすぎたんだ。
ローカルモデルを動かすためにハードウェア買って、1%しか使わないって、完全に非合理的だよね。2026年になっても、たぶんずっとそうだろうな。GPUをみんなで買って、データを漏らさずに使うような共同体ならうまくいくかもね。
賃金と給与の違いに、何か関係あるの?
待つ意味がよく分からないな。LM Studioとか使えば、最新で最高のものをダウンロードするだけですぐに始められるじゃん。「疲労感」ってどこにあるの?セットアップに何時間もかけるなら分かるけど、俺にとってはダウンロードしてすぐ使えるものだよ。
なんて贅沢なんだ!これを避ける一つの方法はね、一つのLLMに絞って、その背後の会社に賭けることだよ(つまり、長期的に見て最高の提供をし続けるってこと)。俺はOpenAIに賭けたけど、他の人は違う結論を出しても全然いいんだ。
新しいAIやハードの発表は頻繁にあるけど、正直そこまで差はないね。去年トップを選んで使い続けても、特に困ることはないよ。最新じゃなくても十分だね。
将来的にはAIモデルがもっと効率的になって、ハードも進化するから、今みたいな巨大GPUは要らなくなると思うんだ。2030年までには128GBのVRAMが標準になって、ほとんどのLLMがそれで十分になるかもね。
セットアップの情報、ありがとう!AIをローカルで動かすの、すごく興味あるんだけど、どんな時に成功してる?デバッグとか、定型文作成とか、他に何かあるかな?
もっとコメントを表示(2)
俺はAIを本業じゃない“フリンジ”的な作業で使ってるよ。例えばExcelの複雑なデータ処理とか、普段使わないツールの簡単な操作とか。これで何時間も節約できるんだ。でも、メインの仕事にはまだ使ってないな。EU製かアメリカ製かは気にしてないよ。
雰囲気でコード書く(Vibe coding)のはまだ無理だけど、Co-pilotみたいに簡単な機能の補完とか、コードベースの質問、あとは単純なスクリプト生成にはAIが超役立つね。革命ってほどじゃないけど、作業が確実に速くなるのは間違いないよ。
その意見には反対だね。オープンウェイトモデルが最先端に並ぶなんて思わなかったけど、中国がすごいモデルを出してきたからね。
そうそう、まさにこれ!AIが時間節約になるのは、広大なライブラリやフレームワーク、コードベースを扱う時だね。AIはノイズの中から必要な情報を素早く見つけて、正しい方向に導いてくれるんだ。
(追伸:ベンさん、もしあなたなら、2014年8月に同じ会社で同じ日にスタートしたよね?)
反対はしないけど、MoonshotのKimi K2 APIはエンジニアリング用途なら十分使えると思うな。アメリカのプロバイダー経由でも使えるのがいいね。
EU製のAIが「倫理的に作る」っていうコストをどれだけ払うか、もう少し様子を見るのはいい考えだね。多分、そんなに大きなデメリットにはならないと思うけど。
俺はさ、xAIが近いうちにキリスト教ファシスト中心のLLMをリリースするんじゃないかと予想してるんだ。(あそこの連中は思考が遅いからね。)怒れるイエス像と、ファシストの権威主義のために書き換えられた聖書がまるごと入ってるやつさ。そろそろだよ。
ここ数週間、OpenAI以外のLLMプロバイダを試してるんだけどさ。Claude、Deepseek、Mistral、ローカルのOllamaとかね。MistralはLLM性能が一番じゃないかもしれないけど、UXは俺的に最高か、OpenAIと互角だと思うんだ。
UIバグは一度もなかったし、OpenAIの好きだった機能もほとんど対応してるし、アプリはめちゃ速いんだよな。ウェブ検索を無効にできるのもいい。
辛いけど、俺も同じことやったよ。OpenAIの有料利用を辞めたんだ。Capital Oneで深層学習チームを管理してた時から、色々なLLMオプションを試しまくってたけど、もう十分!Gemini Proを一年契約したし、Gemini-cliやMoonshot’s Kimi K2も使うよ。Ollamaのローカルモデルも意外と使えるんだ。趣味で色々試すのはもうやめにしたんだ。
この時点でのAI業界って、ほとんどOpenAIをコピーしてるだけに見えるんだよね。違う会社が同じサービスを提供してるだけって感じ。正直、この業界でのイノベーションはそんなに高くないよ。
「AI業界はOpenAIをコピーしてるだけ」って言うけどさ、OpenAIだってGoogleのDeep Research機能をコピーしたんだぜ。Mistralも同じ名前を使ってるしな。
この競争の中でPerplexityってどういう立ち位置なんだろう?彼らの“Deep Research”は、俺が最初に知ったんだけど、それが最初だったかは分からないんだ。最近、無料プランからこの機能が(制限付きで)削除されたから、有料購読者からの収益よりもコストがかかってたんだろうな。
事実を言ってるだけなのにダウンボートされてるのが変だね。
主要なラボはみんなイノベーションもしてるし、お互いをコピーもしてるんだよ。Anthropicは「Agentic」プロトコルで他のラボに追随させようとしてるし、解釈性研究でははるかに進んでるみたいだね。DeepseekはMulti-headed Latent Attentionで巨大なSOTAオープンソースモデルを出したし、DeepmindはWorld Modelsで先を行ってる。
サービスは同じじゃないよ。日々のタスク、例えばコーディングなんかでモデルを使ってみたら、提供されてるものの違いはめちゃくちゃ大きいからね。
何に取り組むか、使ってるモデルの訓練データに何が含まれてたかにすごく依存するね。モデルのアーキテクチャ視点で見ると、基本的に全部同じだよ。一番の違いは訓練データにあるんだ。
それも違うよ。API表面だって違うんだから。
APIは関係ないって。それってJohnとTelegramやWhatsAppで話すのが別人相手って言うのと同じだよな。
手段が違っても本質は同じだろ。
全く専門家じゃないけど、ここにはかなり同意するよ。「Attention Is All You Need」以来、みんなLLMスタックにばかり注力してて、もっと深いNNの統合じゃなくて、モデルをデータパイプラインみたいにくっつけてるだけに見えるんだ。ニューロンモデリングの進歩が見たいね。
今や世界中がf(input: string): string
って関数をベースに色んなもの作ってるじゃん。そりゃどれも似たようなもんになるよな。
これこそが自由市場における健全な競争ってやつだね。Appleみたいに何十年も”革新的”でい続けるのは、独占的なゲートキーピングが生んだ異常なんだよ。
Appleはよく他社のパクリばっかりだったけど、人気があったから”彼ら”のイノベーションとして有名になったんだ。
Appleはもはや模倣困難なイノベーションの例じゃないね。一つは、アジャイルで開発者寄りな会社からOracleみたいな金儲け企業になっちゃって、あんまイノベーションがないこと。二つ目は、彼らが”革新的”って呼ぶものの多くが、他のプラットフォームで意外と簡単に再現できちゃうからさ。Flutterの人たちがLiquid Glassを4時間で再構築したみたいにね。
ジョブズはiPhoneを”徹底的に特許を取った”って言って威張ってたけど、その後の特許戦争で、Appleも他社のイノベーションに頼ってること、特許を迂回しても競合製品ができるってことが証明されたんだ。それで事態は収まったんだよね。
結局、どこも同じ技術を使ってるんだよ。違いがあるとしたら、学習データと計算能力くらいじゃないかな。
Voxtralの発表は、競争力のあるオープンソース音声転写をまたもたらした点で面白かったね。LLMバックボーンが必須だったかは疑問だけど(純粋関数モデルと比べて)、このアプローチは興味深いよ。
競争力のあるオープンソース音声転写が復活したって言うけど、Mistralのプレスリリースが比較してないだけで、Whisper以来の最高のオープンソースって思わせるような、もっと強いオープンSTTモデルはたくさんあるよ。このオープンベンチマークを見てみろよ:https://huggingface.co/spaces/hf-audio/open_asr_leaderboard 。Mistralが比較したScribeはここで10位だ。これは英語用だけど、多言語モデルも多いしね(例:https://huggingface.co/nvidia/canary-1b-flash )。