メインコンテンツへスキップ

Mistral、Le Chatで深層研究、音声技術、そして注目のプロジェクト群を一挙公開!

·3 分
2025/07 AI 生成AI 画像編集 音声技術 機械学習

Mistral、Le Chatで深層研究、音声技術、そして注目のプロジェクト群を一挙公開!

引用元:https://news.ycombinator.com/item?id=44594156

M4v3R 2025/07/17 18:01:31

画像編集AI、MistralがOpenAIより断然スゴい!
細部まで完璧に修正するし、無関係な部分はそのまま保持するから超優秀。ただ、入力画像は大きいのに、出力は1184pxにしかならないのは残念。
俺の自宅オフィスで「破れたグレーのパネルを新品みたいに直して」って試したら、素晴らしい出来だったよ。画質はちょっと落ちるけど、これはすぐ改善されるはず。
Input image (rescaled): https://i.imgur.com/t0WCKAu.jpeg
Output image: https://i.imgur.com/xb99lmC.png

ChuckMcM 2025/07/17 23:40:28

これ、Craigslistをダメにするね。写真と実物が違いすぎる詐欺が増えるよ。
うちの近所の不動産屋も、AIでボロボロの家を「再想像」してめちゃくちゃ綺麗に見せたら、客が激怒してた。
リアルターはステージングの進化だって言うけど、全然通用しなかったね。結局、物件は引っ込められて、家族が修繕してたよ。

Brybry 2025/07/18 00:48:14

嘘で中古車がもっと売れるの?詐欺にならない?
俺が中古車買った時は、新聞広告で写真もなし。全部現物見に行ったよ。
気に入ったのは独立した業者に事前検査頼んで、ラジエーターのヒビ見つけて値切ったね。

ChuckMcM 2025/07/18 01:58:52

Craigslistには詐欺が多いよ。「サンクコストの誤謬」っていうのがあって、遠くまで行った客は、たとえ品質が悪くても買っちゃうことがある。
AIで写真が嘘だらけになったら、利用者は減って、詐欺が価格に織り込まれるから全体的に値段が下がるはず。そうなると、誰も使わなくなるかも。
EBayでも説明と違うことよくあるし、大体セラーの味方をするんだよね。

xuki 2025/07/18 06:33:34

EBayの件、俺の経験とは全然違うよ!
2008年から使ってるけど、EBayは購入者寄りで、そのせいで俺はEBayで売るのはやめて、買うだけにしてるよ。

nancyminusone 2025/07/18 14:38:29

EBayで売ってるけど、これ同意。95%はバイヤーの味方だよ。たとえバイヤーのせいでもね。もしかしたら詐欺セラーには優しいのかもだけど。

johnisgood 2025/07/18 09:31:33

サンクコストの誤謬、まさにそれだね。
写真と実物が違っても、見に行くのに2時間以上かかったら、時間とお金を費やしちゃったからって結局買っちゃうことってあるよね。

rendaw 2025/07/18 03:17:23

デートアプリでも顔に加工フィルターかける人いるよね。
会ったら全然違う顔だったら、恋愛ってあるの?多分ないけど、不安だからやる、最初だけなら騙せる、顔は気にするって言うけど実は気にしてない、ってことなのかな。

johnisgood 2025/07/18 09:33:43

俺は見た目良くないけど、話す機会をもらえれば、その後は見た目関係なく魅力的だと思ってもらえるんだよね。
深い会話ができれば、それが魅力につながるんだ。
俺自身も、最初は魅力的だと思わなかった人でも、考え方とか経験とかで、どんどん魅力的に見えるようになったことがあるよ。

riffraff 2025/07/18 05:58:13

LLMが出てくる前から不動産屋とかが「reimagining」って言葉使ってたよ。スキルはもっと必要だったけどね。

conradfr 2025/07/18 06:29:09

追加の写真としては有効な使い方だけど、これだけだとダメだよね。

joshstrange 2025/07/18 11:55:19

今家探し中なんだけど、「AI staging」は賛成か中立かな。ちゃんと「AIが作った」って書いてあればいいし、空き家だとレイアウトが想像しやすいから助かるよ。

sync 2025/07/17 18:15:07

FYI、入力と出力のURLが同じだよ(違いを探そうとしてちょっと混乱した)。

M4v3R 2025/07/17 19:00:37

あ、ごめんね、直したよ。

bakkoting 2025/07/17 19:49:51

このタスクなら多分Kontextの方が得意じゃないかな、Mistralがそれ使ってるならだけどね。速くて安いし。OpenAIも昨日、高精度な画像編集機能を追加したみたいだよ。APIだけなのかUIでも使えるのかはまだわからないけどね。URL見てみて:[1] https://x.com/OpenAIDevs/status/1945538534884135132[2] https://i.imgur.com/w5Q0UQm.png

pablonaj 2025/07/17 18:37:33

彼らはBlack Forest LabsのFlux Kontextを使ってるんだ、すごく良いモデルだよ。

koakuma-chan 2025/07/17 19:21:00

じゃあMistralはただFluxモデルをホスティングしてるだけなの?

Squarex 2025/07/17 19:33:38

そうだよ、でも両方ヨーロッパの会社ってのは素晴らしいよね。

littlestymaar 2025/07/18 11:28:01

あ!私もそうかなって思ったんだけど、何かソースあるの?

joshcartme 2025/07/17 20:03:40

すごいね!でも修正版でも破れ目の影が見えるのが気になるなぁ。それも直すのってどれくらい大変なんだろう?

shaky-carrousel 2025/07/17 21:17:47

本のタイトルがめちゃくちゃになっちゃってるよ。

Lerc 2025/07/17 22:11:48

それは画像生成そのものじゃなくて、オートエンコーダのロスかもしれないね。生成なしでオートエンコーダだけ使って往復処理しないと判断は難しいけど、その種のロスっぽい見た目だよ。

vunderba 2025/07/18 15:56:07

それはBFLモデル(ほぼKontextだろうね)を使ってるからだよ。リリースノートにも書いてあるし。
入力画像は約1メガピクセルのアスペクト比に縮小されるんだ。Kontextで実験してみたから、全体に影響せず個別の変更を見れるスライダーを付けたよ。https://specularrealms.com/ai-transcripts/experiments-with-f…

dkga 2025/07/18 08:33:48

すごく面白い、シェアしてくれてありがとう!
話がそれるけど、両方の写真を開くのに、不要なCookieを受け取らないように何度もクリックしないといけないのがすごくイライラするんだよね。複数のサイトで同じCookieベンダーのポップアップが出るのも迷惑で、”Cookie as a Service”みたいなものがあるのかな?

davidwritesbugs 2025/07/18 10:11:53

興味深いことに壁の破れ目の影は直ってないけど、それ以外はすごく説得力のある仕上がりだね。

littlestymaar 2025/07/18 11:26:33

これって彼ら自身のモデルなの?それとも単にFlux Kontextのインスタンスをホストしてるだけ?
参照: https://bfl.ai/models/flux-kontext

totetsu 2025/07/18 04:52:38

これらのマルチモーダルなテキストと画像モデルが、アーキテクチャ的にどう構築されてるか、良い説明をしてくれる人いる?共通の埋め込み空間があるのかな?それともたくさんの統合なのかな?

Zacharias030 2025/07/18 08:03:03

専門外だけどね。最近のLLMが画像生成モデルをどう呼び出すか分からないけど、テキストから画像へのモデルは”操縦可能な”拡散モデルっぽいよ。Stefano ErmonのYouTubeトークが良いね。マルチモーダルモデルは通常、Vision Encoderが画像パッチをトークンに変換し、LLMとVisionモデルが共同でファインチューニングされるんだ。GemmaやKimi VLのレポートを読むと良いよ。

trilogic 2025/07/17 21:32:07

やっとEUが目覚めたって感じ!マジで誇らしいよ。
OpenAIとの契約が終わったら速攻Mistralに乗り換えるつもり。
EUを応援しなきゃね、フランス万歳!

jug 2025/07/17 23:39:46

マジでMistral Large 3が待ち遠しい!Le Chatの新しい言語モデルになるって匂わせてるし、Mistral Medium 3のブログでも「One more thing」って“大きなもの”を開発中って言ってたよね。今のモデルでもLlama 4 Maverickより断然良いし、Cerebrasの速さがあればChatGPTと比べても最高になるはず!

もっとコメントを表示(1)
trilogic 2025/07/18 07:20:34

MistralのGPUが溶けないように、アルプスとか超寒い場所にサーバー置いてほしいな。2年後には5億ユーザーも来るって予想してるんだ。月20〜30ユーロのコーディングプランがあれば、世界中のユーザーが押し寄せて、EUは競争力とイノベーションで世界ナンバーワンになるよ。今はケチらず投資すべき!オランダもチップ生産もっと頑張って!

kergonath 2025/07/18 10:54:35

>アルプス
氷河がもう大変なことになってるんだから、そこに新たな熱源はいらないってば。

okasaki 2025/07/18 11:26:59

アメリカの投資家が所有してて、アメリカのインフラで動いてて、Microsoftと“戦略的パートナーシップ”組んでる会社が「EUが目覚める」だって?冗談だろ。

fakepropaganda 2025/07/18 12:39:37

また個人がやってることを、政治的な組織であるEUとごっちゃにしてるね。

7moritz7 2025/07/20 11:54:57

Mistralはフランスにデータセンターを2つ建設中か、計画してるよ。

maelito 2025/07/18 13:19:23

国別の所有権ってどこで見れるの?彼らのインフラは?フランスでは何も動いてないの?

tjpnz 2025/07/19 10:39:39

ヨーロッパからはたくさんの良いテクノロジーが生まれてるのに、ここでは信じられてないみたいだね。俺はLe Chat、DeepL、Proton Mailを毎日使ってるよ。

GuB-42 2025/07/18 14:07:09

Mistralは結構前からあるんだ(この分野じゃ2年でも“結構”長い)。小型モデルを作るのがめっちゃ得意で、最高に賢いわけじゃないけど、だいたいは速攻でキレイな結果が出てくるよ。あと、俺の経験だと、他のところより検閲が緩いんだよね。

tdhz77 2025/07/17 16:51:08

MRF、つまりモデルリリース疲れに悩んでるんだ。Claude 4とかGPTとか、新しいLLMに次々切り替えるのがしんどい。これ良い!と思っても、前のに戻ると「うわ、これ最悪」ってなる。LLMのコンテキスト切り替えって本当に疲れるよね。

bee_rider 2025/07/17 17:37:40

正直、まだLLMをちゃんと試してないのは、まさにこの疲れが理由かな。たぶん2026年の後半まで待つと思う。その頃には、ローカルで動くLLMと対応ハードウェアが出てるか確認するよ。初期バージョンに奮闘してる人たちには脱帽だね。

vouaobrasil 2025/07/17 18:54:17

LLMを使わないっていう選択肢もあるよ。効率化じゃなくて、コーディングそのものの楽しみに集中しようぜ。だって効率化した分の利益は、結局CEOの懐に入るだけだしね。

reilly3000 2025/07/17 17:57:55

疲れはわかるけど、市場にたくさんの選択肢があって、イノベーションが進んでるのは良いことだと思うんだ。常に一番良いものを使おうとすると大変だけど、停滞したり、どこかの独占になるよりは断然マシだよね。

ivape 2025/07/17 18:06:40

実は、今後はオープンウェイトのモデルってほとんど出なくなる方向なんだ。Metaもクローズドソースに移行してBehemothはリリースしないしね。このAIモデルのリリースラッシュは、始まる前に終わっちゃうかも。だから、現状に感謝すべきだよね。

echelon 2025/07/17 18:46:01

もし中国がオープンソースを続けてくれたら、世界中がそれに基づいて開発を進めるはず。国内の企業がこれをやらないのが、正直ビックリだね。ファインチューニングって、AGIへの期待よりも、特定のビジネスユースケースでめちゃくちゃ効果的だよ。

emilsedgh 2025/07/17 17:03:34

なんでそんなに新しいものを追いかけるの?自分に合ったものにずっと集中してれば良くない?

freedomben 2025/07/17 19:22:30

これは短期的な話かもしれないけど、中長期的にはAIを使わない開発者は、使う開発者より成果を出すのが格段に遅くなると思うんだ。俺はもう現実でそうなり始めてるのを見てるよ(AIを使ったコーディングは好きじゃないから、これ最悪なんだけどね)。

Nezteb 2025/07/17 17:53:05

「nicely」の定義にもよるけど、OllamaサーバーとQwen Coderモデルを動かしてるよ。大規模なホスト型モデルと比べても、なかなか良い感じ。エージェント機能はあまり使わず、チャット形式がメインかな。サーバーはWindowsゲーミングPCで、クライアントはmacOSラップトップのエディター。2026年後半に向けて、今から準備してるんだ!
URL: [1] https://github.com/ollama/ollama/blob/main/docs/faq.md#how-d… [2] https://huggingface.co/collections/Qwen/qwen25-coder-66eaa22

barbazoo 2025/07/17 17:17:06

まったく同感だよ。やっぱり状況には注意を払うべきだと思う。例えば、俺が今やってる作業では、前までGeminiがコード生成のベストだったけど、今はClaudeの方が主観的に良い結果を出すんだ。確かに慣れたものに固執する手もあるけど、それじゃもっと効率的になったり、楽になったりするチャンスを逃しちゃうよね。

Uehreka 2025/07/17 19:16:40

ChatGPT、Llama、Alpacaが次々出てきたとき、1年待ってからAIに飛び込もうと決めたんだ。当時は正しかったけど、今はそうでもないね。自己ホストにこだわる必要はもうないよ。技術が落ち着くのを待ってたけど、そんなことにはならないし、Claude 4みたいなモデルで2025年にはすごいものが作れそう。退屈な技術を待つならいいけど、新しい技術をハックしたいなら今が最高のタイミングだ!

seszett 2025/07/17 18:57:44

>中国がオープンなら、世界もオープンにする
台湾のニュースで、中国のAIは政治思想に偏ってて、台湾寄りのAIを作る計画が進んでるって聞いたんだ。だから、例えお金にならなくても、思想を広めたり守ったりするために、色々なオープンなAIモデルがリリースされ続けるだろうね。AIはそういうのにぴったりだから。

wahnfrieden 2025/07/17 19:11:39

ここはHNなんだから、みんながみんな賃金労働者じゃないよ。賃金労働者なら、最新の生産性ツールを学ばないと職を失うだけだ。会社でそれが求められる頃には、もう猶予はないよ。個人的に抵抗しても意味なくて、業界の仲間と組織化するしかないんだ。

ivape 2025/07/17 19:36:08

AIが書いたコードの最初のリリースは遅いかもだけど、本番アプリのメンテやデバッグにはコードの深い知識がいるよね。AIが書く膨大なコードはAI自身が管理しないと人間じゃ無理。それでも速くなるのかは、vibe codedアプリがまだ本番に入ったばかりだから分からないんだ。恐怖は進行中だから、ホラーストーリーはまだ書けないな。AIは好きだけど、vibe codingは“ふざけてたらヤバいことになる”って状況だよ。

exe34 2025/07/17 18:15:59

完璧なノート取りシステムを探してた日々を思い出すよ。結局何も達成できなかったけどね。最高のメモの取り方を考えるのに忙しすぎたんだ。

randomNumber7 2025/07/17 18:56:04

ローカルモデルを動かすためにハードウェア買って、1%しか使わないって、完全に非合理的だよね。2026年になっても、たぶんずっとそうだろうな。GPUをみんなで買って、データを漏らさずに使うような共同体ならうまくいくかもね。

gitremote 2025/07/18 02:45:36

賃金と給与の違いに、何か関係あるの?

ikt 2025/07/18 02:34:48

待つ意味がよく分からないな。LM Studioとか使えば、最新で最高のものをダウンロードするだけですぐに始められるじゃん。「疲労感」ってどこにあるの?セットアップに何時間もかけるなら分かるけど、俺にとってはダウンロードしてすぐ使えるものだよ。

mrcwinn 2025/07/17 17:14:12

なんて贅沢なんだ!これを避ける一つの方法はね、一つのLLMに絞って、その背後の会社に賭けることだよ(つまり、長期的に見て最高の提供をし続けるってこと)。俺はOpenAIに賭けたけど、他の人は違う結論を出しても全然いいんだ。

zamadatix 2025/07/17 19:03:31

新しいAIやハードの発表は頻繁にあるけど、正直そこまで差はないね。去年トップを選んで使い続けても、特に困ることはないよ。最新じゃなくても十分だね。

ikt 2025/07/18 02:37:11

将来的にはAIモデルがもっと効率的になって、ハードも進化するから、今みたいな巨大GPUは要らなくなると思うんだ。2030年までには128GBのVRAMが標準になって、ほとんどのLLMがそれで十分になるかもね。

QRY 2025/07/17 18:26:14

セットアップの情報、ありがとう!AIをローカルで動かすの、すごく興味あるんだけど、どんな時に成功してる?デバッグとか、定型文作成とか、他に何かあるかな?

もっとコメントを表示(2)
nosianu 2025/07/17 17:48:15

俺はAIを本業じゃない“フリンジ”的な作業で使ってるよ。例えばExcelの複雑なデータ処理とか、普段使わないツールの簡単な操作とか。これで何時間も節約できるんだ。でも、メインの仕事にはまだ使ってないな。EU製かアメリカ製かは気にしてないよ。

freedomben 2025/07/17 22:20:31

雰囲気でコード書く(Vibe coding)のはまだ無理だけど、Co-pilotみたいに簡単な機能の補完とか、コードベースの質問、あとは単純なスクリプト生成にはAIが超役立つね。革命ってほどじゃないけど、作業が確実に速くなるのは間違いないよ。

randomNumber7 2025/07/17 18:53:19

その意見には反対だね。オープンウェイトモデルが最先端に並ぶなんて思わなかったけど、中国がすごいモデルを出してきたからね。

javawizard 2025/07/17 23:49:07

そうそう、まさにこれ!AIが時間節約になるのは、広大なライブラリやフレームワーク、コードベースを扱う時だね。AIはノイズの中から必要な情報を素早く見つけて、正しい方向に導いてくれるんだ。
(追伸:ベンさん、もしあなたなら、2014年8月に同じ会社で同じ日にスタートしたよね?)

mark_l_watson 2025/07/18 13:38:15

反対はしないけど、MoonshotのKimi K2 APIはエンジニアリング用途なら十分使えると思うな。アメリカのプロバイダー経由でも使えるのがいいね。

bee_rider 2025/07/17 18:36:12

EU製のAIが「倫理的に作る」っていうコストをどれだけ払うか、もう少し様子を見るのはいい考えだね。多分、そんなに大きなデメリットにはならないと思うけど。

bsenftner 2025/07/18 11:09:33

俺はさ、xAIが近いうちにキリスト教ファシスト中心のLLMをリリースするんじゃないかと予想してるんだ。(あそこの連中は思考が遅いからね。)怒れるイエス像と、ファシストの権威主義のために書き換えられた聖書がまるごと入ってるやつさ。そろそろだよ。

raphaelj 2025/07/18 11:38:10

ここ数週間、OpenAI以外のLLMプロバイダを試してるんだけどさ。Claude、Deepseek、Mistral、ローカルのOllamaとかね。MistralはLLM性能が一番じゃないかもしれないけど、UXは俺的に最高か、OpenAIと互角だと思うんだ。
UIバグは一度もなかったし、OpenAIの好きだった機能もほとんど対応してるし、アプリはめちゃ速いんだよな。ウェブ検索を無効にできるのもいい。

mark_l_watson 2025/07/18 13:33:53

辛いけど、俺も同じことやったよ。OpenAIの有料利用を辞めたんだ。Capital Oneで深層学習チームを管理してた時から、色々なLLMオプションを試しまくってたけど、もう十分!Gemini Proを一年契約したし、Gemini-cliやMoonshot’s Kimi K2も使うよ。Ollamaのローカルモデルも意外と使えるんだ。趣味で色々試すのはもうやめにしたんだ。

behnamoh 2025/07/17 17:19:14

この時点でのAI業界って、ほとんどOpenAIをコピーしてるだけに見えるんだよね。違う会社が同じサービスを提供してるだけって感じ。正直、この業界でのイノベーションはそんなに高くないよ。

cubefox 2025/07/17 17:52:55

「AI業界はOpenAIをコピーしてるだけ」って言うけどさ、OpenAIだってGoogleのDeep Research機能をコピーしたんだぜ。Mistralも同じ名前を使ってるしな。

scoot 2025/07/18 01:34:51

この競争の中でPerplexityってどういう立ち位置なんだろう?彼らの“Deep Research”は、俺が最初に知ったんだけど、それが最初だったかは分からないんだ。最近、無料プランからこの機能が(制限付きで)削除されたから、有料購読者からの収益よりもコストがかかってたんだろうな。

cowpig 2025/07/17 19:12:35

事実を言ってるだけなのにダウンボートされてるのが変だね。
主要なラボはみんなイノベーションもしてるし、お互いをコピーもしてるんだよ。Anthropicは「Agentic」プロトコルで他のラボに追随させようとしてるし、解釈性研究でははるかに進んでるみたいだね。DeepseekはMulti-headed Latent Attentionで巨大なSOTAオープンソースモデルを出したし、DeepmindはWorld Modelsで先を行ってる。

klntsky 2025/07/17 17:39:38

サービスは同じじゃないよ。日々のタスク、例えばコーディングなんかでモデルを使ってみたら、提供されてるものの違いはめちゃくちゃ大きいからね。

lossolo 2025/07/17 21:01:44

何に取り組むか、使ってるモデルの訓練データに何が含まれてたかにすごく依存するね。モデルのアーキテクチャ視点で見ると、基本的に全部同じだよ。一番の違いは訓練データにあるんだ。

klntsky 2025/07/18 02:41:04

それも違うよ。API表面だって違うんだから。

lossolo 2025/07/18 05:11:45

APIは関係ないって。それってJohnとTelegramやWhatsAppで話すのが別人相手って言うのと同じだよな。
手段が違っても本質は同じだろ。

PxldLtd 2025/07/18 13:09:47

全く専門家じゃないけど、ここにはかなり同意するよ。「Attention Is All You Need」以来、みんなLLMスタックにばかり注力してて、もっと深いNNの統合じゃなくて、モデルをデータパイプラインみたいにくっつけてるだけに見えるんだ。ニューロンモデリングの進歩が見たいね。

mirekrusin 2025/07/17 19:05:23

今や世界中がf(input: string): stringって関数をベースに色んなもの作ってるじゃん。そりゃどれも似たようなもんになるよな。

scotty79 2025/07/17 17:37:05

これこそが自由市場における健全な競争ってやつだね。Appleみたいに何十年も”革新的”でい続けるのは、独占的なゲートキーピングが生んだ異常なんだよ。

croes 2025/07/17 17:42:29

Appleはよく他社のパクリばっかりだったけど、人気があったから”彼ら”のイノベーションとして有名になったんだ。

behnamoh 2025/07/17 17:40:04

Appleはもはや模倣困難なイノベーションの例じゃないね。一つは、アジャイルで開発者寄りな会社からOracleみたいな金儲け企業になっちゃって、あんまイノベーションがないこと。二つ目は、彼らが”革新的”って呼ぶものの多くが、他のプラットフォームで意外と簡単に再現できちゃうからさ。Flutterの人たちがLiquid Glassを4時間で再構築したみたいにね。

overfeed 2025/07/17 19:39:13

ジョブズはiPhoneを”徹底的に特許を取った”って言って威張ってたけど、その後の特許戦争で、Appleも他社のイノベーションに頼ってること、特許を迂回しても競合製品ができるってことが証明されたんだ。それで事態は収まったんだよね。

croes 2025/07/17 17:40:59

結局、どこも同じ技術を使ってるんだよ。違いがあるとしたら、学習データと計算能力くらいじゃないかな。

Aissen 2025/07/17 17:27:07

Voxtralの発表は、競争力のあるオープンソース音声転写をまたもたらした点で面白かったね。LLMバックボーンが必須だったかは疑問だけど(純粋関数モデルと比べて)、このアプローチは興味深いよ。

nomad_horse 2025/07/17 17:55:25

競争力のあるオープンソース音声転写が復活したって言うけど、Mistralのプレスリリースが比較してないだけで、Whisper以来の最高のオープンソースって思わせるような、もっと強いオープンSTTモデルはたくさんあるよ。このオープンベンチマークを見てみろよ:https://huggingface.co/spaces/hf-audio/open_asr_leaderboard 。Mistralが比較したScribeはここで10位だ。これは英語用だけど、多言語モデルも多いしね(例:https://huggingface.co/nvidia/canary-1b-flash )。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。