メインコンテンツへスキップ

Qwen3 より深く考え速く動ける!

·3 分
2025/04 AI LLM Qwen3 推論 性能評価

Qwen3 より深く考え速く動ける!

引用元:https://news.ycombinator.com/item?id=43825900

stavros 2025/04/28 23:32:46

LLMに物理問題を出すのが好きなんだ.人間にとっても難しい問題で、試したLLM(GPT o3,Claude 3.7,Gemini 2.5 Pro)は全部最初は正解できなかったんだ.でも、答えを説明させると eventually 正解するんだよね.ただ、一発で当たったやつはいない.Qwen3をmax thinkingで試したら、他のやつよりさらに間違えてて、まあ参考までにって感じかな.

furyofantares 2025/04/29 01:45:25

俺も似たような簡単めな空間推論問題があるんだけど、reasoning モデルでも間違うし、全部じゃないんだよね.Qwen3 max reasoningでもダメだった.問題は>コップにコイン入れて逆さまにガラスTに乗せ、鏡を下に滑らせたらheadsが見えた.コップと鏡をどけたら何見える?

stavros 2025/04/28 23:50:13

よく言うじゃん、「アネクドートの複数形はデータ」ってさ.

mrkeen 2025/04/29 07:45:38

みんな言う通り、AIは現在の最高レベルじゃなくて、どれだけ遠く、どれだけ速く進歩してるかで判断すべきだよね.将来のモデルが今回よりさらに間違えるのを見るのが待ちきれないよ.

kaoD 2025/04/29 07:59:26

個人的には(アネクデータだけど)、ベンチマークはすごくても日常で practical な進歩は長いこと感じない.得意なこと(ソース集め)はいいけど、苦手なこと(新しい問題やソースが少ない Liquidsoap[0]スクリプトとか)は terrible.情報が少ないと”思考”してないって分かるんだよね. Liquidsoap[0] https://www.liquidsoap.info/

rtaylorgarlock 2025/04/29 00:07:07

それは「opinion の複数形は fact」って言うのと同じくらいだよ 😉

stavros 2025/04/29 01:15:01

あんまり training set に入れたくないけど、まあいいか.はい、これだよ.>今 3D プリンターで印刷中、一時停止.hotend を室温以上に保って後で温める vs 完全にオフにして後で全部温める.どっちがエネルギー使う? 答えが変わる時間はある? LLM は hotend がすぐ冷えるって仮定して間違えるけど、聞くと気づく.Qwen は気づかず、オフにするより hotend 30分加熱が良いって答えた.

stavros 2025/04/29 00:18:53

まあ、literal に言えば、データってのは single point の集まりだよ(つまり俺たちが”anecdotes”って呼んでるものね).

jim180 2025/04/29 09:07:44

LLMはObjective-CとかSwift苦手だよねー。JSとかHTML、Pythonと比べるとさ。でもClaude Codeは簡単なランディングページ作るのに超使えることに気づいたんだ。静的なhtml+jsを出力してくれるからホストしやすいし、デザインもまあまあ見れる。コードは最高とは言えないし、正直人間が保守するのは無理な部分もあるけど、とりあえず役に立つよ。

bcoates 2025/04/29 00:39:18

いや、Wittgensteinの規則追随のパラドックスとか、Shannonの標本化定理とか、有限個の点を通る無限多項式の法則(名前あったっけ?)とか、その他諸々、全部極限的には「いくら個別の事例を集めても、それは偶然以上のものにはならない」って考え方と一緒なんだよ。

natrys 2025/04/29 02:07:43

僕の最初の試み(思考の連鎖は省略するね):
コインと鏡のパズルでLLMが出した答え(テール)とその理由だよ。鏡は下面を映すけど、見える上面はその反対側。だから鏡でヘッドが見えたら、上はテールだって解説してたよ。具体的で分かりやすい解説だった。

SamBam 2025/04/29 02:24:51

うん、それダメだったね。僕がLLMにいつも解かせている川渡りパズルで、Qwen3はダメだったよ。ChatGPT o3も苦労するくらい難しいんだけど、Qwen3はエラーに気づいても同じ失敗を繰り返すんだ。解けないパズルだってヒントを出しても、毎回自信満々にやり直してまた失敗する様子が面白かった。

markisus 2025/04/29 02:42:51

流体のアナロジーがあると分かりやすいかもね。水漏れしてるバケツがあるとする。全部水が漏れるのを待ってから最初から入れ直すのと、ちょくちょく満タンにしておくのと、どっちが水を無駄にするか?答えは、どれだけ水漏れがひどいか vs どれだけ長い間バケツの水位を維持する必要があるかによる。少なくとも僕はそのパズルをそう解釈してるよ。

ggregoryarms 2025/04/29 10:45:51

でも、基本的な静的htmlのランディングページ作るのってめちゃくちゃ簡単だよね。JavaScriptなんて何に使うの?もしそれがhtmlファイルとスタイルシートだけなら、そりゃホストするのも簡単だよ。CSS20行くらい書けばまあまあ見れるページになるし。これって難しい問題じゃないんだよ。

copperroof 2025/04/29 15:04:09

僕はどのLLMからも、プロダクションで使えるPythonコードを全く得られてないんだ。簡単なスクリプトならまあいいけど、将来保守したりデバッグしたりする必要があるもの?全然ダメ。LLMを訓練してるひどいPythonコードがたくさん出回ってるんだろうね。だから、人気の言語であることはかえって役に立たないのかも。この時代は、基準がどれだけ低いかを透明にしてるね。

rwj 2025/04/29 00:29:20

ただし、個別の事例の複数形は決してデータじゃないよ。交絡変数とかサンプリングバイアスをコントロールしないと、ゴミになるだけだからね。

krosaen 2025/04/29 12:18:40

Liquidsoapのスクリプト頼む前にどんなプロンプトとかコンテキスト与えてるのか気になるなー。
あとCursor使ってLiquidsoapのドキュメントとかコンテキストとして大量にあげたりしてみた?
そういうのがモデルの性能すごく上げると思うんだよね。
社内APIとかベストプラクティスとかパターンとかでうまくいくの見たりしたし。

kaoD 2025/04/29 12:31:36

うん、Cursor使ったよ。
Liquidsoapの本丸ごととか、オンラインリファレンスのURLとかコンテキストとして渡してみた。
コンテキストが大きすぎたりRAGが発動したりするかなーと思ってね。
でもダメだったなー。
やりたいことができなかったっていうか、ほとんどの場合そもそも動かなかったんだ。
エラーメッセージに合わせて試行錯誤しても、どんどんバカな非解決策にたどり着いて、結局ぐるぐる回るだけだった。

SamBam 2025/04/29 02:25:50

へー、私のだとこう言ってたよ。
コインはガラスのテーブルに置かれてて、下から鏡で見ると上面が見える。
鏡は前後を反転させるけど左右はしないから、見た面(表)はそのまま認識できる。
コインは動いてないから、カップと鏡をどけて上から見ても、鏡で見えてたのと同じ面(表)が見えるって。

bufferoverflow 2025/04/29 05:17:26

どんな回答期待してんの?
ホットエンドの形状とか材質、温度差、部屋の空気の動きの速さ、空気の湿度とか、全部に依存するじゃん。

oscord 2025/04/29 06:02:56

Qwen3-32bはかなり正確にやったみたいだね。
周囲温度までの時間ごとの熱損失を計算して、10分未満の短い休憩なら100Cで待機するって提案してた。
長い休憩なら完全にシャットダウンね。

Torkel 2025/04/29 03:15:56

でもそれって依存するかな?
漏れ出てる水(熱)が、補充しないといけないものじゃん。
水位が下がると(ホットエンドが冷えると)漏れは遅くなる。
だから補充すると、結局もっと水(熱)を追加してその分後で支払うことになる、つまり漏れが増えるってことだよね。

UltraSane 2025/04/29 04:10:35

Sonnet 3.7の非推論バージョンは正解だったって。
コインをガラスのテーブルにひっくり返して置くと、下から鏡で見えるのは底面。
鏡に「表」が映ってるなら、それはコインの底面が表ってことだね。
鏡は左右を反転させるけど、表裏はひっくり返らない。
だから、カップと鏡をどかして上から見ると、鏡で見た底面(表)の反対側、つまり「裏」が見えるはずだって。

whatnow37373 2025/04/29 05:34:18

構造的な仮定なしには必然性なんてなく、観察された規則性だけだ。
必然性なんて文字通り存在しないし、データの中にも見つけられない。
データ単体じゃ役に立たないんだ。
これに対するみんなの反応を見るのは面白いね。
Humeがこれを見抜いて、Kantが応答したんだ。

natrys 2025/04/28 21:01:42

ドキュメントもかなりいい感じ
メジャーな推論スタックは初日から全部サポートしてるみたいだし、サイズも色々あるね。Quantsもコミュニティの人たちと連携してたからすぐ出てる。性能はまだこれからだけど、細かいとこまで気が配られてて、これだけでも素晴らしいリリースだよ。MetaがLlama 4でやってたのとは大違い(明日のLlamaConでMetaが驚かせてくれるといいけどね)。[1] https://qwen.readthedocs.io/en/latest/

Jayakumark 2025/04/28 22:02:16

これ同意! llama.cppとかtransformers、vllm、sglang、ollamaとか、メジャーなLLMフレームワーク全部にqwen3サポートのパッチを数週間前から当ててて、モデルウェイトも世界同時公開みたいに一斉に出したんだって。この細かさと努力はマジでヤバいね。

echelon 2025/04/28 23:26:45

Alibabaさんお願い! gpt-image-1に対抗して、QwenとWanを組み合わせたマルチモーダル画像生成モデル出してほしい! それができたらアート界が激変する。OpenAIがAI画像・動画市場を独占しようとしてるけど、オープンソース界隈じゃ開発が難しい。Alibabaさんならできるはずだよ。ファインチューン可能なオープンモデルが出たら、巨人たちの独占を止められる。お願いだから作って! Wan Videoもすごいし、Alibabaさん応援してる!

Imustaskforhelp 2025/04/29 10:46:20

AI画像の質は上がったけど、まだアートじゃないよね。chatgpt-imagen以前はひどかったし。オープンソースでchatgptレベルが欲しいって、Alibabaとかに無料労働求めてるだけじゃない? OpenAIの独占より、みんな安く使いたいだけっぽい。アーティスト→ストックフォト→AI画像→chatgpt→もっと安く、って流れ。deepseek r1が価格競争を促したみたいに。
自分たちは稼ぎたいのに、誰にも払いたくない、オープンソースには無料労働求める…人間って変だよね。

fkyoureadthedoc 2025/04/29 12:23:45

一方で、ChatGPTの画像生成は使うのが超楽しいよ。ミームに使うような画像のために、人間のアーティストにお金払おうとは思わないな。

lovestory 2025/04/29 11:38:26

あのKaty Perryですら、ツアーの背景にAI使ってるらしいけど…正直ひどい見た目だよ。 https://twitter.com/bklynb4by/status/1915514396421337171

もっとコメントを表示(1)
bergheim 2025/04/29 01:53:54

> それができたらアート界がマジで永遠に変わる。って、どの世界線? 数パーセント良くなったからって、それがアートを革新したって? 数年前じゃなくて、今、これが? Wow。

horhay 2025/04/29 10:45:00

今のテック界隈じゃ、何でも”世界を揺るがす”って言われがちだよね。それが本当かは毎回違うけどさ。chatgpt-4oの画像生成モデルだって、他の手法にはなかった弱点があると思う。でも、新しい=絶対良い、世界を変える、って思われちゃうんだよね。

Tepix 2025/04/29 05:51:33

永遠に、って言ってもたぶん数週間でしょ。笑

Imustaskforhelp 2025/04/29 10:53:31

いやー,このコメント読んでニヤッとしちゃったよ,だってこれマジでそうなんだもん.技術の進歩が速すぎて,みんなすぐ「これが最高,永遠だ!」って言うけど,すぐに新しいのが出て前のを忘れ去る.DeepSeek R1,Grok 3,Claude 3.7,Gemini 2.5 Proとあっという間に入れ替わった.人間は結果を後付けで正当化しがちだけど,永遠なんてない,ただの今の話.AI界隈が忘れがちな文字通りの事実だね.

kadushka 2025/04/28 21:15:04

コミュニティの量子化メーカーと既にたくさん協力してるって言ってたよね.誰のことか気になるな?

natrys 2025/04/28 21:25:40

Unsloth[1]とBartowski[2]のことかなって思った.両方ともRedditで,Qwenがリリース前に重みにアクセスさせてくれたからスムーズだったって言ってたよ.[1] https://huggingface.co/unsloth
[2] https://huggingface.co/bartowski

Gracana 2025/04/28 22:13:01

exl2量子化なら,https://huggingface.co/LoneStriker もいるよ.

dredds 2025/04/29 19:46:12

ダウンロード数で言うと: https://huggingface.co/spaces/mvaloatto/TCTF これとか?

sroussey 2025/04/28 21:18:17

あー,Hugging Faceへのリンク,今切れてるね.

daemonologist 2025/04/28 21:25:49

今は大丈夫みたいだよ: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2…
スペースも最終的には読み込めるし,Hugging Faceがめっちゃ混んでるだけかも.

sroussey 2025/04/29 03:24:21

へー、そうなんだ。でもONNXも入れて欲しかったなー。

simonw 2025/04/29 04:39:16

新しいLLMが出る時の恒例で、Qwen 3(32B、OllamaでMac)でHacker Newsのスレを要約させたんだ。プロンプトと記事中の質問を混同してるみたいで、タスクはイマイチだけど”思考”プロセスが興味深いよ。詳細リンクは省略。

manmal 2025/04/29 09:25:13

Redditで誰かが最初のUnslothリリースはバグってたって言ってたよ。もしそれ使ったなら、修正版でもう一回試せるかも?

daemonologist 2025/04/29 13:56:27

そうだったみたいね。Unslothは一時HFにQ6以上だけ使えってメッセージ出してたよ。これが予測精度にどれくらい影響したかは分からないけどね。

hobofan 2025/04/29 10:36:26

これはメタデータで提供されてたチャットテンプレートのことだけだと思うよ(公式リリースでも壊れてたやつ)。でも、推論フレームワークは壊れたテンプレート渡されたらエラーになるだけだろうから、このテストには影響ないと思うな。

anentropic 2025/04/29 12:08:40

これって”思考”モードを使いたくないタスクみたいだね

hbbio 2025/04/29 07:26:55

僕のnanoagentベンチマークだと、Qwen3はすごいんだけど考えすぎ!Qwen3-0.6bはLlama 3.2 3bよりさらに性能良いみたい…でも6倍遅いんだ。Gemma3 4bに結果は似てるけど、後者(Gemma3)の方がApple M3ハードウェアで5倍速いよ。だから多分、メモリがボトルネックになるようなケース、例えばNvidia GPUとかで、より良いモデルを動かすのが有用なのかな?ベンチマーク詳細は省略。

phh 2025/04/29 08:14:27

これらのモデルのクールなところは、”思考”プロセスを調整できることだよ、”思考なし”までね。でも、君の推論エンジンではできないかもだけど。

hbbio 2025/04/30 06:12:20

今はできるようになったよ、提案ありがとう。
Qwen3 4bは通常のステップで一番良いデフォルトモデルみたいだね。プルリクリンクは省略。

ammo1662 2025/04/29 09:02:17

プロンプトに”/no_think”って付ければいいだけだよ。詳しいことはここのブログを見てね。https://qwenlm.github.io/blog/qwen3/#advanced-usages

simonw 2025/04/29 13:24:54

ハハ、これでこのスレッドまとめられなくなっちゃったじゃん。君のコメントで思考オフになっちゃうからさ!

Casteil 2025/04/29 13:49:29

ちなみにだけど、公式のREADMEには”/nothink”って書いてあるし、それが俺の場合はうまくいったよ。”/think”とか”/nothink”ってシステムメッセージかユーザーメッセージに入れると、Qwen3が考えるかどうか指示できるんだ。複数ターンの会話では、一番新しい指示が有効になるよ。https://github.com/QwenLM/Qwen3/blob/main/README.md

hbbio 2025/04/30 05:13:04

ありがとう、”/nothink”うまくいったよ!それでさ、Qwen3 1.7bはGemma3 4bとスピードは大体同じくらいで、ちょっと劣るけど、これはかなりすごいと思う。Qwen3 4bは200個のテスト全部通ったし、Mistral Small 3.1 24bとかGemma3 27bより全然速いよ。

hbbio 2025/04/29 12:26:31

ありがとう!どうも”ただ”って言葉は適切じゃなかったみたいだ。俺のベンチマークは会話形式でやってて、SystemMessageとUserMessageに構造化されたコンテンツを入れてるんだ。でもQwen3はSystemMessageに”/no_think”付けても無視するみたいなんだよね。構造化されたコンテンツに付けるのはちょっと変だけど試してみるか。temperatureみたいな”think”パラメーターがあればもっと良かったな。

claiir 2025/04/29 12:38:15

o1-previewも同じ問題あったよ!長い会話を渡してまとめさせようとしても、会話が質問で終わってたらo1-previewはそれに答えちゃって、指示を完全に無視するんだよね。個人的な問題設定で試した感じだと、Qwen3にはあんまり感動しなかったな。

littlestymaar 2025/04/29 05:17:04

そういえば、Qwenモデルってシステムプロンプト苦手って言われてなかったっけ?

simonw 2025/04/29 05:32:25

それは知らなかったけど、モデルがこのタスクをめちゃくちゃにした理由はそれが原因かもね。システムプロンプトじゃなくて普通のプロンプトでこんな感じで試してみたんだ(llm-hacker-newsプラグインでhn:プレフィックス使って)。
llm -f hn:43825900
’Summarize the themes of the opinions expressed here.
For each theme, output a markdown header.
Include direct ”quotations” (with author attribution) where appropriate.
You MUST quote directly from users when crediting them, with double quotes.
Fix HTML entities. Output markdown. Go long. Include a section of quotes that illustrate opinions uncommon in the rest of the piece’
-m qwen3:32b
これでずっと良くなったよ!Gistのリンクはこちら。https://gist.github.com/simonw/3b7dbb2432814ebc8615304756395…

croemer 2025/04/29 12:12:07

入力トークンをたった2048だけに切り詰めるっぽいなー。

simonw 2025/04/29 13:21:04

あーっ! それ、Ollamaのデフォルト設定じゃん。
num_ctx設定を増やせば直せるよー。もう一回実行してみるね。
出力サイズはnum_predict設定でコントロールできるんだ。

notfromhere 2025/04/29 05:27:05

Qwenはそこそこいい感じだけど、DeepSeekはシステムプロンプトが苦手っぽいね。
Qwen使うならパラメータいじりまくらないとダメだよ。

もっとコメントを表示(2)
simonw 2025/04/28 21:52:08

QwenやDeepSeekがCCPの世界観で学習されてて、Tiananmen Squareみたいな検閲があるか気になるんだよね。
でも1年以上使われてるけど、問題になった報告ってあんまり聞かない。
これって予想より問題じゃないのかな?
それとも検閲の仕方が違うのかな?

eunos 2025/04/28 21:54:04

話すのを避けるって部分は、フロントエンドレベルの検閲だと思うなー。
API側では検閲されてないんじゃない?

nyclounge 2025/04/28 23:23:55

それは違ーう!
少なくとも俺のローカルの1.5B版モデルではね。
オフラインモードで使うと回答ブロックされるよ。
Perplexityには検閲されてないバージョンがあるけど、どうやってるかは公開されてないと思うな。

johanyc 2025/04/29 01:39:13

前の人が言ってるのは、中国の世界観にモデルが合わせてるって話で、質問に答えないってことじゃないんだ。
試しに「Taiwanは国?」ってAPIで聞いたら、Deepseekは「中国の一部」ってCCPよりの回答だった。
Chatgptは「定義によるけど現実には国みたい」って客観的な回答だったよ。
これでDeepseekがCCPのイデオロギーに合わせてるのがわかるだろ?

CSMastermind 2025/04/28 23:24:34

今んとこ、これらのモデルはUSのモデルより検閲が少ないよ。
とはいえ、支配権争いしてる最中だから、今検閲するのはバカげてる。
もし勝って独占状態になったら、締め付けが始まるだろうね。

pxc 2025/04/29 01:58:48

俺が同じことやろうとしたら、DeepSeekは質問に答えるのを拒否したよ。

sisve 2025/04/29 07:33:19

USのモデルからどんなコンテンツが削除されてるの?
ポルノとか、化学兵器の作り方とか?
歴史的なイベントについてはそうじゃないの?

theturtletalks 2025/04/28 23:30:55

PerplexityがR1の検閲を突破したなんて知らなかったけど、これ完全に無検閲らしいね。アカウントなくても誰でも試せるよ:https://labs.perplexity.ai/。HuggingFaceもOpen R1に取り組んでたみたいだけど、どれくらい進んだのかな?

horacemorace 2025/04/28 22:01:59

俺の限られた経験だとさ、LlamaとかGemmaみたいなモデルは、QwenとかDeepseekよりずっと検閲が厳しい気がするな。

pbmango 2025/04/28 21:56:39

この”世界観チューニング”って、モデルが注目を集めるための現れかもね。天安門事件の投稿がSNSで拡散されたことで、技術的なメリットよりモデルの存在が広まったと思う。特に無料Deepseekがこれで知られたのは、新しいAI発表がSNSでバズる流れに合ってるね。

refulgentis 2025/04/28 22:15:08

その結論に至るデータあるのかな?「DeepSeekに検閲したのは、天安門検閲のスクショ見たら消費者が無料DeepSeekを気に入るって知ってたから」ってのは考えにくいよ。スクショが話題を呼んだってのはあるけど、それはちょっと文脈的に無理があるかな。

johanyc 2025/04/29 01:45:29

それってAPIを何に使うかによると思うよ。例えば、コーディングに使ってるなら政治的な見解なんて誰が気にする? 個人的には、政治はLLMの利用目的のごく一部だと思うな。

Me1000 2025/04/29 06:27:13

オープンウェイトモデル自体と、Deepseekのアプリには重要な違いがあるんだよ。ホストされてるモデルにはフィルターがあるけど、オープンウェイトにはないんだ。

ranyume 2025/04/29 01:08:11

>完全に無検閲<br>ごめん、違うよ。そうじゃないんだ。問題があることについては何も書けないよ。性的な話を書かせたり、マスタードガスの作り方を聞いてみて。標準APIのDeepseek R1だと、こういう質問は検閲されないんだ。PerplexityのバージョンはDeepseekより検閲されてると言っていいと思うよ。

neves 2025/04/29 00:14:46

どのモデルでもいいから、イスラエルとHamasについて聞いてみて。

maybeThrwaway 2025/04/29 08:28:49

エンジンによって違うね。Googleはナチスの画像に少数派を入れたり。Bingは昔、白人の子供だけのノルウェー誕生日画像作れたけど今はダメ。イギリスのグルーミングスキャンダルとか聞くのも良いかも。予想より酷くはないけど、話そうとしないことには戸惑うね。

yawnxyz 2025/04/29 00:02:18

PerplexityがポストトレーニングしたR1 1776についてのブログ記事だよ:https://www.perplexity.ai/hub/blog/open-sourcing-r1-1776

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。