Gemma 3n ついに登場!何が変わった?
引用元:https://news.ycombinator.com/item?id=44389202
このモデル、Gemma 3で前にやったこと全部と完全に互換性あるみたいだよ。VLMのファインチューニングスクリプトにかけてみたら、全然問題なく動き出したんだ(hf transformerのコードね)。Lora使ってGPU1枚でE4Bモデルをバッチサイズ1で動かしたら、VRAMが18GBで済んだよ。前のgemma-4Bは21GBだったから、これはすごい!
DeepMindさん、ナイス!Gemma 3ファミリーはオープンウェイトのVLLMでトップクラスだね。
訂正!E4BじゃなくてE2Bだったよ。
OllamaのGemma 3n 7.5GBとmlx-vlmの15GBで、「自転車に乗るペリカンのSVGを生成して」ってプロンプト試してみたんだ。
そしたら、量子化サイズが違うだけで結果が全然違って面白かったよ!
詳しくはここ見てね: https://simonwillison.net/2025/Jun/26/gemma-3n/
これ面白いねぇ!結局、生成された画像(SVG)のことは正確に説明できてるんだ。SVGってやっぱり難しいんだな。
これを読んで思ったのは、求めてる表現に近づくまでフィードバックループを入れてみたらどうかなってこと。
あの原始的な画像を見る限り、このサイズのモデルで画像モデルにする意味ってあるの?
これは画像モデルじゃないよ。テキストモデルだけど、テキストモデルでもSVGは出力できるから、難しい画像を生成するように挑戦させて、どれだけ上手くできるか見てるんだ。
>Multimodal by design: Gemma 3n natively supports image, audio, video, and text inputs and text outputs.
って書いてあるけど、君が言いたいことはわかったよ。Simonはラスター画像じゃなくてSVG(テキスト)で出力するように頼んだから、それが難しかったってことだね。
そうだね、君の言う通りだよ。画像や音声の入力は扱えるけど、出力はできないんだ。完全にテキスト出力だけのモデルだよ。
うん、君の言う通り!
あと、君ってSimonだね!:)
あれって実際に役に立つベンチマークなの?それとも単なるウケ狙い?
いまいち分からなくて。
ジョークのつもりだったんだけど、なんかモデルの性能と、このくだらないジョークベンチマークの出来に相関があるみたいなんだ。このトークをまとめるまで、こんなに強い相関があるとは気付かなかったよ。
https://simonwillison.net/2025/Jun/6/six-months-in-llms/
この例、いつも面白いと思ってるんだ。ASCIIアートとSVGってどう思う?
幾何学的な形状の形式的なエンコーディングじゃないから、根本的に違うんだろうけど、SVGのタスクと似た課題もあるよね?画像生成を使わずに、フレーズ/概念をエンコードされた視覚表現と関連付けるっていうさ。
“画像エンコーディング”はあまり役に立たないと思う?
俺も色んなモデルで試すのが好きでさ。イラストっぽいコンテンツの話で、テキストベースのASCIIアートや、それをラスタライズに悪用するって意味じゃないんだけど。
結果は面白かったけど、SVGより予測できないかなって感じだね。
今のところASCIIアートはイマイチな結果なんだ。SVGですごく良いなと思うのは、ほとんどのモデルがコメントを入れてくれること。何をしようとしてたのか分かるからね。
そうそう、コメントの部分は納得だね。トークでも触れてたし(文字起こし読んだけど、コメントで言うの忘れてた、ごめんね:))。
他のコードみたいに、説明と個々の形状/パスとかの関連付けを加えてくれるから、理にかなってるよね。
まさか〜wink、うちのDevRelが、LLM関係者が読むトップの独立系ブログでポジティブに取り上げられるために、このテストケースで良い結果が出るようにプッシュするなんてこと、ないよね!
https://simonwillison.net/2025/May/20/google-io-pelican/
俺にとっては、LLMが学習データから一般化できてるかどうかの指標なんだ。LLMはプロンプトの全単語を理解してる。人間よりSVGの仕様をよく理解してる。鳥も知ってるし、自転車も知ってる。描き方を知ってる(そしてコンピュータ使えるなら、このテストは楽勝だろう)。計画して実行もできる。
ここにある全てはLLMにとって取るに足らないことのはずだけど、かなり苦手なんだ。だって学習データに「複雑な形状をSVGで描く方法」みたいなコンテンツがほとんどないから。
でも役立ってるのは確かだね。著者が有名だから、新しいLLMがこのベンチマークに「もっと意識的」になるのは時間の問題だと思うけど。
5年後には超リアルなペリカンが出てきて、このベンチマークがすごく面白くなるかもね。
そしたら著者は「ペリカンがカピバラをそのまま丸呑みしようとする」とか試して、また崩壊するんでしょ。
そうそう、まさに「どうやって崩壊するか」が面白いんだよね:D
SVGだから他の画像生成とは違って便利だよね
ペリカンより記事の内容目当てで来た気がするな。まあペリカンも記事の一部だけど。
LLMやAIの情報を追いかける時間があって、しかも面白く書くのうまい人がいるの嬉しいよ
ペリカンより記事の内容目当てって?それがペリカンの罠だよ。
GemmaとGeminiのオンデバイス版の違いがよく分かんないんだよね。両方ネットワークいらないわけじゃん。
https://developer.android.com/ai/gemini-nano に’Gemini Nanoはネットワーク接続やクラウドへのデータ送信なしで、リッチな生成AI体験を提供できる’って書いてあるけど、これをGemmaに置き換えても同じこと言えるよね。
ライセンスが違うよ。Gemini Nanoのウェイトは直接使えないんだ(特に商用)。Android MLKitとかGoogle承認のランタイム経由じゃないとダメ。
Gemmaは商用でも、使えるランタイムやフレームワークなら何でもOK。
言語モデルのウェイトにそもそもライセンスってかけられるのかどうか、はっきりしないよね。
弁護士じゃないけど、読んだ分析だと、学習プロセスには人間の創造性がなくて完全に自動だから、著作権はつかないって強い主張があったよ。自分でコンパイルしたからってソフトウェアにライセンスつけられないのと同じで、元になるソースコードに著作権がないとダメってことみたい。
GemmaはオープンソースでApache 2.0ライセンスだけど、自分でパッケージしないといけないよ。Gemini NanoはAndroidのAPIで、全く制御できないんだ。
それは訓練プロセスが著作権保護されないってだけじゃない?でも重みって訓練だけじゃなくてソースデータも含んでるし。もし訓練データに独自性があれば、それって著作権保護されるんじゃない?なんで重みもダメなの?
俺も弁護士じゃないけど、答えはたぶん管轄によるね。アメリカの著作権基準は人間の創造性が必要で、モデルの重みにはたぶんその種の創造性がない。著作権局の公式見解だよ。裁判例はまだないけどね。
逆に、イギリスの基準はもっとゆるいから、重みも著作権ありそう。GoogleとかMetaが著作権を主張するのは理にかなってる。アメリカでは無効でもイギリスでは有効だろうし、他の多くの国でもそうだから。
最後に、アメリカ議会が重みを著作権保護したり、それに近い新しい法を作る可能性もあるよ。ロビイストは“アメリカのAI産業がヨーロッパに遅れる”って言うだろうね。俺はそう思わないけど、そう信じ込ませるのに真実である必要はないからな。
>GemmaはオープンソースでApache 2.0ライセンス
ソースコードはクローズドだけど、重みがオープンなんだよ。大手企業の都合で言葉の定義を壊すのはやめようぜ。
もっとコメントを表示(1)
君の返信、俺は余計混乱したよ。推論コードとモデルアーキテクチャはオープンソースだし、他にも高品質なオープンソース実装はたくさんあるよ(Googleのエンジニアが貢献してる場合も多い)。君が言うように、学習データは公開されてないからゼロから再構築はできない、それはその通りだね。
[0] https://github.com/google-deepmind/gemma
[1] https://github.com/vllm-project/vllm/pull/2964
重みって数学的な事実だからね。生の数字としては著作権は無いよ。
それが、彼らがGemini Nanoを「Gemini Nano Program Additional Terms of Service」で制限してる理由の一つだよ。たとえ重みに著作権がないか、あるいは公正利用だとしても、契約違反で訴えることができるからね。
問題は、契約って後続の受け手に効かないことだね。GoogleがXに渡して、XがYに渡して、YがZに渡した場合。XはGoogleと契約してるから、契約違反で訴えられる。でもYやZもそういう契約をしてるかな?たぶんしてないよね。もちろん、Googleは契約でYやZも拘束しようとするだろうけど、それが法的に有効かは微妙。多くの場合、Xを通してYやZの行為でXを訴えることはできても、YやZを直接訴えるのは難しい。一方、著作権があれば、XもYもZも同じように直接責任を負うんだ。
>アメリカの著作権基準は人間の創造性が必要で、モデルの重みにはたぶんその種の創造性がない。著作権局の公式見解だよ。裁判例はまだないけどね。
アメリカ著作権局がモデルの重みについてそう言ったの?プロンプトからAIが完全に生成した画像についてそう言ったってのは聞いたことあるけど。
en_windows_xp_professional_with_service_pack_3_x86_cd_vl_x14-73974.iso
もただの生の数字だけど、Windows XPには著作権があったと思うよ。
Perplexity.aiってGemini 2.5より分かりやすかったらしいよ。Gemini nanoはAndroidだけだけど、Gemmaは他のプラットフォームでも使えるしサイズも色々選べるんだって。Gemini nanoは生物の比喩に従うと、どこでも動くGemmaのスマホ特化版みたいな感じかもね。
> Gemmaはオープンソースでapache 2.0 licensed。
それホント?ちょっと見た感じだと独自のライセンスみたいだし、使い道に制限があるっぽいから、普通のオープンソースの定義(OSI, DFSG, FSF)には合わないんじゃない?
これで余計混乱しちゃわない?リンクされてるライブラリはファインチューニングの話で、Gemmaの作り方とは全然違うプロセスだよ。公開情報だけじゃ、データがあっても全く同じGemmaは作れないくらい不正確なんだって。
もし訓練データが手に入ったとして、全く同じ(たぶんハッシュ値まで?)モデルって作れるのかな?訓練システムとか、使ったハードウェアとか、他にも色々足りないものがあるように思えるけど。
ありがとう、それは考えるべき良い点だね。モデルの重みを使うことが、重みを作った人の利用規約に同意したと見なされるのかどうか、よく分からないな。
Googleか誰かがこの問題について明示的に言及してるのを読んだ気がするけど、今見つけられないんだ。でも、https://www.copyright.gov/comp3/chap300/ch300-copyrightable-… の22ページを読んでみて。アメリカの著作権局の見解だと、AI訓練みたいな機械的プロセスの出力は、人間の創造性がよっぽど関わってないと著作権保護されないらしい。ハイパーパラメータ選びのスキルとかは違うんだって。基盤モデルは多分著作権ないけど、RLHFで独特の「声」をつけた部分は著作権あるかもね。でもそれも簡単にとっぱらえちゃうみたいだよ。
さっきの話だと、国によって法律が違うのってそんなに関係あるのかな?特に、民法が中心の国で裁判所の判決があまり重要視されないこととか、単にベルヌ条約の執行だけを考えると。つまり、条約の署名国のどこか一つで著作権ありと見なされたら、他の国もそれを尊重しないといけないんじゃない?
なんで著作権ダメなの?コンピュータープログラムなんてただの0と1だよ。ハリーポッターの本だって、電子書籍ならただの文字とか数字の羅列じゃん。(その組み合わせが著作権保護できるんでしょ)。
なんでダメなの?訓練ってただデータ入れるだけじゃないよ。訓練プロセスは常に調整されてるし、その調整の多くは、出力しようとしてるモデルの種類に特化したものなんだよ。
問題はね、訓練済みモデルに「選択と配列」のオリジナリティが実際に残ってることを証明できるかどうかだよ。法的には疑わしい。確実な法的答えは誰も知らない、だって裁判所でまだ扱われてないから。でも専門家の意見では、アメリカの法律だとモデルの著作権保護は怪しいってコンセンサスなんだ。あなたの言うような主張ではそれを変えるには十分強くないよ。さっきも言ったけど、イギリスの法律では話が違う。そこではあなたの主張はあまり必要ない、だってモデルの重みはイギリスでは著作権保護されそうだから。
Googleが自社サービスの説明にHacker Newsとか競合他社の力が必要ってのは、Google自身が反省すべき点じゃない? って思うよ…
ベルヌ条約はそうじゃないんだよ。自国民の著作物と同じ条件で、他の加盟国の国民の著作物にも著作権保護を与える必要があるってこと。もし自国民の著作物で著作権が認められない種類のものは、外国人の著作物でも認めなくていいんだよ。たとえその国では認められててもね。例えばUKは電話帳に著作権認めるけどUSは認めない。USがUKの電話帳に著作権認めなくても、USは自国の電話帳にも認めないからベルヌ条約違反じゃないんだ。違反になるのは、UKのは認めないけどUSのは認める場合だよ。
すごく優秀な弁護士なら、学習データ作ったり評価したりRLHFしたりするのは、機械的な作業じゃなくて人間が創造的にやってることだって主張できるかもね。でも裁判官ってテクノロジーのことになると変な判断することあるから、どうなるかは分からないけど。
リンクされてるライブラリのREADMEに、モデルと会話する方法を示すコードスニペットがあるよ。あと、ファインチューニングのためだったとしても、モデルのフォワードパスを実装すればいいだけで、それが実行に必要な全部だから。
面白いね。僕の理解だと、著作権はオリジナルのソースコードとかGUI、バンドルされてるアイコン、サウンド、イメージファイルにしか適用されない。機能性とかは特許法になるんだ。だから例えば.ISOにあるコンパイル済みコードは、’ただの生データ’なだけじゃなくて、著作権がない生データってことになるね。
契約には合意(意思の合致)が必要なんだ… XがGoogleと契約しても、その契約によってYの合意なしにGoogleとYの間に契約は生まれない。もちろんGoogleの弁護士は契約を「推移的」に見せかけようと全力を尽くすけど、根本的に契約にはそういう推移性はないんだ。
さて、もしあなたが二者間の契約を知っていて、その一方と協力して積極的に、かつ意図的に違反した場合、正式な契約当事者じゃなくてもその契約違反について法的責任を問われることがあるかもしれない。でも限界はあるよ。もしあなたがNDAにサインしてるのを知っていて、あなたがNDA違反してその文書を送るのを個人的に勧めたら、僕もNDA違反で法的責任を負うことになるかもしれない。でも、もし僕たちが全くの他人で、あなたがNDAで保護された文書をファイル共有サイトにアップロードして、それを僕がたまたま見つけてダウンロードしただけなら、NDA違反の法的責任は全部あなたにあって、僕には全くない。情報の持ち主は著作権法に基づいてダウンロードした僕を訴えることはできるかもしれないけど、契約法(NDA)の下では僕に対して何の法的手段もないよ。だって僕は直接的にも間接的にも契約に関わってないから。
もしベンダーのウェブサイトからモデルをダウンロードした場合、彼らはダウンロードの条件としてあなたが契約に同意したと主張できるかもしれない。でも他の場所からダウンロードした場合、拘束力のある契約を作るのに必要な対価(彼らがあなたに提供するもの)は何? ダウンロードの内容が著作権で保護されてるなら、彼らは彼らの著作物の使用許可を与えることが対価だと主張できるけど、それがAIモデルでモデルが著作権で保護されてないなら、他の場所からダウンロードした時に彼らが提供するものは何もないから、契約関係を主張する根拠がないんだ。
彼らが時々やるのは、契約に「対象物を再配布する相手にもこの契約を課さなければならない」って文言を入れること。そしてその規約を完全に守って再配布すれば、受け取った人もあなたと同じように契約に拘束されることになるかもしれない。でも再配布する時にその契約を課すのを怠ったら、受け取った人は拘束されずに済んで、その不履行の法的責任は全部あなたにあって、受け取った人にはないんだ。
前からこれ気になってたんだ(HuggingFaceの一部のモデルみたいに、ダウンロードにクリックスルー式のライセンス契約が必要で、特定の方法でのモデル使用を禁止しようとしてるやつ)。匿名のだめな奴がモデルファイルを公開して別の場所で再ホストして、それをGoogleからじゃなくてその人からファイルを入手した場合、クリックスルーすら見てないからそのライセンスに拘束されないように思うんだ。(そして、著作権がないから、その人から入手してもIP盗難にならないとも。)このロジックには何か間違いがあるはずなんだけど、それが何なのかどうしても思いつかないんだ。
「言語モデルの重みをライセンスできるかどうかすら不明確」ってコメントに対してね。モデルの重みをライセンスする(人々に許可を与える)ことは明確にできるよ。ただ、それを保護する法律があってライセンスが必要なのかどうかは、それほど明確じゃない。でも不明確な状態だと常に訴訟とその後の損失のリスクがあるから、ライセンスは少なくともそのリスクを減らすのに役立つんだ。
これらの小さいモデルがどうやって誰かに役立つのか、心底知りたいんだ。僕はいろいろ実験したけど、27Bより小さいものは、おもちゃ以外 basically 使えないね。小さいモデルについて言えるのは、時々良い回答を出すことがあるってだけ。それはちょっといじる以外の何ものにも十分じゃないんだ。僕はgemma3:27b-it-qatでスパム問題を解決したんだけど、僕のベンチマークによると、これが現在のモデルが有用になり始めるサイズなんだよ。
アイデア出しのデバイスとしては、これらはうまく機能するだろうね。僕はこれを basic infra のように扱ってるよ。ほとんどのスマホに小さな LLM が組み込まれてるような未来は絶対に素晴らしいだろうな。kind of like a base layer of infra って感じだね。
小さいモデルはWiFiなしで使うのに超便利!飛行機でコード書く時、MacBook AirでQwenをGoogle代わりに使ってるんだ。syntaxとかdocumentationの基本的なこと聞くのにマジ使えるよ。
精度低くても使えることあるよ。iPhoneのキーボード予測とか、小さいモデルで大きいモデルを速くするSpeculative decodingとかね。賢い人たちはきっと他にも色々思いつくだろ〜。
Qwen2.5-VL 7Bは手書き数式をLatexに変換するのマジすごいんだ。VRAM少ないノートPCでも遅いけど動くし。Gemma3 4Bは全然ダメだったよ。
ChatGPTみたいに使おうとしてるんじゃない?それは使い方違うと思うな。
Gemma3 4B、WikipediaのZIM file使えば8割くらい質問に答えられるらしいよ。でもCPUだと20秒もかかるから、低電力AI acceleratorsが出ないと今のところあんま実用的じゃないかもね。
もっとコメントを表示(2)
gemma3:1b model (今日はgemma3n:e2b) をRSS readerの記事要約に使ってるんだ。シンプルだけど超うまくいくし、Hetzner serverのCPUで動くから家のGPU電気代かかんなくて済むよ。
4B以下の小さいモデルは、特定のタスクにfinetuningするのに良いよ。大手モデルより安くて性能出せるし、code autocompleteにもバッチリ。7B〜8Bは簡単なrefactoringとかに使えるcoding assistants。12BになるとMistral NemoやGemma 3 12bみたいにちゃんと文章書けるレベルだね。
OpenAIが業界標準にしたって言われる、この無秩序な命名規則マジ好きじゃないんだよな〜。
ランダムな文字とか付けずに、Geminiと紛らわしくない名前にしたかな。
Gemma 4とか?それが一番分かりやすいじゃん。普通にバージョン番号増やそうよ。Anthropicはまだ良いけど、v4で命名変えたんだよな。確かに改善かもだけど、v4以前と違うからちょっとイライラするんだよね。
Anthropicがモデルの順番変えたってどういう意味?Opus > Sonnet > Haikuで変わってなくない?Gemma 3nって名前も変じゃね?Gemma 4じゃなくて、Gemma 3より多分性能低いから「Gemma 3 Lite」みたいなんじゃないの?小さいモデルで速度と品質のバランスが良い感じかもね。
claude-3-7-sonnet-latest → claude-sonnet-4
あと、Gemma 3nよりGemma 3 Liteって名前、コメント1の人の方が絶対分かりやすい名前思いついたと思うわ。
Gemma 3nのGGUF作ったから、動かしたい人どうぞ!llama.cppでの実行コマンドはこれだよ。
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 –jinja –temp 0.0
./llama.cpp/llama-cli -hf unsloth/gemma-3n-E2B-it-GGUF:UD-Q4_K_XL -ngl 99 –jinja –temp 0.0
Colabでの推論・ファインチューニングデモも作業中!Gemma 3Nが音声、テキスト、画像全部いけるのマジすごいわ!詳細とデモはここ見てね。
https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-…
OllamaでE4Bモデル試したけど、画像解釈が完全にぶっ壊れてるわ。テキスト部分はテキスト入力だけで決まってて全部間違ってる。普通のGemma 3 4Bだと大丈夫だから、Ollamaのせいっぽい。追記:やっぱ今はテキストだけだってさ[1]、チケットの奥に埋もれてんの分かりにくいんだよ!自分でllama.cppコンパイルしたくないから、コメント3のGGUF試せるまで待つわ。
[1]:https://github.com/ollama/ollama/issues/10792#issuecomment-3…
あー、マルチモーダルはまだ動かないと思うよ。今はテキストオンリーだね!
マジで「Unsloth、君の出番だ!!」って打ち込んでたのに、もう先越されてるじゃん!コメント3の人マジすごいよ<3<3<3
ありがとう!
ありがとう!どんなスペックのPCが必要?
そんなにすごいのはいらないんじゃない?俺のRTX 2080で45 tok/s出てるよ。
この文脈でのjinjaって何?
Googleのオンデバイスモデルの性能表示、おかしくない?Pixel Foldで試したら広告の60fpsどころか0.16fpsしか出なかったよ。元Google社員だけど、この広告は嘘くさいね。公式デモも無いし、なんでこんなデタラメが通ってるのか不思議だよ。自分が何か見落としてるか、Googleが嘘ついてるかのどっちかだね。
あの60fpsって、Vision Encoder(MobileNet)の方の性能の話じゃないの?LLM全体じゃなくてね。3億パラメータくらいのモデルなら、60fpsでもいけるんじゃないかな。
Vision Encoder単体で60fpsって解釈は分かるけど、それって誤解を招く「シェルゲーム」みたいじゃない?だって、その出力使うシステムが結局遅かったら意味ないし、Vision Encoder単体で彼らが言う「リアルタイムの視聴覚体験」なんてできるの?
Vision Encoder単体でも分類や検索みたいなことはできるんじゃない?色々技術的に考えてみたけど、なんか計算が合わなくて、的外れなこと言ってるかもね。
君の技術考察は的外れだよ。現実として画像モデルの処理には6~7秒かかるんだ。Googleの広告は「今すぐ60fps」って言ってるのに、外部には証拠皆無。Google社員らしいコメントも「外部向けは優先してない」って言うし、この矛盾ひどすぎ。Googleの主張は「悪い」ね。
キミが載せたAPKはCPUで動いてるよ。Google Tensorじゃ動かないんだ。
なるほどね、APKはTensorで動かないんだ。じゃあ、Tensorで動くAPKはあるの?Google以外でもTensor使えるの?ダウンロードできるTensor版は?なんで?過去にも似たようなことあったし、もう信用できないね。
Tensorで動くサードパーティ向けAPKは無いよ。AiCoreサービスが内部で使ってるだけなんだ。サードパーティ対応は残念ながらまだ優先されてないんだよね。