Gemini 2.5 Proプレビュー公開プログラミング能力の進化が凄いと話題に

Gemini 2.5 Proプレビュー公開プログラミング能力の進化が凄いと話題に

引用元：https://news.ycombinator.com/item?id=43906018

segphault 2025/05/06 15:34:48

これまでプログラミングでこれらのモデル使うのにイライラしてたのは：存在しないAPIを幻覚（ハルシネーション）する傾向があったからなんだよね．でも，Gemini 2.5のproとflashは，試した他のモデルよりこの傾向がずっと少ないみたい．まだ大きな限界はあるけど，どんなにプロンプト頑張っても，今のモデルじゃ人間みたいに抽象化とかアーキテクチャ考えたりは無理．でも，日々のプログラミングで検索とかstackoverflowの代わりとして，やっとこれらのGeminiモデル使えるようになってきたな．

jstummbillig 2025/05/06 19:23:17

＞どんなにプロンプトしても今のモデルじゃ人間みたいに抽象化とかアーキテクチャ考えたりは無理
って意見，ますます心配になるな．数年のうちに（1年か5年かなんてどうでもいいけど）人間はみんなコード設計で負けるのは明らかだよ．みんな無駄なことにしがみつくのをやめて，新しい世界で何ができるかをもっと考え，話せばいいのにって思う．良いアイデアが必要だし，ここはそれを進める場になれるんじゃないかな．

ssalazar 2025/05/06 23:55:42

毎日LLM使ってコード書いてるけど，コード設計ではまだまだだよ．既存モデルは基本的な間違い”たくさん”するし，単純なタスクでも監視必要．ClaudeとかChatGPTに設計の欠陥直せって”頻繁に”言ってる．監視なしは無理．人間がLLMに負ける証拠あるの？

ArthurStacks 2025/05/07 05:21:50

複数の国に何十人もスタッフがいるソフト開発会社を経営してるんだ．Geminiのおかげで，特定の職種ではもう採用をやめられるレベルになったし，スタッフにはこれらのツールを使わないと必要なくなるって伝えてあるんだよね．今の改善ペースだと，2年後にはもっと少ないスタッフで回せるようになると思うよ．

DanHulton 2025/05/06 20:14:54

＞数年のうちに人間はみんなコード設計で負けるのは明らか
根拠を示せ．というか，これ完全に「異常な主張には異常な証拠が必要」ってやつじゃん．

mattlondon 2025/05/06 15:46:39

初期の頃から比べたらかなり改善されてるけど．でも，いつになったら満足するのかな？同僚とか友達とか家族に，100%いつも超正確であることなんて期待しないよね？おそらくそうじゃないと思うんだ．だったら，人工知能にもそれを期待すべきなのかな？

kweingar 2025/05/06 15:53:27

俺は電卓には100%いつも正確であってほしいんだ．他のソフトにはちょっとだけ欠陥を許容するけど，それも大してないかな．

ArthurStacks 2025/05/07 06:22:26

俺たちは金儲けのビジネスやってるんだ．ソフト開発者の社交クラブじゃないんだよ．

xyzzy123 2025/05/07 03:10:09

証拠はないんだけど、AIのプログラミング能力が進化すると思う理由を説明するね。フィードバック早いし、コード動かして確認しやすいし、自己対戦とか強化学習もできそう。経済的価値もデカいし、化学とかよりずっと早くプログラミングは解決されそうだよ。

redox99 2025/05/06 16:02:43

LLMに自分が何を知らないかを認識させるのは難しい問題なんだ。知らないことに答えないようにしようとすると、知ってることまで答えなくなっちゃったりね。

sirstoke 2025/05/06 23:00:14

LLM時代のSWEの雇用についてずっと考えてるんだ。生計かかってるからバイアスはあるけど、ちゃんと議論したい。ソフトウェアエンジニアの仕事ってコード書くだけじゃないよね？プロダクト計画、トレードオフの判断、チーム間の連携、タスク優先順位付けとか、コーディング以外の部分がめちゃくちゃ多いじゃん。
LLMがこれら全部できるようになるとは言わないけど、もしそうなってもSWEだけが影響受けるわけじゃないでしょ？どこか間違ってるかな？

Volundr 2025/05/06 16:59:08

「知ってることまで答えなくなった」って話だけど、それって彼らが本当に知ってるんじゃなくて、一貫して正しく推測できるってだけじゃないの？ LLMにとって「知ってる」ってことの明確な定義すら難しいと思うんだけどな。

sweezyjeezy 2025/05/06 22:24:32

今のLLMができることって既にかなりすごくて、それがもう十分な証拠じゃない？むしろ逆に聞きたいんだけど、最近のLLMの驚異的な成功を踏まえて、これらのモデルがあなたの能力に追いつく前に plateau に達するというどんな証拠があるの？

yousif_123123 2025/05/06 18:48:23

逆の問題もあるよ。新しいOpenAI画像APIを呼ぶコードを編集させてたんだけど、DALL-E APIと少し違うのに、私が明確に違うAPIだって説明しても、GeminiはOpenAIの呼び出しを常に”修正”しようとするんだ。Claudeはそんな問題なかった。
モデルはすごいんだけど、こういう問題見ると、彼らは完全には推論できてなくて、パターンマッチング傾向が強いのかなって思うんだよね。

ArthurStacks 2025/05/07 05:25:33

人間に勝つことじゃなくて、開発者が一人じゃ設計できないものをできるようにするのが重要だと思うんだ。
先月、うちのスタッフがAIの助けなしじゃ無理だったような分散システムを設計・構築できたよ。経営者としては、これでシニア開発者への依存度や影響力を減らせるから助かるね。

nnnnnande 2025/05/07 07:31:35

へえ、他のビジネスと一緒だね！それは戦略的に差別化できるね。インプットじゃなくて成果に集中しないやり方でうまくいくと良いね。頑張って！

MR4D 2025/05/06 23:24:00

木工職人のアナロジーが分かりやすいと思うんだ。自動化のおかげで、彼らはより多くのことを短時間でできるようになった。
電動ノコギリは時間を大幅に短縮したし、旋盤はもっとだよ。電動ドリルも穴あけを大きく変えたし、釘打ち銃だって屋根工事で使われるのは手動だと遅すぎるからだ。
仕事自体はまだあるけど、ツールがはるかに高性能になったんだね。

energy123 2025/05/07 05:43:37

これが僕の見方だよ。自動で検証できる問題（コードとか、チェス、DoTAとか）では、こういうのを前に見たことがあるんだ。問題の性質が以前解決された問題と似てるんだよね。
LLM懐疑的な人たちは、コードがチェスやDoTAとRLの観点から何が違うか指摘する必要がある。それができない限り、僕はLLMが近いうちにどんな人間よりも優れたコードを書くようになるって思うよ。

ajross 2025/05/06 17:42:36

LLMはデータベースじゃなくて、確率的推論エンジンで、やってることは全部推測なんだよね。どうやってこの推測が”真実”に基づいて自己チェックできるかって話。それが難しいのは、チェックが必要だってこと自体を知ってる必要があるからだよ。

abletonlive 2025/05/06 19:51:20

LLMの評価が割れてるね。上手くいかない人は環境とかモデル、やってることを具体的に教えてよ。
俺はPythonでデータパイプラインとかウェブアプリ開発してるけど、LLMでめっちゃ効率上がってる。FAANG関連でテックリードやってて、会社のシステムは年間5億ドル規模だけど、ミスしてないし、周りもLLMで成果出してる。最新のopenAIモデル使ってるよ。AIの出すコードは平均的には結構良いと思う。

namesbc 2025/05/07 08:28:05

もしスタッフにひどいツールを使わせたり、さもなくばクビだって言うなら、離職率高いし、会社ダメになるだろうね。

DonHopkins 2025/05/07 08:38:43

高い給料もらってるダメな経営陣や役員をソフト開発者じゃなくてLLMに置き換えた方が、もっと良い成果出て、利益も増えて、人間関係もマシになって、カリスマ性あって信頼できるリーダーシップが生まれるんじゃない？

doug_durham 2025/05/06 17:02:40

LLMが抽象化やアーキテクチャが得意にならなくても、それでもとてつもない価値を提供してくれるよ。俺は嫌いな仕事を彼ら（LLM）にやらせてる。俺は抽象化とかアーキテクチャをやるのが好きなんだ。

ArthurStacks 2025/05/07 08:39:28

うちは30年続いてて、6カ国に開発者がいる成功してる会社だよ。ここでは仕事をするって分かってる開発者だけ雇ってて、「うちらのやり方か、さもなきゃ終わり」ってスタンス。嫌ならいなくていい。そうすることで、競合がスタッフの都合に合わせてるせいで失敗してるようなスタンダードを維持できてるんだ。

ArthurStacks 2025/05/07 06:06:35

なんで？設計も、彼（たぶんAIを指す）が作ったものも全部ちゃんとチェックしたし、セキュリティも安定性も何週間もかけてテストしたよ。
ネットで読んで、AIはこういうことできないって parroting （オウム返し）するのやめなよ。そんなこと言うのは無知なやつか、対応できない開発者だよ。AIはできるし、毎月どんどん良くなってる。

sigmaisaletter 2025/05/06 22:27:43

やつらがやってることはマジですごいよ。単なる主張じゃなくて、実際にやってるんだからそれが証拠。
でも、ここでは誰かさんがLLMが超人になるなんて証拠もなく”完全に明らかだ”って主張してるだけ。
https://en.wikipedia.org/wiki/Extraordinary_claims_require_e…

paulirish 2025/05/06 17:54:23

＞ Gemini 2.5 ProがWebDev Arenaリーダーボードで1位
そりゃWebDev ArenaじゃなくてReact/Tailwind Arenaに改名すべきっしょ。
あの評価、システムプロンプトが[1]これらの技術を要求してて、Vanilla JSとか他のフレームワーク頼むと全部壊れるんだって。
LLMがこの狭いWeb開発の定義で競うことの二次的な影響はかなりヤバいと思うよ。

aero142 2025/05/06 20:16:35

もしLLMが、もっと宣言的で局所的なプログラミングとかTailwindで、より良いコードを書けるようになるなら、LLMの成功を最大限にする新しいプログラミング言語が生まれる未来って想像できるかもね。

epolanski 2025/05/06 21:02:40

これマジそれな。
優秀な言語設計者とMLの専門家たちがなんで集まってこれやんないのか超不思議なんだけど。
LLM用のメタ言語って絶対必要だと思うんだよね。
バイトコードとかバイナリ、JSなんかにコンパイルできて、コードみたいにテキストじゃなくて、ASTみたいなLLMが簡単にいじれる形式のやつ。

senbrow 2025/05/06 22:01:25

それなら、最初からLLMにバイトコード一発で作らせちゃえば良くない？
訓練データは山ほどあると思うけど。

もっとコメントを表示（1）

dyauspitr 2025/05/07 05:31:31

そのコード、レビューできなくなっちゃうじゃん。

TeMPOraL 2025/05/07 11:03:46

LLMにとっても扱いづらくなるよ。
人間と一緒で、モデルがコードを理解したり作ったりする能力は、一般的なNLP能力とマジで深く繋がってて切り離せないんだよ。

senbrow 2025/05/07 18:39:17

なんでLLMでプロンプトからソースコード作って、それをコンパイルして、同じプロンプトに対してそのコンパイル結果で新しいLLMを訓練できないの？
画像とか音声生成と種類は変わらないと思うんだけど。

dyauspitr 2025/05/07 18:43:15

だから、LLMがまだ何でもできるわけじゃない今の過渡期には、めっちゃ重要なんだよね。

seb1204 2025/05/06 22:46:29

ドキュメントとかAPI，例とか充実させたらLLMの学習にもっと役立つかなあ？それが知識として蓄積されるわけでしょ．

LZ_Khan 2025/05/06 21:44:47

可読性が問題になりそうかもね．

nicce 2025/05/06 22:59:32

＞LLMが成功するために新しいプログラミング言語作るとかどうよ？って話あるけど，学習データって誰が作るの？LLMなしでさ．なんか新しいものがどんどん減ってる気がするんだよね．変化も小さいし，ちょっとずつしか変わらない．

shortcord 2025/05/06 20:07:28

新しいコード生成する時に，shadcn と Tailwind が主流なのはちょっと嫌だなあ．

BoorishBears 2025/05/06 21:54:58

shadcn/ui はフロントエンドにマジ最悪で，AIでさらに悪化するかもね．コピペして自分のものだって言うけど，結局古かったり寄せ集めだったりするし，デザインセンスない人が使ってもダメ．Radixから始める方がマシだよ．”レジストリ”とかいうのも結局アドホックなシステムの宣伝文句なんだよね．

nicce 2025/05/06 22:55:42

＞WebDev Arena を React/Tailwind Arenaに改名しろって感じだよね．面白かったのが，こういうモデルの学習って，Tailwind の v3/v4 リリースの途中くらいで止まってるみたいで，Gemini がいつも俺のミス（…use v3 instead of v4）を直そうとしてくるんだよね．

baq 2025/05/07 09:30:46

React の Material UI とかも同じだよ．関連するドキュメントをそのままコンテキストに貼り付ければ簡単に直せるんだけど，それをするのがそもそも面倒なんだよね．

postalrat 2025/05/06 20:06:59

バニラの html と css は結構上手だったよ．

codebolt 2025/05/07 08:18:41

このモデル（Gemini 2.5 Pro）は Angular もそこそこいけるみたい．ChatGPT 使ってたときは，ほとんどがバージョン16より前の話で止まってて，signals とか苦労したんだけど，このモデルはデフォルトで最新機能を使うようにちゃんと提案してくれるっぽい．

byearthithatius 2025/05/06 20:36:55

残念だねぇ。Tailwindってマジで微妙だと思うわ。たった5個のCSSクラスを書かなくて済むためだけに、何MBもインポートするなんてさ。ていうか、コードをコピペすればいいだけじゃん。それに、ほとんどのタグが20個もクラス持っててHTMLがどんだけ汚くなるか、考えたくもないね。たった2個で済むはずなのに。

johnfn 2025/05/06 21:01:13

普通の規模のウェブサイトなら、他のCSSの書き方と比べてTailwindの方がバンドルサイズが小さくなるはずだよ。どっちがコード少ない？「margin-left: 8px」を100回書くのと、「ml-2」を100回（そして「ml-2」の定義を1回）書くの？Tailwindは使ってないルールを全部消してくれるからね。普通の開発環境だとTailwindは10KBくらいしかないんだよ[1]。
[1]: https://v3.tailwindcss.com/docs/optimizing-for-production

andybak 2025/05/07 03:00:57

えぇっと。人間コンパイラから、人間圧縮エンコーダーに進化したってこと？

martinsnow 2025/05/07 05:07:05

それ間違ってるよ。Tailwindはいくらでもカスタマイズできるし、コンパイルしたら数KBになるだけだよ。まあ、ツールを理解してないから文句言うのは仕方ないか…。

ranyume 2025/05/06 15:30:36

私が何か間違ってるのか分からないんだけど、Gemini 2.5にコードをお願いすると、マジでコメントが多すぎるんだよね。異常なくらいの量。セクションコメント、ステップコメント、ブロックコメント、インラインコメント、全部てんこ盛り。

Benjammer 2025/05/06 15:38:07

コメントが多いコードの方が、後でLLMが読み返すのに都合が良いことに気づいたんだ。コードを読むのと同時に説明コメントもコンテキストに取り込むから、@docsを取り込むのと似てるね。だから、もしかしたらわざとそうしてるのかも？

koakuma-chan 2025/05/06 15:50:14

いや、それ単にひどいだけだよ。Gemini 2.5 Pro PreviewでPythonコードを書いてるんだけど、コメントが異常に多かったり、「念のため」とか言ってコメントアウトされたコードをいつも追加してくるんだよね。最悪だよ。Claude Codeに戻ったよ。

Maxatar 2025/05/06 15:42:10

じゃあコメントをそんなにたくさん書かないように指示すればいいじゃん。コーディングスタイルを細かく指定できる柔軟性があるんだし、システムプロンプトに含めたり、コーディングスタイルのドキュメントをアップロードしてGeminiに使わせたりもできるよ。

puika 2025/05/06 15:51:07

私も同じ問題抱えてるよ。それに加えて、余計なリファクタリング（機能壊すやつ）もするんだよね。チャットやプロンプトで、私のすごく具体的なリクエストを満たすのに必要なこと以外は何も変更してほしくないって長々と説明しても無駄なんだ。勝手に暴走してファイル全体をめちゃくちゃにしちゃうんだよ。

Trasmatta 2025/05/06 15:49:30

LLMにコメントを書かないでって頼んでも、相変わらずコメントをいっぱい書き込むんだよね。Geminiはそこらへんマシなの？

sitkack 2025/05/06 16:00:33

LLMsはネガティブな指示聞くのめちゃ苦手だよ、何しちゃダメかじゃなくて何するべきか教えてあげなよ。

mgw 2025/05/06 15:55:01

これGemini 2.5 Proで一番困ってることなんだよね。一発でデカい新機能作るのには最高だけど、ちょっとずつ変えたい時でも毎回大規模なリファクタリングしちゃう。プロンプト変えてもこの癖直せないんだ。Claude 3.7 Sonnetの方がずっと控えめで小さい変更だけしてくれるよ。

diggan 2025/05/06 16:23:58

なるほどね、”機能Xを実装して”って言うとコメントめっちゃ出てくるんだ。それなら、出力にコメント含めないようにするには、”コメント書かないで”って言わずにどう指示すればいいの？実質的な言い換えとして”ソースコードだけ書いて、行頭に特殊文字がある平文は無しで”とかってこと？

NeutralForest 2025/05/06 16:29:15

いつもPythonで盲目的な例外処理をさせようとしてるの見るよ。同僚のコードでもしょっちゅう見て、マジでイライラする。

GaggiX 2025/05/06 15:31:52

コメント使わないでとか、少なくしてって指示できるよ。システムプロンプトに入れるのもアリ。

Scene_Cast2 2025/05/06 15:36:38

あと、やたら防御的なコーディングするよね。悪いことじゃないけど、俺はプロトタイプのコード書くことが多いからさ。

ChadMoran 2025/05/06 15:37:55

これ、結構強めに試したけど、俺の場合はやっぱりそうなるんだ。諦めた。

もっとコメントを表示（2）

prpl 2025/05/06 15:48:57

プロダクション品質のコードは防御的だよ。多分Googleのコードでたくさん学習してるんだろうね。

brandall10 2025/05/06 15:54:29

確かにうざいけど、追記で”余計なコメント消してくれない？特に、コードの理解に何も貢献しないコメントはいらないよ”って言ってみる価値はあるかもね。

cryptoz 2025/05/06 16:07:24

この問題をASTをいじるツールで直したい。コード直接じゃなくてね。今はpython/flask限定。興味あったらサインアップして！https://codeplusequalsai.com
フィードバック求む！
ブログも見てね: https://codeplusequalsai.com/static/blog/prompting_llms_to_m…

jerkstate 2025/05/06 16:45:00

LLMのコーディングってたまにバカみたいだけど、もっと意識すればすぐ良くなると思うよ。ライブラリのdocsとかコード全部コンテキストに入れれば、どんな例外出るかもわかるようになるかもね！

taf2 2025/05/06 15:43:22

Gemini 2.5 Pro、最初出た時マジ良かったんだよー。コードフォルダアップロード機能とか最高だった（でも無くなった泣）。イライラするのは、コードのフォーマットがマジでダメなとこ。フォーマッター使えばいいのは分かってるけど、Grokの方が全然使いやすいし結果も良いんだよね。

maccard 2025/05/06 17:12:56

Copilotとかもう4年も経つし、ずっとこういう話は聞いてるよ。俺はLLMアシスタントには期待してるけど（感覚だけのコーディングじゃなくてね）、こういう進化、マジで早く見てみたいわ。

montebicyclelo 2025/05/06 16:19:11

Geminiが生成するコードってさ、デカいtry-exceptブロックで”Exception”をとりあえずキャッチしまくる感じなの？（Pythonだと汎用的なException捕まえるのって良くないプラクティスだって思ってたんだけど）

ziml77 2025/05/06 15:47:38

俺も試してみたよ。CursorでGemini 2.5使ってるんだけど、コメント制限する設定入れても、結局コメント多くなりすぎちゃうんだよね。

throwup238 2025/05/06 18:29:36

＞ Gemini 2.5 pro model when it was first released - the upload code folder was very nice (but they removed it).
どこから無くなったって？Geminiのウェブアプリで毎日コードフォルダのアタッチ機能使ってるけど（ローカルのリポジトリをクローンして.gitとかgitignoreに合うファイル消すスクリプト使ってる）。

staticman2 2025/05/06 16:55:07

これってLLM特有のテクニックかも。あるタスクで、コメントって単語を敢えて含めるけど、プロンプトの最初と最後に指示を出す、みたいなね。モデルによって全然違うけど。
例：これをリファクタリングして。コメントは書かないで。
＜コード＞
念のため、あなたのタスクは上のコードをリファクタリングすること、で、コメントは書かないことだよ。

sroussey 2025/05/06 16:33:35

「コメントはファイルの最初にまとめて、単一のブロックにしてね。短く簡潔に。」とか、否定形を使わない指示とかね。

blensor 2025/05/06 15:47:44

コメント多すぎるってのは、誰かが結果をそのままコピペしたのか、ちゃんと確認したのかをチェックするのに良い目安になるかもね。俺は出力にコメントたくさんあっても別に困らないや、読みながら消せばいいだけだし。

HenriNext 2025/05/06 17:32:51

面白いアイデアだね。でもさ、LLMってマジで大量の「コードをただのテキストとして」学習してるけど、「コードをASTとして」ってほんのちょっとなんでしょ？それって生成されるコードの品質にめちゃくちゃ影響しないかな？

breppp 2025/05/06 17:38:19

こういうコメントって、LLMがちゃんと指示を理解して、いいコード作るためのもんだと思ってたんだよね。過去のデータ見てオートコンプリートがうまくいきやすいから、みたいな。あと、ChatGPTがいっつも最初に質問繰り返すのも、同じ理由だと思ってたわー。

chr15m 2025/05/07 00:06:29

なんかさー、AIが生成するコメントが、コードの説明じゃなく変更点について書いてるのが嫌なんだよね。Gitのコミットに書くべき内容だし、すぐ古くなる。自己説明的なコードが好きだからイライラするし、プロンプトでも直せないみたい。

hnuser123456 2025/05/06 16:59:21

例外をざっくりキャッチするのって、全くキャッチしない（クラッシュする）のと、全部の例外をいちいち捕まえてどう処理するか決めるのとで、ちょうどいい中間地点だよね。コードがどれくらいちゃんと動く必要があるかで変わるけどさ。

laborcontract 2025/05/06 15:57:33

Gemini 2.5はdiffベースのコード編集の精度が課題だったみたいで、今回の更新でそこが改善されたんじゃないかと期待してる。古いバージョンはaiderの計測で92%の精度だった。Googleの人に聞きたいんだけど、無料のgemini-2.5-pro-expも更新されたの？記事だと以前のバージョン名でも最新が使えるらしいけど、exp版も同じ？

laborcontract 2025/05/06 18:22:36

新しいGemini 2.5 Proをaiderとclineで使ったら、diffエラーが全く出なくて感動。難しい修正もOK。コード生成の精度がすごく上がったのを感じる。以前はツールのミスで修正大変だったから、これが100%に近くなれば生産性50-75%アップしそう。他のコメントがモデルの話してないのに驚き。使った人の感想聞きたい。

esperent 2025/05/07 00:09:35

ClineでGemini 2.5 proの”Experimental”とか”3-25”モデル使ってた？俺ここ数週間両方使ってたけど、diffエラー結構あったんだよね、10回直したら1回くらいかな。92%っていうのは俺の体感とも近いわ。
この2.5 proの”Preview”は、もし前の使ってたなら、改善されてるって感じる？

laborcontract 2025/05/07 08:56:07

うん、clineで古いモデルも新しいモデルも使ってるよ。diffの改善以外は違いわかんないけど、俺にはそれだけで十分だわ。

vessenes 2025/05/07 15:17:34

質問なんだけどさ、「aider -model gemini」みたいに呼び出してるの？もしそうなら、05-04って表示される？それとも古い方のモデル？

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。