AI「Codex」が開発を変える？研究プレビューでわかった驚きの実力！

AI「Codex」が開発を変える？研究プレビューでわかった驚きの実力！

引用元：https://news.ycombinator.com/item?id=44006345

johnjwang 2025/05/16 16:27:08

Assembledのチームのエンジニア何人かと俺もCodexのアルファテストに参加したんだけど、正直かなり感動したよ．CursorとかClaude Codeみたいなローカルエージェントは前から使ってたから、そこまで期待してなかったんだけどね．でもCodexはいくつかの分野ですごいんだ．並列タスク実行とかね．数十個の細かい編集（リファクタリングとかテストとかボイラープレートとか）をまとめて並行して実行できるんだ．文脈を切り替えなくていいから超便利（これはCursorとかClineとかだとすごく難しい）．
まるでステロイド打ったジュニアエンジニアって感じかな．ファイルとか関数を指定して、変更内容を伝えれば、PRの大部分を組み立ててくれるんだ．プロダクションレベルにするにはまだ結構手直しが必要だけど、まるで無限にジュニアエンジニアがいて、それぞれ別の作業をこなしてるような感じだね．
モデル品質は良いけど、他のモデルより劇的に良いかって言うと微妙かな．Cursor + Gemini 2．5-proと並べてテストした感じでは、命名とかスタイルとかロジックはほとんど区別つかなかったよ．だから品質は俺たちの基準を満たしてるけど、まだ超えてはないね．

criddell 2025/05/16 17:22:35

もしこういうことをジュニアエンジニアに任せないなら、将来必要なシニアエンジニアはどこから来ると思う？
最近うちの子がすごく良い学校をコンピューターサイエンスで卒業したんだけど、就職市場について聞く話が怖いくらいなんだ．相対的に見て、シニアエンジニアの募集は多いけど、新卒向けの募集はほとんどないみたいで．
うちの会社も最近採用したんだけど、比較的低いレベルのポジション募集なのに履歴書が大量に来てやばかった．各候補者にフェアな機会を与えるのは無理だったし、それは本当に残念だよね．
うちの子のクラスメートで仕事を見つけられたのは、ほとんど個人的なコネを通じてだったよ．

hintymad 2025/05/16 19:38:29

なんか面白いサイクルに入ってるみたいだね．何百万ものエンジニアがgithubでオープンソースに貢献してる．そして、我々の最高の頭脳はそのコードを使って、まさにこれらのエンジニアを置き換える強力なモデルを開発してるんだ．実際、あるグループがgithubに貢献するコードが多いほど、企業がそのグループを置き換えるのは簡単になるんだよね．分かりやすい例が、今のところフロントエンドエンジニアが一番影響を受けてる．
これって、時間が経つにつれてオープンソースへの貢献意欲が薄れるってことなのかな？
P．S．：今のトレンドはソフトウェアエンジニアにとっての警鐘だと思うよ．俺たちはすごくクリエイティブな仕事をしてると思ってたけど、実際には知識労働者の基本的な仕事に多くの時間を費やしてるんだ．つまり、知識を検索して、基本的で予測可能なバリエーションを少しだけ補完するような作業だね．残念ながら、今のAIはこういう作業を置き換えるのが得意なんだ．
楽観的に見れば、長期的にはもっと面白い仕事を発明するか、そっちに拡大していくと思うんだけど、それがいつになるかは分からないな．今の世代のソフトウェアエンジニアは、今後何年も仕事の供給過多だけど需要不足に苦しむかもしれないね．

_bin_ 2025/05/16 18:39:01

これはちょっとゲーム理論の問題でもあるね．「シニアエンジニアを育成する」っていうのは、費用がかかる上に報われないタスクなんだ．基本的にコストは全部自分が負担して、メリットのほとんどは外部性として他人に帰属するからね．企業にこのポジティブな外部性を提供するように文句を言うのは、正直建設的な解決策じゃないな．
AIはジュニア開発者を2〜5年で、シニアを10〜20年で置き換えるって予測に賭けてる人もいるみたいだけど、それはほとんどの企業の意思決定とはちょっと論点が違うんだよね．古いエンジニアがいなくなった頃にシニアもAIに置き換わるって話は、今の採用の話とは別ってこと．

sam0x17 2025/05/16 19:14:04

ジュニアの採用は最近マジで死んでて、これって10年くらい前からずっとこんな感じなんだよね．マジで嫌だわ．俺が2014年にジュニアだった頃は、実際にスタートアップがジュニアをまとめて（CS卒で応用コーディング経験ほとんどない奴らを一度に10人とか）採用して、数年かけてシニアに育ててたのを覚えてるよ．そして一部が会社に残って、残りは他所に行って、会社は次のジュニアのバッチを採用するって感じだった．今は誰もこんなことしないね．どれだけ簡単なタスクでもみんなシニアが欲しいんだ．これが業界全体の履歴書盛りに繋がってて、結果的にエコシステムがまだ5年しか経ってないのに、企業が10年の経験を求めてるような状況になってるんだ．
とはいえ、2000年代前半はもっとみんな独学が当たり前で、大学に入る前に実際にウェブ開発をやってて、卒業する頃には実質かなりシニアになってるっていう文化が強かったかな．俺自身もそうだったし、友達もそうだったけど、最近はCS卒でも応用的なことあんまりやってない人が多い気がする．でも公平に言うと、2000年代前半はJS／HTML／CSS／SQL、C++、あと多分．NET言語を知ってれば大体何でもできたから、これはずっと簡単な作業だったんだよね（フレームワークなんて事実上なかったし）．今は何千ものフレームワークとか言語とかエコシステムがあって、どれか一つを学ぶのに5年以上かけられるくらいだ．もう一人でテクノロジー全部を学ぶのは不可能だし、みんな今の時代はもっと専門化してるよね．
でも、最終的には誰かがまたジュニアを採用し始めないと、シニアがいなくなるっていう意見には同意だわ．

Daishiman 2025/05/16 19:44:36

＞P．S．，今のトレンドはソフトウェアエンジニアにとっての警鐘だと思うよ．俺たちはすごくクリエイティブな仕事をしてると思ってたけど、実際には知識労働者の基本的な仕事に多くの時間を費やしてるんだ．つまり、知識を検索して、基本的で予測可能なバリエーションを少しだけ補完するような作業だね．残念ながら、今のAIはこういう作業を置き換えるのが得意なんだ．
ほとんどのクリエイティブな仕事の活動時間の大部分は、こういう退屈な作業なんだよ．プロの画家やデザイナーは、大部分の時間を十分に練られたアイデアを再現することに費やす．ミュージシャンは、既存の曲をリハーサルすることに大部分の時間を費やすんだ．
これらの反復的なタスクが、クリエイティブなアイデアを思いつくための前提条件だっていう主張はあり得るね．

rowanG077 2025/05/16 20:07:59

いや、俺はそうは思わないね．AIは俺たちがクリエイティブだと思ってる仕事で最も能力を発揮してるのを見せてるじゃん．音楽制作、声優、文章／物語執筆、アート制作、動画制作とか、まだまだたくさんあるし．

dorian-graph 2025/05/16 19:55:12

エンジニアをコード書く部分だけで置き換えようとするこの過剰なこだわりは、俺にとっては滑稽で危険だわ．多くの人、テック企業の中にいる人でさえ、ソフトウェアがどうやって作られて、維持されて、動いてるか全然分かってないんだよね．
むしろ、俺たちはマネージャーとかプロダクトオーナーを排除することに集中するべきだと思うんだけどな．

lispisok 2025/05/16 20:00:49

コミュニティ開発ソフトウェアや「自由なソフトウェアとしての自由」を支持するのと同じくらい、俺は「オープンソース」が完全に歪められて、他人の巨大な経済的利益のために人々に無償で働かせるためのトリックになったと思ってんだよ．お前のコメントはまさにその一例だね．
だから俺のくだらないちょっとしたサイドプロジェクトは全部プライベートリポジトリに入れたわ．誰かがそれを元にビジネスを構築する可能性なんてほとんどないって分かってるけど、それでもいいんだ．ライセンスを付けても守られないと思うし．誰かがライセンス違反してるのを把握しないと何もできないし、それがプライベートのコードベースに取り込まれて外部から見て明らかじゃないなら、それはもう事実上不可能だからね．

fourside 2025/05/16 16:39:04

＞プロダクションレベルにするにはまだ結構手直しが必要だけど、まるで無限にジュニアエンジニアがいて、それぞれ別の作業をこなしてるような感じだね．
ジュニア開発者の問題点の一つは、完全に自律的じゃないから、彼らを指導したりコードレビューしたりするのに無視できないくらいの時間をかけなきゃいけないことだよね．仮にたくさんのジュニアに簡単にアクセスできたとしても、すぐにそのオーバーヘッドがボトルネックになるだろうな．
こういうバーチャルな開発者をたくさん管理するのが大変になるかもって思った？それとも結構自律的？

KaiserPro 2025/05/16 21:37:02

AIってさ、クリエイティブな仕事が得意って言われるけど、違うんだよね。急いでてどうでもいい人向けに、それっぽいもの作るだけ。例えばTemuに載せるアートワーク欲しい？はい、できた。バザーのポスター？はい、できた。Taylor Swiftっぽくて訴えられない無料の曲？はい、どうぞ。でも、本当に創造性を表現するってなると、ほとんどの人はAIで無理だよ。今のところ、ちょっと設定変えられるクリップアートみたいなもん。

woah 2025/05/16 16:53:55

＞細かい編集とかまとめて同時にできるとか、ジュニアエンジニアみたいにPRの大部分を作ってくれるとか。これって何がいいの？結局、『AIがプログラマーを置き換える』って見出しのためのギミックじゃない？LLMってタスク自体はすぐ終わるし、時間かかるのは指示やレビューだよ。一番速い部分を並列化しても意味ある？

roflyear 2025/05/16 20:27:51

文字通り『作る』って意味ならそうかもね。でも、『創造的である』って意味では違うよ。AIはまだ新しい問題を解決できない。君が返信してる相手は、文字通り何かを作るんじゃなくて、創造的であるって意味で言ってるのは明らかだよ。

dgb23 2025/05/16 20:55:45

アメリカは職業訓練が弱いって記事を読んだんだ。対照的に、CHとかGERはしっかりした徒弟制度がある。若くから働きつつ専門学校に通うんだ（例えばCHではアプリ開発の徒弟制度から）。このモデルはメリットが多いと思う。大学は学問好き向けだけど、徒弟制度＋教育・独学なら早く実践スキルを学べる。学術は深いCS知識、徒弟制度は早期の生産性。両方がサポートされるのが一番いいと思うよ。

brookst 2025/05/17 15:02:48

何を保護するの？誰かが君のコードを使ってビジネスしたとして、君にどんな害があるの？どうして状況が悪くなるの？こういう考え方が理解できないんだよね。ゼロサムで反社会的みたい。僕はいくつかビジネス作ったけど、いつも前例があったよ。自分が楽しんでたサイドプロジェクトから誰かが利益を得られるなら、全然気にならないね。

hintymad 2025/05/16 17:31:01

＞ジュニアを雇わないと、将来シニアはどこから来る？残念ながら企業はそう考えないんだよね。20年以上前、アウトソーシングや製造業のオフショアリングでも同じ疑問があった。『低レベルな仕事を外に出したら、どうやってシニアを確保する？』って。でも企業は続けて、西洋は人材やノウハウを失い、競争相手がリーダーになるのを見てたんだ。

nopinsight 2025/05/16 19:06:21

Agentic RLでの訓練と十分なデータがあれば、平均的なシニアエンジニアレベルで動くAIは、2～3年で現実的になるはずだよ。ビジネスやユーザーニーズを技術設計に深く統合できるトップレベルのエンジニアは、本格的なAGIが登場するまでは多分安泰だろうね。

_bin_ 2025/05/16 19:44:52

俺の見方だと、ジュニア育成をやめるのが唯一安全な賭けだよ。AGIがすぐ来るか来ないかでケース分けすると、育成を続けるのはコスト高で不利になる可能性が高い。育成をやめれば、AGIが来ても来なくても、コストを抑えられて有利になるか、少なくとも育成を続けた場合よりはマシな状況だ。結局、外部連携が必要だけど、ジュニア育成をやめる方が圧倒的にEVが高い。

odie5533 2025/05/16 21:14:37

開発者として言うけど、もしプロダクトオーナーを取り上げようとするなら、俺は戦うよ。要件とか承認とか誰に聞けばいいんだ？CEOに聞くのか？

fabrice_d 2025/05/16 16:55:15

うん、まだ”プロダクションに使うには手がかかる”って言ってるしね。マジな同僚とそんな変わんないかも。ジュニアだって慣れれば手がかからなくなるけど、AIがそうなるかは分かんないし。自分だって昔はジュニアだったわけだしさ。

brookst 2025/05/17 15:04:09

これ聞いてると、70年代後半とか80年代に”マジなミュージシャン”がシンセとかドラムマシンについて全く同じこと言ってたの思い出して、マジでデジャヴ感じるわー。

_delirium 2025/05/17 03:57:17

IT就職市場？10年も終わってないと思うなー、3年くらい？中堅大学で教えてるけど、数年前は学生のほとんどが良いオファーもらってたよ。トップ層はFAANGとかで軽く六桁稼いでたし。でも2022年半ばの大手テックのレイオフでマジで冷え込んじゃった。それ以来ずっと厳しいね。

voidspark 2025/05/16 19:30:15

これマジで問題だよ。上の連中は数十億稼いで引退準備してるのに、俺らは自分の代替を開発してんの。シニアだってほとんどいらなくなるかもね。ジュニアのメンターやったけど、やりがいあったよ。他の同僚は無視したり guidance しないけど。他のコメント見てても、人間と関わらなくて済むって喜んでる奴いるし。マジでこの業界、変な奴多すぎ。道徳とか文化がないとAGIはディストピアになるよ。全部の産業で人間がいらなくなる。

johnjwang 2025/05/16 17:52:06

俺の経験だとさ、こういう agentic LLMs（特に最新の reasoning model）でタスク動かすと、まだ結構時間かかるんだよね。数分とか。Cursor とか他のAIエディタでも、それだけ時間があると集中切れて、違うタスクやっちゃうくらい。だからマジなメリットは、この”手待ち”時間中に複数のタスクを同時にできること。前はAIが終わるの待ってたけど、今は別のタスクに意識切り替えてる感じかな。

bmcahren 2025/05/16 18:12:29

反論A：AIコーディングツールって、人間よりマジで速いペースで急速に進化してるんだよ。これは間違いない。反論B：AIは疲れないし、場所もいらないし、経験とか気にしなくていい。中断されても平気だし、方向転換もOK。2日かけたものが無駄になっても凹まない（士気低下なし）。

strangescript 2025/05/16 16:39:29

OpenAIはモデル開発で天井に達してる気がするな。Codex1 は同じベースモデルの RLHF 派生版に見えるし。彼ら自身のレポートでも、8回試しても精度が変わんないってのが分かるしね。O4-high のベンチマークについて全然言及してないのも怪しい。O4-mini があるなら、論理的に O4 フルもあるはずだろ？

thomasahle 2025/05/16 21:19:50

＞でも公平に言って、これは2000年代前半はもっと簡単なタスクだったよ
最高のジュニアは、俺らが使い始めたオープンソースライブラリにバリバリ貢献してくれた奴だったね。学校以外でも、自分のスキル磨いてアピールする機会はまだいっぱいあると思うよ。

Wowfunhappy 2025/05/17 17:26:15

じゃあさ、サイドプロジェクトで幸せ度が5ポイント上がったとしようよ。公開しても非公開でも君の幸せ度は5ポイントのまま。公開すると他の人も幸せになるかもだけど、大企業が君を無視して百万ポイント稼ぐかも。公平じゃないかもしれないけど、君自身は損しないし、人類全体の幸せ度は増えることになるんだ。

andrewmutz 2025/05/17 00:48:34

これってさ、ジョブホッピング文化にも関係ありそうだよね。最近は一つの会社に長くいるの珍しいじゃん。次に雇う人が1、2年しかいないなら、新人雇って育てる意味ないもんね。

nadis 2025/05/16 17:52:13

プレビュー動画でKaty Shiが”コード書くよりレビューの時間が増えた”って言ってたのは共感したよ。Open AIのプレビュー動画はこちら: https://www.youtube.com/watch?v=hhdpnbfH6NU&t=878s
これからの開発はシミュレーションを見るべきじゃないかと思うんだ。シミュレーションはコードやテストより結果が見やすいし、特にフロントエンドで役立つよ。個人的な経験だけど、Codex見て改めてそう思った。

もっとコメントを表示（1）

klabb3 2025/05/17 07:11:45

＞コード書くよりレビューの時間が増えた
レビューはテストほど信頼できないよ。コードを書くスピードは問題じゃなくて、テスト可能なコードを書くのが一番難しいんだ。AIがそこをできるかは分からないけどね。yoloプログラミングで複雑になったコードには、自動化されたジュニアエンジニアの軍隊でも勝てない。コードの変更は、修正より副作用の問題が増える時がくると思う。

csomar 2025/05/17 08:35:51

＞コード書くよりレビューの時間が増えた
これは昔からそうだよ。フロントエンドのコードなんてコードじゃないし。バックエンドのほとんどはデータの変換と移動だけ。crypto、compression、mathとか”本物のコード”が必要な機能は、他の10万人の開発者が使ってるライブラリを使うんだから。

fosterfriends 2025/05/16 21:56:18

++Graphiteに関する僕の考えに似てるね。AIでコードが生成されるほど、レビュー、テスト、結合の重要性が増すよ。AIコードレビューツールを開発してる側としても、人間による最終チェックは永遠に必要だ。理由はたくさんあるけど、根本的にはアカウンタビリティ（責任）のため。コンピューターは責任を負えないからね。詳しくはここで: https://constelisvoss.com/pages/a-computer-can-never-be-held…

hintymad 2025/05/16 22:32:50

＞A computer can never be held accountable
問題は人間が完全に置き換わることじゃないと思う。そうじゃなくて、AIが十分な数のナレッジワーカーを置き換えた時に、その労働力を吸収する新しい市場がなければ、需給バランスが変わって多くの人の給料が抑えられるか、もっと悪くすれば仕事を永遠に失うことになるってことだよ。

TeMPOraL 2025/05/17 13:40:59

新しい市場があるかどうかにかかわらず、自動化でキャリアを失うと一生ひどいことになるよ。特にキャリアの途中だと回復できない。新しい仕事は若い世代向けで、子供たちでさえ家計の貧困で不利になるかも。これがLuddites運動の原因。”反技術”じゃなく、ビジネス決定で貧困に追いやられた人たちの抵抗なんだ。

nadis 2025/05/19 23:44:10

＞A computer can never be held accountable
最近似たようなことを考えてたよ。でも”computer”の代わりに”AI”とか”Agents”って言葉を使ってる。言ってることは同じだね。

sagarpatil 2025/05/17 04:58:29

Re:simulation
Deeboはデバッグでこれやってるよ:
https://github.com/snagasuri/deebo-prototype

ai-christianson 2025/05/16 17:59:23

＞ simulationsじゃなくてって
それって自動テストスイートみたいなこと？

tough 2025/05/16 18:09:36

自動化されたビジュアルファジーテストで自己強化ループ付きって
QAテストのライブラリはもうあるし、VLMはブランチごとのplaywrightスクリプトで自動化された一連のスクリーンショットに批評を出せるよ。

ericghildyal 2025/05/16 21:34:19

Clineでテストヘルパーアプリを作った経験をシェアするね。create-next-appから始めて、TS/Next.jsのコードを修正し、yarn devしてLLMブラウザでlocalhostを確認したんだ。間違いを見つけて修正し、再度確認してOKだった。Nextのホットリロードのおかげで成り立ったフローだけど、すごく感心したよ！

tough 2025/05/16 18:44:50

SmolVLM, Gemma, LlaVa、もし試したいなら僕が試したやつだよ。https://huggingface.co/blog/smolvlm
最近llama.cppとollamaもこれらへのサポートが改善されたから、ローカルやセルフホストのモデルとのこういう統合がもっと手軽に、安価になったね。

tough 2025/05/16 18:51:50

ビジュアルリグレッションテストの部分だとこれもいいよ。AIを組み合わせることもできるしね 😉 https://github.com/lost-pixel/lost-pixel

nadis 2025/05/19 23:45:50

そう、上の返信が僕が言いたかったことに近いね！自動テストを増やすだけじゃなくて、Visionや可視化だよ。確かに野心的だね！

ofirpress 2025/05/16 17:51:33

［僕はSWE-benchの共同開発者の一人だよ］チームはSWE-benchですでにすごく良いo3の結果をさらに改善できたんだけど、数パーセントしか改善が見られないのが興味深いね。Verifiedで75%から85%に到達するのが、20%から75%にかかったのと同じくらい時間がかかるのかなって思うよ。

Snuggly73 2025/05/16 18:00:51

見当違いかもしれないけど、SWE-benchではbenchmaxxingが起きてる気がするな。multi swe benchの結果を見てみてよ - https://multi-swe-bench.github.io/#/swe
polybench - https://amazon-science.github.io/SWE-PolyBench/
Kotlin bench - https://firebender.com/leaderboard

Bjorkbat 2025/05/16 23:36:28

なんかLLMはPythonが他の言語より得意そうな気がしてたんだけど、うわ、Multi SWEでの差はヤバいね．

kristianp 2025/05/17 22:08:41

たぶん、みんながAIのコーディングへの役立ち方についてコメントしてる差って、使ってる言語による機能なのかもね．Pythonのコーダーはめっちゃ好きかもだけど、Goのコーダーはそうでもないとか．

ofirpress 2025/05/17 00:46:16

benchmaxxingってのがどういう意味かわかんないけど、うちはSWE-benchみたいなベンチマークからまだたくさんの役立つシグナルが推測できると思ってるよ．あと、他では見たことないひねりを加えたSWE-bench Multimodalもあるんだ．
https://www.swebench.com/multimodal.html

Snuggly73 2025/05/17 02:35:11

つまりね、swe benchがトレーニングのために特にターゲットにされてる可能性があって、その結果が実際の現場でのパフォーマンスを反映してないかもしれないってこと．

mr_north_london 2025/05/16 20:15:14

20％から75％になるまでどれくらいかかったの？

blixt 2025/05/16 17:03:57

ライブストリームでmicroVMって言ってたけど、ブラウザとかネットがないんだって．Firecracker／Unikraftみたいなのが速くて安いからスケールアップできるのは分かるけど、”自分のPCを持つエージェント”への移行は大変そう．ChatGPT Operatorはブラウザあるけどね．Modal／CloudflareみたいなAI専用フル機能コンピューティング環境を提供するインフラ企業にはまだチャンスがありそうだよ．

thundergolfer 2025/05/17 04:05:03

Modalではこれが大きな焦点の一つなんだ！コードエージェントは今のLLMのキラーユースケースだし、うちのGPU能力を補うんだよ．エージェントがNixみたいな再現可能な開発環境技術の価値を高めて、人間のエンジニアにも良いことになるって思ってるよ．
1. https://modal.com/use-cases/sandboxes

ushakov 2025/05/16 23:46:20

これ、E2B DesktopDemoでうちも提供してるよ．
https://surf.e2b.devSDK：
https://github.com/e2b-dev/desktop

ionwake 2025/05/16 20:09:57

変な質問かもだけど、Pro version払ってるのにTry Codex押すとTeam Planのページに飛ぶんだ．これってまだ提供中？ Team Planも必要なの？ openAI製品は長年使ってるのに、何が間違ってるか分かんないよ．

throwaway314155 2025/05/16 20:47:01

彼ら（openAI）は主要リリースごとにこれをやるんだよ．なんでか全然理解できないけどね．

solresol 2025/05/17 06:38:51

Codexと格闘して何時間も無駄にしたんだけど、いつも失敗するやり方があるんだ。
- コード書いて、一見良さそう
- githubにプッシュ
- githubの自動テストで問題発覚
- Codexに戻って修正依頼
- また良さそうに見える
で、どうすんの？再プッシュさせると、最初のPRの内容含まれないPR作るんだ。しかも前のPRの上に積むんじゃなくてmainの上に積む形。
gpt-4.1-mini呼び出しでopenai.ChatCompletion.createとか使ってたし（マジかよ！）
結局claudeでCodexの間違い直す羽目になったよ。なんか調子悪いんだよね。

fcoury 2025/05/17 12:45:58

CodexのためにProにしたけど全然ダメ。rust使ってるからかもだけど、コンテナがネットから何も取ってこれないエラーに悩まされるんだ。
error: failed to get anyhow as a dependency of package yawl-core v0.1.0 (/wor<br> kspace/yawl/core)

Caused by:
download of config.json failed

Caused by:
failed to download from https://index.crates.io/config.json

Caused by:
[7] Could not connect to server (Failed to connect to proxy port 8080 after 30 65 ms: Could not connect to server)`

とか出るんだよね。これで直んなきゃ今月で辞めるわ。

hmottestad 2025/05/17 17:57:22

環境のstartup scriptをEdit → advancedで指定できるよ。ネット接続切られる前に実行されるんだ。あと$http_proxyにプロキシ入ってるのも注目ね。
今日mavenインストールして依存関係全部ダウンロードさせるのに何時間かかったことか。sudo apt-get updateが失敗する理由1時間かけて調べたら、sudo使ってたのが原因だったなんてね！

bargainbin 2025/05/17 08:39:22

この問題、Devinでも経験したよ。俺の知識不足もあるけど、タスク全体見るにはコンテキスト多すぎるんだと思う。OpenAIとDevinが同じパターンなら、根本的な問題があるってことだよね。

csomar 2025/05/17 08:34:15

PRプッシュする前にローカルでテスト走らせた方がいいと思うよ。ていうか、Codexが変更提案する前に生成プロセスの一部として（どうにかして？）これを組み込む必要があるんじゃないかな。

もっとコメントを表示（2）

alvis 2025/05/16 16:00:25

昔銀行で働いてた時、法務チームからコンプライアンス関連でアプリのちょっとした修正頼まれてたんだ。今なら自分で直せるだろうね。彼ら、すごく誇りに思って喜ぶと思うな。

ajkjk 2025/05/16 16:46:12

法務チームがコード動かしてテストしたりレビューしたりせずに何か触るなんてこと、誰も許さないでほしいな。だから多分そうはならないと思うけど。

eru 2025/05/17 09:29:15

何言ってるかよくわかんないんだけど？法務みたいなチームでも勝手にPRは作れるじゃん。でもそのPR受け入れるかは、プロジェクトのオーナーが人間レビューとか決めたプロセスでOK出すかどうかにかかってるんだから。

ajkjk 2025/05/17 18:20:26

あんたが想像してるのと実際の現場は違うって話だよ。非開発者がLLMでPR作っても、レビュー側が自分でコード動かして確かめることになって、結局開発者と同じ作業量になっちゃうんだ。法務が「変更した」なんて言わないでほしい、ほとんどこっちの仕事だ。せいぜいコピーとか変えるくらいだよ。自動テストだけじゃ不十分で、結局人間確認は必須。

eru 2025/05/18 03:49:43

非開発者だってビルド動かしてアプリテストできるじゃん。やりたかった変更になってるか確認できるでしょ。コードが良くなくても、要件聞き出すとかプロトタイプ作るのに正確なやり方と考えれば役に立つんだよ。コード捨てることになってもね。

ajkjk 2025/05/18 21:22:57

非開発者がテスト用の開発環境自分でセットアップしてるなんて聞いたことないな。結構専門的だしね。

eru 2025/05/19 00:15:32

自動でセットアップしてあげればいいじゃん。テストとかAI動かすみたいにね。Dev ContainersとかGitHub Codespacesとか、やり方はいろいろあるよ。CodespacesみたいにブラウザだけでOKなら、法務の人だってできるでしょ。相手側に追加ソフトいらないし。

singularity2001 2025/05/16 16:57:12

それ、面白い新しいBug trackerになるだろうね。会社中の誰でもBug報告とか機能リクエストできるようになる。AIが解決できれば完璧、無理なら人間がやる。そしたら、どんなコード変更が法的にOKで、会社の基準に合ってるかが大事になる。だから、技術知らないコード/Issue reviewerがすごく重要になりそう。

SketchySeaBeast 2025/05/16 20:18:50

法的にOKとか基準内だけじゃなく、実際にはリクエストの隠れた要件満たしてるかどうかが大事。「左利きか尋ねるチェックボックス欲しい」って簡単そうだけど、Application PDFや他のシステムに影響したり、データ変換が必要になったりするかも。POもそういうの見落としがちなんだよね。

asdev 2025/05/16 18:37:12

断言するけど、Legal teamがコード変更なんかPushすることはないね。

ZeroCool2u 2025/05/17 04:41:45

SWE-Benchで動かせなかった23件のサンプルを除外したってどういう意味？もっと詳しく説明してほしいな。ベンチマークのタスクを二桁も未完了で除外するなら、それはスコアに反映されるべきじゃない？

asdev 2025/05/16 18:40:32

AIにタスクを全部任せるのがこの議論のポイントなの？僕がAIでやるタスクはいつもちょっとした手助けや、プロンプトをやり直したりが必要だよ。だからタスクを並列で動かしたいとは思わないな、たぶんスループットは上がらないと思う。他の人はもっと上手く使えてるのかな？

masterj 2025/05/17 01:41:36

動画のユースケース例はすごく説得力あるし、範囲もずっと小さいね。”オンコールに報告されたエラーを直してみて”（失敗しても役に立つかも）。何か別のことしてる時に見つけた小さな部分をリファクタリングする。こういう小さい範囲のことなら、普段はやらないようなこともできそう。大規模なコードベースでLLMに全部任せることはないけど、これらの例なら彼らが最後までやれそうな範囲だね。

sagarpatil 2025/05/17 05:08:35

Exa.ai APIとaugment.newのエージェントを使って、テスト作成、python-＞fastapi変換、フロントエンド作成の3タスクを同時に試したら、全部完璧に動いた！コードレビュー後マージできたよ（フロントエンドは見た目イマイチ）。

nmca 2025/05/16 23:04:29

悪いAIだと意味ないけど、良いAIならパワフルだよ。僕の経験ではcodex-1はかなり良かったな。

fullstackchris 2025/05/16 22:29:43

このスレッドを読んでると、みんなすっかりダメになっちゃってて、ソースコードがどう共有されて、ビルドされて、色んなエディタでどうマージされてきたかっていうシンプルなプロセスを理解してない（もしかしたら最初から理解してなかった）のがよく分かるよ。

bionhoward 2025/05/16 17:39:42

プライバシーとか、学習させないようにする（オプトアウト）のはどうなの？これをAI開発とか、新しい”支配者”（AI企業）と競合するモデル作りに使うのはどう？これを使うってことは、彼らが競争相手を出した時に、競合したことで梯子外される（ラグプル）のを待ってるだけみたいに見えるんだけど。僕はただの年寄りで、何も無いのに騒いでるだけかな？彼らと競合できない成果物を私たちが所有して良いって彼らが言うのは、ありなの？

piskov 2025/05/16 17:53:16

動画を見てごらん：途中のステップで、自分のリポジトリで学習させるか（しないか）を明示的に切り替えるスイッチがあるんだよ。

lurking_swe 2025/05/16 18:41:37

あとね、データを明示的に共有するのをオンにすると、毎日何百万もの無料トークンがもらえるんだって。

tough 2025/05/16 18:46:11

それはいいね。でも、それが言うことを信用する理由は何？ AI企業（openai、anthropicとか）が約束したから？ソースコード見たの？学習しないってどうして分かるの？ Facebookは最近のDOJ公聴会で、やり方で法律違反したってバレた。前は宣誓して「Xはやってない」って言ってたのに、数年後にそれが嘘だった証拠が出たんだよ。https://youtu.be/7ZzxxLqWKOE?si=_FD2gikJkSH1V96rA 会社の”言葉”なんて、僕の意見では何も意味しないね。正直、どれも納得できないな。提供者と個人的に契約して、彼らが言ってることやってるって確信できて、後で訴えたりできない限り、全部ただ祈ってるだけだよ。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。