非同期コーディングエージェントJules
引用元:https://news.ycombinator.com/item?id=44034918
github issues を扱えるんだ.それらを処理して,バグを修正済みにできるの? もし ”lead dev” AI とか ”boss” AI とか役割を分担させて放置したらどうなるかな? たぶんめちゃくちゃになるだろうけど,startup simulator みたいで見てて面白そう. note-taking app がどう進化するかアリの巣みたいに観察できるかもね.
エージェントのパターンとして実際すごく良いよ.analyst agent,decision agent,review agent で価格システムを作ったんだ.ポリシーに従う決定のために協力してる.チャットしてるのを見るのは面白いよ.ちゃんと役割を演じるんだ.もし decision agent が analyst にポリシーの指針を求めても,断って分析が役割だって説明する.そうやって間違えを見つけるし,役割演技が良い結果を出すよ.
エージェントたちがクロス連携するためにどんなツールを使ったの?
なんで? VC は投資家の金を管理してるんだよ,自分のじゃない.もし投資家が AI をすごいと思ってるなら,この仕事を AI に任せるのに問題ないでしょ? だよね?
Python クラスだよ.僕のフレームワークではエージェントはクラスのインスタンスで,ツールはメソッド.各エージェントは独自の内部会話状態を持ってる.それらは構成可能で,他のエージェントとコミュニケーションするツールも持ってるんだ.
たぶんジョークだったと思うよ.VC は自分の仕事以外の全ジョブを AI に置き換えるのは喜ぶだろうね.
なんで? 利益を得続けるなら自分の仕事だって喜んで任せるだろうに.
歴史上で技術に労働が置き換えられて,元の労働者が収入源を維持できた例を考えられる? もし機械が君の仕事ができるなら,(結局)君の代わりに機械を使う方が安くなるし,君は仕事がなくなる.当然じゃないの? まあ,たぶんジョークだろうから,そんな深く考える必要ないかもだけどね.
これのリポジトリある?Agenticシステム組むのにめっちゃいい方法だって思ってたんだ。どうやってるのか見てみたいな。
1人ユニコーンももうすぐ現実になるかもね
Langroidがこんなデザインなんだよ(俺がリード開発者だよ):https://github.com/langroid/langroid
クイックツアー:https://langroid.github.io/langroid/tutorials/langroid-tour/
この列車止めてくれ!降りたいんだけど
エージェント間で渡すとき、可能な限り多くのコンテキスト履歴を維持しようとしてるの?それともコンテキスト管理して基本的に毎回ワンショットなの?
職を追われた被雇用者は厳しいだろうね。でもVCはオーナーだから従業員じゃない。パン屋のオーナーが機械入れて効率化したら利益はオーナーのものになるのと一緒だよ。
コードは手に入る?
俺はジョークだと思わなかったな。別の記事によると、偉大なVCでさえ多くの会社を見逃してる。彼らの仕事は科学じゃなくて、センスとか人間関係とか心理学みたいな触れられないものなんだって。AIが全部やっても、VCの仕事は人間がやる最後の分野になるかも、ってAndreessenも言ってたよ。記事はこちら:https://futurism.com/venture-capitalist-andreessen-jobs
すごくいいね、MCP。複数のベクトルストアをサポートしてるし、ドキュメントも良い!ツール呼び出しAPIの微妙な違いはどう処理してるの?
いつでも降りたい時に降りていいんだよ。でも列車は君を待ってくれないけどね
> then you add a boss AI
これの方がもっとありえそう。Robotsは人の気持ちなんて気にしないから、倫理的な問題なしに判断できるもんね。
コンテキストは基本的に保持するけど、短命なagentが多いから大丈夫。ただ、データが長すぎたり、ツールサポートが弱いモデルの場合は工夫が必要かな。特にREPL process analystでは長いスレッドで成果物管理のために古いバージョンを[attachment: filename]に置き換えてる。長期の状態はagentにメモリツール(ノートブックとか)を持たせてて、戦略や実験に役立ててるみたい。システム全体、予想以上にうまくいってて、Gemini 2.5 flashとかすごいよ。
自分でフレームワーク作っちゃったけど、要望があればシェアも考えるよ。でも、いろんなシステムからETLでデータ集めて分析する部分はシェアしないかな。大量のデータをJSONで分析agentに渡してレポートを作らせてるんだけど、1ヶ月運用してて、agentの判断はほとんど合っててヒューリスティクスより全然いい。コード全体でagent使ってるけど、役割と構造化データでモデルを抽象化するのってすごく強力だよ。
昔の貴族にも同じことが言えたよ:現代経済を動かす資本家だって、昔は彼らのマネージャー、つまり領地や投資、財産を扱ってた代理人にすぎなかった。力がどんどんついて、彼らの’君主’に政策を指示できるようになり、ついには完全に排除したんだ。
これからわかることだよ。これが今の私たちの集合的な軌道だね。
今後数年で役立つスキルセットは、色々な形のAIツールを管理する能力だとかなり確信してるんだ。[2]ー 文字通り自分のAIを率いるとか、パフォーマンス評価するとか、そういう全部ひっくるめて ー つまり、AIをビジネス成果に向けてうまく動かせるようになることだね。
ありがとう!
Langroidを使うと、プロンプト経由でほとんどのLLMでツール呼び出しができるんだ。Pydanticでツールを定義して、ハンドラを実装する感じ。APIのネイティブなツール呼び出しに頼らなくてもいいけど、OpenAIやvLLM、llama.cppなんかもサポートしてるよ。詳細はこのドキュメント見てね: https://langroid.github.io/langroid/quick-start/chat-agent-t…
この調子だと、どっちも”coding agent”に取って代わられそうだね。ほぼ毎日新しいのが出てきてるみたいだし。
フレームワークがGithubで使えるようになったよ:https://github.com/jacobsparts/agentlib
時間できたらもっと大きなシステムについてブログ書くつもりだよ。
興味あったのに、試すボタン押したらまたウェイティングリストかよ。GoogleいつになったらGmailでうまくいったやり方がもう通用しないって学ぶんだよ。今どき遊べる新しい面白いツールなんていっぱいあるし、明日にはこのことなんて忘れてるだろうな。
しかもGermanyからだとリストにさえ参加できないんだって。まず本当に自分だって認証必要で、リカバリーメールに確認コード来て、携帯番号にもコード来て、なのに結局サービス制限されてますってメッセージだけだったわ。
俺はGermanyのgsuiteアカウントでできたよ。
そういう人たちには名前があるんだよ:Google Developer Experts(実際にはエバンジェリスト)。https://developers.google.com/community/experts
もっとコメントを表示(1)
ああもう、GDEプログラムね。昔は意味あったのに今は誰でもなれる感じで質が落ちたって感じかな。LinkedIn/TwitterでGoogleネタをスパムしたりコミュニティに媚びたりすればOKみたいな。Google関連のカンファレンスでも、GDEのトークは深い話じゃなくチュートリアルレベルが多いし、いいGDEもいるけど最近増えた質が悪いせいでプログラム自体が避けられつつあるよ。
たぶん今日リリースするつもりじゃなかったんだろうね。準備できてなかったけど、Githubの後追いだって思われたくなかったんじゃない?
関係ない話だけど、Geminiの20ドルプランって、同等のChatGPTと比べてどうなの?
両方使ってるよ。Geminiは長くて複雑な回答を出す気がする。ChatGPTはもっと簡潔だけど、それは俺がChatGPTに話し方を学習させたせいかも。コンテキストウィンドウの違いはマジで良いね。Geminiにはめちゃくちゃ長い文章を貼り付けるけど、うまく処理してくれる。
なんかリリースしないといけなかったんだろうね。OpenAIが超速で動いてるから。
今のところ、OpenAIが”超速”でやってることと言えば、投資家のお金を燃やしてることだけだろ。
なんかミームみたいに聞こえるね。”超速”ってフレーズ、もう真剣に受け止められないわ。これって狙ったユーモア?それとも俺だけ?
これは”成功劇場”だよ。進歩を見せないと遅れてるって思われるからね。LoIが書かれたりパートナーシップが結ばれたりする時代には、事実より約束の方が価値があるんだ。
もう?俺にとってはいつも子供っぽいか皮肉に聞こえてたよ。”Blazingly Fast”なんて、Hot WheelsやNerf Blasterの箱に書いてあるもんだろ。真面目な技術製品じゃなくてさ。
そうだね。Hot Wheelsの箱みたいに本物っぽく見えるかもね。
ちゃんと見てないの? GoogleはOpenAIの25人のチームにボロ負けしてるじゃん。
人管理が嫌でマネージャーじゃなくエンジニアになったのに、人みたいに話すロボットを管理させられるみたいだ。せめて非共感的にいられるならいいけど。AIエージェントのHRを始めるスタートアップが出てきたら終わりだね。
今大事なスキルは共感性だけだよ。
仮説だけど、共感性って顧客の曖昧な要求を明確な要件と設計に落とし込むのに一番効果的なスキルだと思うんだ。お客さんが欲しいものと必要なものは違うから、共感性がそのギャップを埋めて価値を提供できる。感情に関わるスキルだから、AIにはまだ難しいね。
全く同感。質の高いコンテキストを提供するには共感性が鍵だよね。数ヶ月前にブログに書こうとしたんだ: https://substack.com/home/post/p-156334403
Googleが推論を無料で提供できるのは、他社に対するめちゃくちゃ大きな競争優位性だよ。>Julesは無料?>はい、今は無料です。ベータ版で、利用状況から学ぶ間は支払いなし。将来的には価格設定を導入予定だけど、今は開発者体験向上に注力してます。https://jules-documentation.web.app/faq
ここではあなたが商品だよ。追記:法的リンクが動かないね(https://jules-documentation.web.app/faq#does-jules-train-on-…)>いいえ。Julesはプライベートリポジトリの内容で学習しません。プライバシーは核となる原則。でもデータ収集は会話が学習データになるGeminiに似てる可能性が高いね。リポジトリの内容は不明。詳細はこちら: https://jules.google.com/legal
Googleが無料で推論を提供できるのはすごい競争力だね.まだJulesは試してないけど,Codexで遊んでるところ.個人的には無料かどうかはあんまり気にしないかな.他のより問題解決できたら使うし,そうでなければ他の使うよ.コストより性能に注目してるのは自分だけじゃないと思うな(ある時点まではね).
みんな杖がないとコード書いたり考えたりできなくなったら,彼らはものすごく儲かるだろうね.
ちょっとこれを置いておくね.
プラトンがソクラテスを通して『パイドロス』で言ってたことだよ.書くってのは記憶するためじゃなくて思い出すための道具なんだって.見かけの知恵で満たされるだけで,知恵そのものじゃないってね.これって,AIコーディングエージェントにも当てはまるかも.
でもその引用,暗記したの?それとも要点だけ知っててググれるようにしてただけ?
それはまあいいんだけど,製品を比較するのは時間かかるよね.それに,比較のために有料製品を使いたがる人はほとんどいないよ.
少なくとも書くことなら,最低限のもので自分で簡単にできるよね.GoogleLife(tm)にサインインしようとして,『契約時の規定条件』でAIアクセスできなくなった日には大変なことになるよ.
いくつか制限があるみたいだよ.
同時タスクは2つまで
1日の合計タスクは5つまで
>それはわかるけど製品比較には時間かかるってのはその通りだね.だからまだ多くの人がCodexを最大限に試してるんだ :)
>そして比較のために有料製品を使いたがる人はほとんどいない.うん,自分もたいていそうだよ.無料トライアルとかなければ,良いって確信しないと多分お金は出さないね.でも,もっと良いLLMが出てきて自分の考えが変わったんだ.例えばフリーランスのソフトエンジニアなら,月200 EUR払っても簡単に元取れるから,「1ヶ月試す」みたいなサブスクにもだいぶ柔軟になったよ.
僕が見るところ,これに対する解決策はオープンソースに投資することだと思うな.「サバイバル状況」に関しては,太陽光発電のノートPCにローカルで動くLLMを入れるのが,間違いなく僕のリストの最初に来るだろうね.
他の人の意見はあんまり読んでないけど,個人的にはCodexのオンライン版は,オリジナルのCopilot以来一番のコーディング生産性向上だったね.Cursorはエージェントモードでユニットテストを何度も消しすぎたんだ.Codexは出力が5倍になったけど,コードは僕が書くより質が悪いかな.でも,テストを消さずにちゃんと通してくれるっていう点での生産性向上は,この時点でもう無視できないくらい素晴らしいよ.
0円だとマジで新しい可能性が開けるんだよね。根本的に使い方が変わるよ。
1日5タスクなんて、ちゃんと仕事で使うには正直役立たずなくらい少ないよね。
技術的に言うと、彼らがやってる戦略は”ロスリーダー”ってやつだよ。
ロスリーダーとして、会社はユーザー集めて、定着させて、それを通じて市場取りに行くために安い価格で提供するんだ。
https://www.investopedia.com/terms/l/lossleader.asp
もっとコメントを表示(2)
そうあるべきじゃないね、LLMは文献みたいに信頼できないから。
周りの人も、なんでそんな電力食う設定にこだわるの?って聞いてくるだろうし。
これ(大手テック企業の伝統って分かってるけどさ)はダンピングと同じ経済効果がある気がするな。
https://www.investopedia.com/terms/d/dumping.asp
LLMが絶対正しいなんて言ってないけどさ、あんた文献の正確性を過大評価しすぎじゃない?
0円前提でなんか作ってそれに依存し始めた頃に値上げされるんだよ。
でも、あんたは知恵に満ちてるのか、それとも知恵があると思い込んでるだけなのか?
うーん、プラトンの言うように、読めること≠知ってること。
記事読んだだけで内容理解してないのに議論する人、ネットにいっぱいいるよね。自分を賢いと思い込んでるだけで、分かってないことすら分かってない。
「知恵があると思い込んでるだけ」の人々。問題は書物じゃなく、教育不足だね。
これ、自分にとっては確かにそうなんだけど、買い切りじゃなかったら違うな。製品がダメでも結局使わなかったとしても、クレジットに10ドル払うのは全然抵抗ないんだ。5ドルのサブスクの無料トライアルに申し込むよりね。
何度か読んだよ。なんか漠然と賢そうだし、ちょっと不気味な感じもするけど、意味が全然わからないんだ。説明してくれる?Google製品は、なんだかんだ言って20年以上、俺の人生にプラスの影響を与えてくれてるんだよね。もしその間、使ってるすべてのサービスにサブスク料金を払ってたら、今手元にないはずの相当な金額になってただろうな。これから全部悪くなるような次の段階ってあるの?いつ?
Socrates/Platoの主張は自分の経験と違うな。教えられるより自分で読んだ方が記憶に残ってるんだ。受動的な消費じゃなく能動的な学習が大事だと思う。偉大な哲学者が家庭教師でもどうかなってRussellの引用も思い出したよ。AristotleがAlexanderに与えた影響はゼロだっただろうって。
OpenAIは2024年に50億ドル損失出してて、2025年は損失が倍になると言われてる。今はそれがゲーム代ってことだね。
Googleはもう10年以上、”無料の推論”を提供してるんだよ。Googleで働いたことない人は、ウェブ検索とかメールとか写真とか、主要なGoogle製品の多くがどれだけ機械推論にどっぷり浸かってるか単純に知らないんだ。
ええと、これは初のgithubベースのエージェントじゃないよ。有名なのはhttps://app.all-hands.dev/。それに、もっと一般的で安かったり無料だったりする素晴らしいエージェントもある。だから、このエージェントが目新しいものじゃないって考えると、値段がすぐに話題になるのは当然だね。
ただコピー(広告文)だけどさ、”やりたいことをして時間を過ごそう!”ってのがあって、その後に多分ビデオゲーム、自転車、読書、卓球の画像が続いてるんだよね。それは全然いいんだけど、なんかコーディングが避けるべき面倒な作業みたいに示唆されてる感じがするんだ。創造的で楽しい活動っていうよりね。