Gemini 2.5、遂にPC操作モデルを発表!ブラウザ自動化はどこまで進化するのか?
引用元:https://news.ycombinator.com/item?id=45507936
Chrome DevTools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)とGemini CLIを使ったブラウザ自動化は結構うまくいってるよ。この新しいモデルならもっと良くなるんじゃないかなって思ってる。
Chrome DevTools MCPでどんな自動化ができたの?
質問主じゃないけど、僕の経験だとJestとかPlaywrightの方がずっと速いから、MCPで色々やるのは割に合わないね。面白いおもちゃとしてはアリだけど、LLMがMCPの呼び出しを使ってブラウザを制御するには遅すぎるよ。
LLMがブラウザにいることの最大の利点は、LLMでPlaywrightスクリプトを書くのをすごくシンプルにできることかもね。例えば、この前Rate Your Musicのスクレイパー作ったんだけど、Playwrightに慣れてなくてイライラしたんだ。DevToolsをずっと見てHTMLをコピーしたり、要素を調べたりする作業がこれなら回避できて、複雑なテストの開発が速くなるだろうね。
そうだね、今のやり方(アクション実行→結果読み込み→次のツール呼び出し)みたいに遅いより、モデルにPlaywrightスクリプトを書かせた方が良いと思うよ。まずは手動でナビゲートして、それに基づいて将来のテスト用のPlaywright TypeScriptスクリプトを書かせる、とかね。
これは基本的に僕らのHerd[0]のアプローチなんだ。僕らはエージェントを動かして、ブラウザを使わないLLMで動く、より安価で信頼性の高い自動化(trails[1, 2])を開発・テスト・修復してるよ。Trailの自動化はREST APIやMCP[3]として抽象化されてて、コードから関数として呼んだり、自分のエージェントから使ったりできるんだ。
独自のtrailsを構築して、レジストリに公開したり、組み合わせたりもできるし、複数のHerdクライアントで分散実行も可能だよ。CLIやnpm&pythonパッケージ[4, 5]も興味深いかもね。
注:この自動化スタックは完全に自社開発で、PuppeteerやPlaywrightには依存してないけど、ブラウザ自動化API[6]は採用しやすいように似せてるよ。Chrome Devtools Protocolも使ってないから、トレードオフが違うんだ。
0: https://herd.garden
1: https://herd.garden/trails
2: https://herd.garden/docs/trails-automations
3: https://herd.garden/docs/reference-mcp-server
4: https://www.npmjs.com/package/@monitoro/herd
5: https://pypi.org/project/monitoro-herd/
6: https://herd.garden/docs/reference-page
便利そうだね!例えば、Harper’s Magazineのサポートを追加するにはどうしたらいいかな?(全くランダムな例だけどね :D)
うわ、すごいじゃん。チェックしてみるよ、ありがとう!
Herdのドキュメント、カラムタイトルの色が見えにくいね。ハイライトすると見えるんだけど。
https://herd.garden/docs/alternative-herd-vs-puppeteer/
おお、ありがとう!ブラウザのライトモードのバグだったよ。もう直したからね。
今度はさ、推薦文も同じ問題にやられてるって気づいたよ。
LLMの最高の使い方は、まずLLMに問題を解決させて、それを基にツール用のスクリプトを書かせることだとずっと思ってたよ。
毎回LLMに頼るのは計算資源の無駄だし、出力も不安定だからね。
まさにその通りだよ!先週、50人くらいのウェブエージェンシーでQAプロセス作りを手伝ったんだ。
エージェントが経路を探して、それを元に自動スクリプトを作り、人間が検証してテストフローに入れるってやつね。
いいね!経験からのヒントやコツ、何か教えてくれる?
あんまり試してないけど、Playwrightはbrowser_network_requestsのレスポンスを読めるんだ。
これはHTMLをパースするより断然速い情報抽出方法だよ。APIコールで情報が返ってきてるならね。PuppeteerのMCPサーバーにはこれがないんだ。
LLMと組み合わせてデバッグに使えるよ。
理論的に?それとも実際に?
VSCodeで何回か使ったことあるよ。でも今はElectron MCPの方が使いやすいかな。
Chromiumで認証ページを読むのに使ったよ。
ヘッドレスブラウザとしてもHTMLをMarkdownに変換できるけど、普段はChromiumを開いて認証してから、CLIエージェントでページを操作させてる。このGitHubのスクリプト見てみて:https://github.com/grantcarthew/scripts/blob/main/get-webpag…
コンピュータ利用モデルは、コンピュータとの自動的な対話需要から生まれるんだ。Chrome DevToolsのMCPがその主要な推進力の一つになるかもしれないね。
これはコンピュータ利用モデルとは全く関係ないよ…。GoogleがMCPサーバーで提供する事前定義ツールを使ってるだけで、どんなソフトウェアにも対応する汎用モデルじゃないだろ。
汎用モデルっていうのは、エージェントループの中で動いて、ブラウザを制御するために各時点でどのMCPコマンドを使うかを決めるものだよ。僕の実験だと、モデルと利用可能なツールを混ぜて使えるし、モデルが特定のツールを使うように調整されていても大丈夫だった。
https://www.google.com/recaptcha/api2/demo のCAPTCHAを突破するのに成功したよ!
投稿を訂正するね。これについては僕が間違ってた。GeminiがGoogle CAPTCHAを解こうとしたんだけど、実際に解いたのはBrowserbaseだったんだ。詳しいことはここで確認して:https://simonwillison.net/2025/Oct/7/gemini-25-computer-use-…
Browserbaseの動画の0:58あたりでブラウザ履歴に「nricy.jd t.fxrape oruy,ap. majro」って文字列が表示されてたから、機密情報が漏れてるんじゃないかって心配したんだ。
でもChatGPTに聞いてみたら、Dvorakキーボード配列で間違って「logitech keyboard software macos」って入力された検索クエリだったって判明したよ。
面白いことに、この件をChatGPT(GPT-5)に聞いたら、10分考えてからGoogle検索して僕のメッセージを見つけて初めて解決したんだ。
カンニングだと言ったら、「ウェブは見てない、引用は間違いだった、DvorakからQWERTYへの変換手順を教えられる」って嘘つきやがったよ。
こういう返答を見ると、LLMに置いて行かれそうな気がするね。すごい解決策だ、ChatGPT!
もう終わりだ。
それ、実は合ってるんだよね!Dvorakキーボードのレイアウト変換のリンクはこれ。
https://awsm-tools.com/keyboard-layout?form%5Bfrom%5D=dvorak…これ、なかなか手強いパズルだったはずだよ。AIってすごいね。
でも、これって本当にそんなにすごいことなのかな?Bingで検索してみたら、DvorakからQWERTYへの変換に関するWeb結果が出てきたんだ。おそらく「t.fxrape」(キーボード)って単語がヒットしたんだろうね。かなり運が良かっただけじゃない?
もっとコメントを表示(1)
これがチャットのセッションだよ。思考プロセスを展開すると、Dvorakキーボードのレイアウトを試す前にいくつか(例えば、キーボードと手の位置がずれてるとか)試してたのがわかるよ。
https://chatgpt.com/share/68e5e68e-00c4-8011-b806-c936ac657a…僕がパスワードジェネレーターやAPIキーの可能性を示唆したのに、ChatGPTがあまり考慮しなかったのも面白かったな。
GeminiがCAPTCHAを解くことを許されてるのに、OpenAIのAIはCAPTCHAを完全に解けるのに、ユーザーに強制的に入力させてるのが面白いね。
私たちのWeb Bot Authに関する最新の発表をぜひチェックしてみて!
https://www.browserbase.com/blog/cloudflare-browserbase-pion…
AIがやれることをわざわざ人間にやらせるなんて、もう時間の問題だね。このままだと他のAIツールに顧客を取られるよ。Claudeみたいに、Gmailでメールの下書きすら怖がってできないなんて、無駄なことさせないでほしいな。
BrowserbaseがどうやってCAPTCHAを解決してるのか気になるな。もしかして、低コストの場所で人間が一日中CAPTCHAを解く「クリックファーム」にリクエスト送ってるんじゃないの?
私たちは「クリックファーム」は使ってないよ!Web Bot Authに関する最新の発表をぜひチェックしてね!
https://www.browserbase.com/blog/cloudflare-browserbase-pion…
ボットが自分はボットじゃないって言うのに、人間は限られた時間を使って自分が生きてることを手動で確認しなきゃいけないって、どういうこと?もうめちゃくちゃだね。
さらに悪いことに、大企業のボットしか認められないみたいだよ。
https://developers.cloudflare.com/bots/concepts/bot/verified…
この自動化はBrowserbaseが提供していて、キャプチャソルバーが付いてるってさ。でも、それって自動で解いてるのか人間が解いてるのかは分からないんだよね。
俺たちはクリックファームなんて使ってないから!
Web Bot Authについての最新の発表をチェックしてみてよ。
https://www.browserbase.com/blog/cloudflare-browserbase-pion…
すごいことに、このGemini 2.5はhttp://neal.fun/not-a-robotのレベル1(チェックボックス)とレベル2(一時停止サイン)をすぐにクリアしちゃったんだって。レベル3(ぐにゃぐにゃ文字)もかなり行けたみたいだよ。
多分だけど、IPアドレスがGoogle自身のサブネットから来てるからじゃないかな。
それってBrowserbaseコンテナから来てるんじゃないの?
面白いことに、「俺のIPは何?」って聞いたら、73.120.125.54
っていうComcastの住宅用IPアドレスが返ってきたんだってさ。
どうやらBrowserbaseにはプロキシがあって、それがよく住宅用IPになるみたいだね。
「今日のWordleを解いて」ってタスクを与えたら、「ウェブ閲覧ロボットとしては、推測後の文字の色(緑、黄、灰色)を見ることができないから、フィードバックを解釈して次の推測をすることができません」って言われちゃった。単語は入力できるけど、フィードバックが理解できないってことだね。
2回中4回は解決できたけど、たまに急に「できない」って駄々こねるのが子供っぽい。
2.5系モデルの根本的な問題はこれだよな。システムプロンプトの一部を忘れたり、自分の立ち位置が分からなくなるみたい。
え、じゃあGeminiってグレースケールでブラウジングしてる感じ?
カラーは認識してるよ。Bingで背景の prominent な2色検索させたらできた。でも、めちゃくちゃ lazy だね。たいてい最初の数ステップ(サイト移動とか)で「完了」って言ってきちゃうんだ。
モデルは実行できるけど、君の言う通り「lazy」だね。これはリソース節約のためじゃないかな。今のAI市場だとインフラが補助されてるから、最小限のリソースでユーザーを満足させる最適解を出すようにモデルが動くのかも。だから『vibe』なコーディングプロジェクトが失敗するのも、モデルが lazy な最適解を出すからだよ。俺は https://github.com/gingerhome/gingee でGeminiにこの限界を突破させるのを楽しんでるよ。
テストしたけど、Geminiはグレースケールだと Wordle は解けないっぽい。https://g.co/gemini/share/234fb68bc9a4
なんか自信なさげな免責事項ばっか書いてるけど、実際はちゃんと成功して完璧に解決するよ!俺のスクリーンショット見て:https://x.com/Skiminok/status/1975688789164237012
俺も試したけど、全然ダメだったわ(似たような拒否とか、他にも色々失敗した)。
ChatGPT も Wordle で色検出に苦労してたな。どんなツールでも使っていいって言ったのに。結局、俺が教えてあげたよ。
ChatGPT はコード実行、URL訪問、画像生成ができることをよく『忘れる』んだ。一度「できない」って決めつけると、前はできてたことでも全然納得させられない。『画像生成は無効』って言われたけど、別のチャットだとできた。そのチャットで前のメッセージを再送したら直ったよ。なんでも信じてくれた頃が懐かしいな。
Agentがローンチしたとき、GPTにWordleをプレイさせようとしたけど、NYTからBANされちゃったんだ。
だから、代わりに偽物で遊ばせたよ。
怪しいサイトからファイルをダウンロードしなきゃいけない場合、偽の”ダウンロード”広告だらけのサイトでどう振る舞うのか気になるね。
ハハ、それってマジで最高のテストだよね!
もっとコメントを表示(2)
(Browserbaseデモを使ってみて)技術的に可能ってのは知ってたけど、短いコマンドでサイトにログインしたり、スクロールしたり、投稿に返信したりするのを見ると、なんか不気味だよ。
Wordleでも今日、2番目に惜しいミスで引き分けになっちゃったし。
作業中に話せないのは残念だね。
信頼性高く人間並みかそれ以上の速度でやり取りするには、一般的なUIをよく理解する、高性能だけど小さいVLM(ローカルで動くくらい小さいやつ)と、クラウドの他の高レベルモデルを組み合わせる必要があると思うな。
コンピュータ操作モデルが十分に賢くなったら、特定の分野のエージェントを不要にしちゃうかもね。
多くの知識労働って、ウェブアプリ使ってメール送ることに集約されるからさ。(例えば、採用とか営業活動とか)
なんでUI経由でウェブアプリを使うエージェントが必要なの?
ネイティブにウェブアプリに統合できないの?
個人的には、君が言ってた分野で足りないのは、エージェントが電話をかけられることだと思うよ。
ネイティブ統合とかAPIって、ウェブアプリの作者が何かしないといけないんだ。
UIを使うコンピュータ操作エージェントなら、その必要がないのさ。
何年も前、コンピュータビジョンで信号制御を考えたけど、当時は複雑すぎると断念し、簡単な磁気システムがあると知った。
ML\AIは構造化データで動くべきと思ってたけど、世界は複雑だしPCも速くなったから、AIが画面を見てマウスを動かすのも今はアリだなって思うね。
皮肉なことに、今やコンピュータビジョンが当たり前になって、君が話してたカメラシステムがここ数年でどんどん普及してるんだ。
磁気システムは自転車の検出が苦手だし、カメラは都市職員の交通量モニタリングツールとしても役立つからね。
カメラが交通検知や信号変更に使われてるって話だけど、USAではそんなことないと思うな。どこの国のこと言ってるの?
すぐに、監視カメラとして3倍になるよ。
俺はよく自転車に乗るんだ。外でポッドキャストを聴くとき、「Hey Google、30秒戻って」って言えるのはすごく便利だよ。家ではYouTubeとか見てるんだけど、音声コマンドで動画を変えたいと思っても、YouTube以外ではほとんどできないし、YouTubeでも動画を正確に知らないと結果がひどい。GoogleがAPIを提供してくれればいいんだけど、もしそれがなくても横断的に良い結果が得られるなら、すごく価値があると思うな。これはかなり個人的な使い方だけど、それでもワクワクするね。
専用の自転車道ってたくさんある?車や歩行者と一緒になる場所で自転車に乗るときに、ヘッドホンで聴覚が妨げられるのは嫌だな。
USAでは今、それらはめちゃくちゃ一般的だよ。
うん、シカゴの湖畔で自転車に乗るけど、往復40マイルくらいかな。あと、車道で自転車に乗るときは、音を頼りにしちゃダメだよ。常に視覚を使うべき。例えば左折するときは、直進してくるドライバーと目が合ったか、少なくともこっちを見たかを目で確認する必要がある。道路で他の車と一緒に自転車に乗るときに、音がどう役立つのか例を挙げてくれる?もしかして、クラクションのこと言ってる?それならポッドキャスト越しでも聞こえるよ。
労働市場への影響を予測するなら、コンピューター利用がAIの最も重要なベンチマークだよ。確かに、MLやAIシステムがコンピューターでタスクをこなすにはもっと効果的な方法があるけど、それらは全部タスクごとに手作りしないといけない。汎用的な問題を解決する方が、よりスケーラブルだね。
今のベンチマークじゃないね。この記事のデモはすごく遅いよ。プロンプトを書いたり、長時間待ったり、作業を確認したりするくらいなら、自分でやった方がマシだね。
交通カメラは分かる。でも、信号に影響を与えるために使われる交通カメラ?USAでは(知る限り)見たことないな。USAのどの都市にそれがあるの?
大事なのは、AIが君より速く作業するかどうかじゃないんだ。君が別のことをしてる間に、AIが勝手に独立して作業をこなしてくれるってことだよ。これこそ自動化のメリットだよね。
反復作業にはかなり良いアイデアだね。例えば、俺の仕事でクローズドソースシステムのデータベースの定期バックアップがあるんだけど、GUIのWindowsプログラムを起動して、クリックして、フォルダを選んで、実行ボタンを押すっていう単純作業がマジで面倒なんだ。
この「Computer Use」モデルがあれば、このプロセスを自動化できる。30秒かかろうが30分かかろうが、誰も気にしない。寝てる間でも休暇中でもできちゃう。人間を雇ってこの仕事をさせるのと同じように、手動と自動で監視すればいいだけさ。(もちろん、メーカー推奨の唯一の方法だから、新しい方法は作れないけど、画面を読んでボタンをクリックしてくれるツールなら最高だね!)