オープンソースのAIエージェントブラウザNxtscapeが登場!
引用元:https://news.ycombinator.com/item?id=44329457
Hi HN!俺たちNithinとNikhilはNxtscape.aiの創業者(YC S24)で双子の兄弟なんだ。AI時代向けのオープンソース、エージェントブラウザ「Nxtscape」を作ってるよ。なぜ新しいブラウザが必要かって?1994年のNetscape以来初めて、AIエージェントの時代にゼロからブラウザを再構築できる気がするんだ。明日のブラウザは今と違うかもね。Cursorみたいに開発者の生産性を10倍にするツールはあるのに、みんなが一日中使うブラウザは変わってない。正直、普段使うブラウザと戦ってる感じなんだ。大きな不満じゃないけど、小さなイライラが積み重なる。70以上のタブを開いてて思考が中断したり、Amazonで日用品を再注文したり、フォームに入力したりみたいな簡単なことは、もう全部に注意払わなくていいはず。AIが全部処理できる、まさにそれを作ってるんだ。初期バージョンのデモはここ→https://dub.sh/nxtscape-demo
何が違うかって?PerplexityとかDiaみたいな競合がいるのは知ってるけど、俺たちはオープンソースでコミュニティ主導を目指してる。検索や広告会社じゃないから、プライバシー第一に集中できるんだ—Ollama連携、BYOK、広告ブロッカーとか。Braveは好きだったけど、今はクリプトや検索に広がりすぎてる気がする。俺たちは「AIであなたのためのブラウザを作る」って一点に集中してる。Arc(あれも好きだったけど開発止まった)と違って、100%オープンソースだよ。気に入らなければフォークしてくれ。
新しいブラウザを作る旅について。これを作るためにChromiumをフォークしたんだ。正直、これが唯一の方法だと感じた—Brave(最初はElectron)やMicrosoft Edgeもこれで苦労したのを見てきたからね。最初、拡張機能だけで済まそうかと思ったけど、もっと制御が必要だって分かった。CursorがVSCodeをフォークしたのと同じ理由だよ。例えば、ChromeにはAccessibility Treeっていう、スクリーンリーダーが使うDOMよりきれいな意味論的バージョンがあるんだけど、拡張機能のAPIじゃ使えない。でも、15M行のC++ Chromiumコードベースと格闘するのは大変だった。GoogleとMetaでインフラ経験あるけど、Chromiumは別物だ。Cursorのインデックスツールもこの規模じゃ全然ダメで、grepとvimをめっちゃ使えるようになった。ビルド時間もえぐい—M4 Maxでもフルビルドに3時間くらいかかるんだ。
正直言うと、まだめっちゃ初期段階だけど、GitHubに動くプロトタイプがあるよ。初期の「ローカルManus」スタイルのエージェント(簡単なWebタスクを自動化)、AIサイドバー、他の生産性機能(タブグループ化、セッション保存/再開とか)が入ってる。コメント全部楽しみにしてるよ!
ブラウザはGitHubからダウンロードできるよ: https://github.com/nxtscape/nxtscape
俺の意見だけど、今までのコメントは木を見て森を見てない感じ—ローカルLLMと連携して、見たもの全部をローカルのタイムスタンプDBに記録して、操作したものを解析・要約して、Puppeteerみたいな機能をコードやプロンプトで使えるようにして、情報を整理したり、忘れたことを思い出したり、興味あることを学んだり(全部ローカルで)、広告やスパムを事前にフィルターしたり、自律的にWebタスクをこなしたりできるブラウザには、とてつもない価値があると思うんだ。
ブックマークはもうダメだよ。25年分も溜まってるし。
ちょっと調べ物するつもりが、気を引くサイトに飛んで深すぎる沼にハマるのも減らせる。ボディガードbotにジャンクをフィルターさせて、コメントに何か意味のある返信があったら教えてって言えばいい。
もし本当にうまく行けば、個人的なアシスタント+ツアーマネージャー+ドアマン+ボディガード+家政婦+メカニック+その他、全部スイッチ一つでオンオフできるデジタル版みたいになる想像ができるよ。
ブラウザは2025年のインターネットの混沌への主要な入り口なんだから、これは悪いアイデアじゃないね!実行次第だけど、このプロジェクト(とそれに似たプロジェクト)がどうなるか、すごく楽しみだよ。
正直なフィードバック、本当にありがとう!100%同意だよ—まさにその通り!これが俺たちの描いていたビジョンなんだ。
俺たちは時間の90%以上をブラウザで過ごすのに、まだ basically dumb なウィンドウなんだよね。見たものを覚えてて、重要な記事をクリップして(EvernoteのWebクリッパー覚えてる?)、ハイライトを保存して、全部を意味論的に検索可能にするAIアシスタントが、全部ローカルで動くなんて、ゲームチェンジャーになるだろうね。
履歴、ハイライト、セッション全部がローカルのPostgresDBに入るんだ。「先月あの価格比較どうだったっけ?」とか「ブラウザ自動化に関するハイライトを見つけて」って聞けば、それがちゃんと動く。あと、集中したい時に気を散らすサイトをブロックする自制機能も内蔵されてる。
検索や記憶だけじゃなく、ブラウザが本当に仕事を手伝ってくれる。「Chromiumの研究に関するタブはこの15個」ってAIが賢くタブをグループ化したり、「このサイト全部で2TBハードドライブの価格を比較して」って面倒な作業を自動化したり、「Discordサーバーの新しい投稿全部を要約して」とか—全部ローカルで処理される。ブラウザはインターネットの混沌を管理するのを助けてくれるべきで、それに上乗せするべきじゃないんだ。
どんな特定のワークフローが辛いか、ぜひ聞かせてほしいな!
ずっと、30秒以上見た長いWebページの全文をアーカイブして、フルテキスト検索できるようにするブラウザ拡張機能のアイデアを考えてたんだ。
これは、それだけど、もっといいね。
うわー、これまさに俺が欲しいやつだ!でも、スマホでも動いて(ほとんどスマホで読むから)、複数のPC(常に4〜6台使ってる)からデータを持ってこれるサーバーコンポーネント付きで欲しいな。
これにハックできないかな。
これって基本的にMicrosoftがRecallでやろうとしたことじゃん。あれは酷評されたけど、正直、最近のAIブームの中で唯一ワクワクした機能なんだ。だって、本当に生活を良くしそうだったから。でも、もう少し考えてみたら、本当に欲しいのはAIじゃなくて、詳細なローカル履歴と検索機能だって気づいた。
俺のPCは、俺がそこでやったこと全部を記憶すべきだ。訪れたウェブサイト全部、ページをどこまでスクロールしたか、入力して削除した思考全部… 全部完全記憶してほしい!時間を巻き戻して、何が起こったか正確に追跡できるようにすべきなんだ、コンピュータなんだから。昨日あったことの曖昧な記憶は俺の頭の中にある。コンピュータに覚えてもらうのは、俺より上手に覚えてもらうためだろ。
そして、検索は決定的であってほしい。正確なタイムスタンプやブーリアン演算子で検索したい。曖昧な一致や推薦、自然言語処理レイヤーも役立つけど、Luceneなんかは20年以上前にローカルデータセットで十分やってた。共通のコーパスがあるのは素晴らしいけど、コーパスからのトークン化された散文なんてどうでもいい。俺が自分のPCでやったことに関心があるんだ!
俺の視点だと、LLMはパーソナル検索の面であまり価値をもたらさない。俺の理解では、そのエンコーディングの性質上、求めてるデータ自体が従来の方法で保存・インデックスされてないと、それを取り戻すのは不可能だ。もしそうなら、層をスキップして元のデータをクエリすればよかっただけだろ。
今のLLMをどこにでも注入するトレンドは、研究者が「全て」をパフォーマンス良くインデックスする方法をまだ見つけてないから、人々にコンピュータが全部知ってるかのような幻想を与える一時的なごまかしだと思うんだ。でも、パーソナル検索のユースケースなら、コンピュータは「全て」を知る必要はない。画面に見えてたテキストと、ちょっとしたメタデータ(時間、カーソル位置、クリップボード、URLとか)を知ってればいい。もし実際のテキストをスナップショットして従来のインデックスに入れるのがディスク容量取りすぎで、今でもそれをインデックスするのにLLMが必要だとしたら、それはまあいいとしよう。でも次は?だって、昨日 kinda sorta やってたことについて曖昧な会話ができるだけなんて、全然ダメだろ。完全記憶こそがそれだ。
これが全部どう発展していくか、俺もすごく興味あるよ。
> 訪れた全ウェブサイトを記憶すべき
他のブラウザは知らんけど、Safariはこれやってるよ。「2年前に見たあのサイト何だっけ?」って時に、履歴を開いて検索すれば出てくる。2023年1月17日のヨダが俺のボールを食べたレビューとかね。
プライバシー問題全体があるよね。ソフトウェア会社はできる限りデータを吸い出すし、アメリカ政府はそれ全部にアクセスできるって知ってる。もしRecallが良い機能だとしたら、ICEが検索履歴に基づいて個人を収容所に送るのも良いことになっちゃう。だって、Recallはそうするだろうから。
まあ、Microsoftがやりたかったことは良いアイデアだったと思うけど、実際に出したものは酷かったし、実装がお粗末でデータ漏洩を招きやすかったのは同意だね。データすらちゃんと保護してなかったし笑
コンピューターが全部覚えるとか怖すぎ!セッションデータ消しまくりで、最近使ったリストも全部消してるタイプなんだ。便利なのは分かるけど、過去に信頼を裏切られた企業を信じろって?無理無理。個人情報なんて企業にとって超金鉱じゃん。プライバシー侵害の歴史がある巨大企業を信頼するなんて考えられない。オープンソースでも慎重に選ぶし、使うなら自分でコード見たか、隔離環境で使うか、自分で書くか。そういう機能は別にいらないや。
このビジョン、ヤバいね!集中切れたら教えてくれたり、自分が何してたか分析して教えてくれるとか、自己学習に超役立つじゃん。自己反省ってマジ大事だし。
ヤバ、これの森は「新しいLLMベースのネイティブアドブロッカー」だってさ…この森、デカすぎて考えるだけで頭痛いわ。(ごめん皮肉です)
言ってることは最高だけど、前半はよくある監視型ディストピアだよね。もっとユニークなのを期待してたのに、普通のになっちゃったか。始まりは「ブックマークとかもうダメだ」だってさ。ちぇっ。
これ置いとくわ:https://youtu.be/kGYwdVt3rhI
バカな質問かもだけど、agentic browserって何?みんな知ってる前提みたいだけど。これって一般的な用語?聞いたことないんだけど。文脈的には「AI機能くっつけたWebブラウザ」って感じなのかな。
質問ありがとう!全然バカな質問じゃないよ!最初の方で説明しとくべきだったね。「agentic browser」ってのは、WebナビゲーションタスクをAIエージェントが代わりにやってくれるブラウザって意味だよ。自分でAmazonで並べ替えたり、フォーム入力したりする代わりに、AIがサイト動かしてやってくれるんだ。
まあ、「rsyncあるのにDropbox使うの?」って言うつもりじゃないけど、Playwright MCPをClaude Desktopとかに入れる代わりに、なんでこれ使うの?Chromiumの中身にアクセスできるって、Chrome Devtools Protocol経由でつなぐよりなんか超ヤバい力くれるの?
そう、最終的にはただのMCPコネクタじゃなくて、スタック全体を握る方が価値あると思ってるよ。例えば小さいLLM組み込んだり、ブラウザにMCPストア作ったり、もっとAIに優しいDOM作ったりとかね。今でも、Chrome拡張機能APIじゃ公開されてない、LLMにとってより良いDOM表現であるChromeのアクセシビリティツリー使ってるし。
もっとAIに優しいDOM
アクセシビリティツリーとかそのセマンティクスを考えたらいいかもね。普通のdivとかはだいたい消されて、操作できるオブジェクトとか構造のヒントだけが残るからさ。
MCPサーバー経由で出せるアクセシビリティ系のライブラリ作ろうとしてるんだけど、MacとかWindowsのAPIが訳わかんなくて苦戦中…。Playwrightとかスクリーンショット方式より、汎用エージェントに使いやすいポテンシャルあると思うんだけどな。遅延なくコンピューター使うのも解決したいことの一つ。軽度の手根管症候群だから、Talon voiceとかMac Dictationみたいなのは学びたくなくて、遅延なく何でもできるエージェントが欲しいんだ。
いいね、これGitHubにあるの?
まだだよ、プロトタイプいくつか作ったけど全然ダメでさ。リポジトリ公開できるほど進んでないんだ。今週末にghに何か出してみるつもりだよ。
> 考えてたアイデアのいくつか: 小さいLLMを組み込むこと。そういえばChromeには組み込みのLLMがあるんだって: https://developer.chrome.com/docs/ai/built-in
「目も手も脳みそもついてるのに、なんでこれ使うの?」って疑問に思うんだけど。
素手があるのにツール使う必要ある?みたいな話は置いといて…例えば100個のサイトから情報コピペしてスプレッドシートに入れる必要があるときとか、そういう場合から考えてみたら?
そろばん使えるのに、なんで電卓使わなきゃいけないの?
指と足の指使えるのに、なんでそろばん使うの?
これってつまり、せっかちな人向け?「ワークフロー」のために提示された使い方をどうしても必要だと思う人とか、「認知負荷」みたいな言葉使っちゃう人とか、要はちょっと…怠け者な人向けなのかな、って思う。
…なんでそういう怠け者って、自分の怠惰さを正当化するのにそんなに頑張ってかっこいい言葉考え出すんだろうね?
それ、すごくいい質問だね。たぶん怠け者って知性がないと思われがちだから?AIとかソフトウェアみたいな技術って、知性を高めるためのものだしね。そういうかっこいい言葉使うと、知的で生産的に見える効果があるんだよ。そういう言葉を使うと、なんかちゃんとやってる気になれるんだ。だからこれで怠けてるなんて思わないんじゃないかな。
もっとコメントを表示(1)
エージェントって、calculate()みたいなツールを与えられたLLMの応答のことだよ。
やりたいことを達成するために必要な作業が出てきたら、そのツールを実行する。
それが簡単なエージェントの仕組みだね。
もっと複雑になると、他のツールも使うかも。
例えば、LLMへの入力で「ユーザーエージェントをこんな文字列に設定して」って指示が出て、set_user_agent(”Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36”);
ってツールを実行するとか。
ページの中の物をクリックしたり、ページ読み込み時にカスタムJavaScriptを埋め込んだりするツールもあるかもね。
「Agentic」って言葉、たった1ヶ月前くらいに初めて聞いたんだけど、2日の間に3、4回も聞くようになったんだ。
会社の会議でも、みんな知ってるみたいに使われててびっくりしたよ。
簡単に言うとAIが自分で判断すること、って感じかな。
Agenticブラウザ、クライアント側で自動化できるのはめっちゃ強力でクールなアイデアだよね。
でも、セキュリティ的にはマジでヤバいことになる可能性があると思う。
ブラウザって色んな機密情報にログインしてるし、インターネットからの信頼できない入力に晒されるわけじゃん。
プロンプトインジェクションで人生ひっくり返る可能性もゼロじゃない。
コンセプトは好きだけど、サプライチェーン全体がPCI/SOC2/ISO 27001みたいな認証取って、第三者機関が血判押すくらい安全じゃないと、絶対触りたくないな。
この懸念、本当に重要だよね、指摘ありがとう。君の言う通り、警戒するのは当然だよ。
だから僕たちはローカルファースト&オープンソースにしてるんだ。
クラウドエージェント(Manus.imとか)だと、資格情報をブラックボックスに預けることになる。
ローカルエージェントなら、自分でコントロールできるんだ。
- 使う時に初めてAgentが動く
- 何やってるかリアルタイムで見れるし、止められる
- 別々のChromeユーザープロファイルでタスクを実行できる
- 何より、コードがオープンソースだから、何が起きてるか自分で監査できる
Agentが何が起きてるか監視して、まずいことは理由を説明するダイアログを出したり、必要性を問い直したり、メールやSMSで確認させたり、追加のパスワードを求めたり、破壊的なタスクを今すぐ実行するのを断ったり(36時間後にまた聞いて、とか)する機能があるといいんじゃないかな。
で、血判とか認証とかが揃ったら、それを追加のレイヤーとして監視し続けるんだ。
これ、LLMが書いたっぽいな。
どっちにしても、前の人が言ってた「悪意のあるサイトがいつでもプロンプトインジェクションできて、ユーザーが見て止める前に何かを勝手にやっちゃう」って点には答えてないよ。
AIブラウザの最大の利点って、自動運転みたいに任せっきりにして、注意をそらせることじゃん。
もしハッキングされないか常にビクビクしながら見てなきゃいけないなら、良い製品じゃないと思うな。
あー、なるほどね、UXがまだ課題なのは確かだ。
タスクに必要なごく一部のサイトだけOAuthセッションを持った影のブラウザを開くとかはどうだろう?
それも助けにはなるだろうけど、どのサイトが必要かってAgentが決めるんだよね?
それだとプロンプトインジェクションで、ユーザーが意図しない別のサイトを開くようにLLMを誘導できちゃうから、根本的な解決にはなってないんじゃない?
まだ「生産性10倍」とか言ってるの?
そろそろやめようよ。
GitHubの最初のコミットが4月28日ってことは、10倍の生産性でやってるならもう2年半くらい開発してる計算になるのに、まだWaiting Listがあるんだね。
AGPLv3ライセンスなのは評価するよ、素晴らしい。
フィードバックありがとう。
気持ちはわかるよ。
でもCursorなんかは、特に簡単な作業に関しては、本当に生産性が劇的に上がったのは確かだよ。
https://github.com/nanobrowser/nanobrowserみたいなのが良くない?あれはwebdriverとか出さずにちゃんと作られてて、JSも動くしLLMとも話せる。エージェント機能も全部あるのに、なんで頑丈な拡張機能じゃなくて新しいブラウザが必要なの?
なんでChromeの新しい拡張機能じゃなくて、Chrome DevTools Protocol (https://chromedevtools.github.io/devtools-protocol/)でChromeを動かすMCPじゃダメなの?例えばこういうのあるよ: https://github.com/AgentDeskAI/browser-tools-mcp
CDPはテストには良いけど、ボット検知の一番簡単なチェックがCDP(webdriver)かどうか。これって結局イタチごっこなんだよね。キャプチャソルバーとか色々出るけど、すぐに対策されちゃうから数週間しかもたないことが多いよ。
これと同じイタチごっこは、この新しいブラウザ全体にも当てはまるはずだよ。
確かにそうなんだけど、webdriverフラグって今は基本中の基本のボットチェックだから、それよりははるかにマシなレベルだよ。
君はwindow.navigator.webdriverと勘違いしてるかも。それはWebDriverの話でCDPとは別。CDPはフォーム入力速度みたいなヒューリスティクスで検知されることが多いから、AIエージェントもすぐ引っかかるんじゃないかな。(もしCDPに検知される印があっても、それを消す方が新しいブラウザ作るよりずっと楽でしょ。)
CDPで自動化するにはnavigator.webdriver === trueが必要なんじゃないの?もしかして私の理解が古い?これって普通、バレバレのサインだけど。
パッチを当ててないwebdriverは検知されやすいけど、CDPはタイミングとかのヒューリスティクスでしか検知できないって書いてあるのを読んだことあるよ。
Cloudflare (https://www.cloudflare.com/en-in/application-services/produc… )とか(https://blog.cloudflare.com/ai-labyrinth/)みたいに、防御側と攻撃側で巨額のお金が動いてる状況だと、ボット認定されるのは避けたいよね。静的サイトみたいなSEOスロップをスクレイピングするだけなら良いけど、それ以上だとすぐにダメになると思う。browerbaseとかcrawl4aiとかのレポジトリでもボット検知のことで結構問題起きてるよ。
ChromiumやElectronとかがLLMアプリのベースで人気だけど、どれ使っても結局「一つのローカルLLMアプリ」になる運命って感じ。開発の道筋はだいたい決まってるから、あとは実行とマーケティング次第だね。むしろWeb自体がクソだからブラウザの改善が必要なんだよ。LLMが登場してWebコンテンツの作り方が変わるはずなのにまだそうなってなくて、既存のWebは将来レガシーになるかもね。
他の人が言ってるように、こういうエージェント機能はChrome Extensionで十分できるよ。実際、僕らはrtrvr.aiってExtensionを作って、Open AIのOperatorよりWeb Agentの性能が良いんだ(https://www.rtrvr.ai/blog/web-bench-results)。Accessibility Treeが必要って言い訳はやめて、DOMの仕組みを理解してエージェントを作るべきだよ。あと、ブラウザ作るのってマジでセキュリティリスク高いから、セキュリティ専任チームがないとヤバいよ。
僕の使い方としては、水のデータがあるWebサイトからCSVとかのファイルを抽出したいんだよね。例えば南オーストラリアの貯水池データ[1]とか。フロントエンド経験がないから、データ抽出するのにめっちゃ苦労したんだ。もしエージェントでこれが自動化できるなら、絶対試してみたいね!
[1] https://data.sa.gov.au/data/dataset/reservoir-volumes-2018
これめっちゃクールじゃん!コンセプトにワクワクするな。HNでのローンチおめでとう!ちょっと困ったフィードバックね。タブをトピック別にまとめるのはうまくいったんだけど、解除しようとしたらChatモードとAgentモードを行ったり来たりさせられてループしちゃった。もしかして解除するAPIがないのかな?あと「元に戻す」Undoボタンがあるといいな。chrome://extensionsみたいな内部ページで使ってたら、なぜか急にgoogle.comに飛ばされたのも変だったよ。Productivityモードにはタブグループ作成ツールしかないみたい。
フィードバックどうもありがとう!困らせちゃってごめんね、まだ初期のベータ版なんだ…。AgentモードとChatモードでツールが分かれてるのが原因かも。プロンプトを改善するよ。タブグループ解除APIは今Chromeにないんだけど、追加できないか検討中。Undoも何人かから要望があったね。Cursorの「restore checkpoint」みたいのがいいかな。そうそう、生産性機能って普段の作業でどれくらい重要?具体的な例があれば教えて!
生産性機能なんて別に重要じゃないよ!あのタブグループ解除のバグは正直優先度低いんだ。でもChatとAgentモードがループしちゃう問題は、どっちのエージェントも対応できない時に起こるかもしれないから、そっちの方が一般的で重要かもね。本当は「タブグループは解除できません」って言ってくれるのが一番良かったな。Undoも、開発が大変そうなら無理しなくていいよ。まだNxtscapeで「これ役立つ!」ってことはできてないけど、これからも色々試してみるね。
「nxtscape」って名前、なんか昔のSCSIを思い出すな〜。「GPT」は名前が超うまかったよね。やっぱ一息でパッと言える名前がいいんじゃない?
製品自体は素晴らしいと思うけど。
ハハ、ありがとう。今日のフィードバック見てると、名前とかブランディングにもうちょっと時間かけた方が良さそうだね。考えてみるよ!
昔Netscape使ってた者としては、この名前結構好きなんだけどな。でも、大多数の人には響かないだろうね。SVっぽすぎる「Nxtscape」より、「Nextscape」の方がまだいいかも。揚げ足取りみたいでごめんね。
これ、たぶん商標権の侵害だろ。NxtscapeってNetscapeと紛らわしすぎじゃん。
名前がすごく賢い感じがしてクリックしちゃった!
法律家じゃないから侵害かどうかは分からないけど、文字を一つ変えただけでこんなクールな名前になるとか最高じゃん。名前考えた人に拍手だわ。
もっとコメントを表示(2)
Netscapeがずっと待ち望んでた絶好の機会だな。
AIワークフローはチャット形式ダメ。チャットしたい奴いない(Brave最悪)。チャットUIはエージェントがバカな時の代替手段。ChatGPTは検索代わりだからいいけど、生産性ツールは違う。自由形式ダメ。
直すアイデアあるけど、ChromeにLLM載せただけの手抜き。YCがこんなクソに金出すとか信じられん。クソだ。創造性ゼロ。機能レベル。「プロダクトじゃなくて機能ね」すら甘い。
2025年のChatGPTアイデアみたい。誰が大変かって?(ヒント:Githubにいない)
代替案として何が考えられるの?
これこそ人が求めてるものだと思うんだけど。素早く指示出して、ウェブページやウェブアプリ横断でタスク実行してくれるってさ。
「直すアイデアがいっぱいある」って言ってたけど、もっと良いビジョンを教えてくれない?
うん、「レシピ」使うんだよ。過去の行動とか状況で「アクションタイプ」決める感じ。
店見てたら、牛乳切れ知ってるから買うの勧めたり、全セール品リスト出したり、妹が探してたプランター見つけて教えてあげたり。
(チャットもできるけどね)。
レシピ作るの難しいし汎用化も大変(RAG必要そう)だけど、これこそAIエージェントの未来だと思うんだ。チャットボックスだけじゃなく。
CursorとかClaude Codeとか使ったことある?
俺はコンピューターとチャットしてプログラミングやらせたいんだよ、自分で書くより。
何億もの人がコンピューターとチャットしたいと思ってるよ。少なくともね。
生産性向上って文脈では全然違うだろ(ここでの話はこれ)。
みんな求めてるのはただ仕事を片付けること。
コンピューターとチャットすることでね。
ペーパーワークしてた頃の人たちも「コンピューターを使いたくない」って言ってたけど、「仕事を片付けたい」って思ってて、結局コンピューター使うことがその方法になったんだよ。
これ、間違いなく勝者総取りの市場だね。挑戦するのはマジすごいけど、IMOブラウザ開発は2、3人のチームにはデカすぎると思うな。それに、GoogleもIOで似たようなのもう見せてるし。IMO、GoogleがChromeでやる前に市場シェア掴むほど速くは動けないだろうし、そもそもDiaと競争できるかも怪しい。Browser-useだって似たことできるし、あそこは既に広まってる。
頑張ってほしいけど、俺なら特定の人がマジで必要としてるものから始めるね。 ambitiousな技術系の創業者がChrome倒そうとして時間と労力いっぱい無駄にしてきたの見すぎたわ。(Chromeのフォークから始めた人もいっぱいいる)。でも誰も成功してないんだよ。エネルギーは有限だからね。
正直なフィードバックありがとう!競争が多いのは確かに分かってるよ。
でも、オープンソースでコミュニティ主導、プライバシー第一のAIブラウザには隙間があると思うんだ。(Braveみたいな?)
仮想通貨機能とか広告置き換え機能はマジでやめてほしいな。収益必要ってのは分かるけど、今のブラウザ界隈マジで終わってるじゃん。Firefoxですらユーザーの信頼失ってるし。
市場の隙間には理由があることもたまにあるんだぜ、ってのを思い出してくれ。AIのことは置いといてさ、オープンソースでコミュニティ主導、プライバシー第一のブラウザで、ちゃんと稼げたのがどれだけある?
Braveはいい例だけど、ビジネスモデルは実際複雑で、色んな細かいのが混ざってる。それに、LLMのユニットコストはないでしょ(もしローカルじゃないなら、いつかその負担が来るだろうと俺は見てる)。
良い指摘だね。今のところの考えは、良いオープンソース製品作って、それからエンタープライズ版を有料で提供するって感じだよ。
Island browserとかChrome enterpriseとか見ると、VPNとかDLP(データ損失防止)付きのブラウザのエンタープライズ版のニーズはある程度証明されてるみたいだし。
> 正直、毎日使ってるブラウザと常に戦ってる気がするんだよね。大きなことじゃなくて、小さいイライラが続く感じ。3つのプロジェクトで70個以上のタブ開いてると、マジで思考が飛ぶんだ。Amazonで潮干狩りグッズ再注文とか、フォーム入力とか、もう全部自分でやらなくてもいいじゃん。AIに全部やらせられるし、まさにそれ作ってるんだ。
ってことは、AIエージェントが「何を注意すべきか」決めろってこと? 俺じゃなくて?
何がヤバいか分かってる?
へぇ、なんか新しい考え方だね。
これ、Web自動化タスクに使ったら、レート制限されたりIPバンされたりする?他のサイトから見て、ボット扱いになんの?
ちなみに、ビルド時間速くしたいならRE APIとかGoma使うといいよ。15~30分で終わるようになるし、フルビルド後もキャッシュでさらに速くなるって。
https://chromium.googlesource.com/chromium/src/+/main/docs/l…
Gemini 2.5はChromiumのコードのことよく知ってるから、トレーニングされてるのかも。これも役立つかもね。
試してないけど、たぶんclangd言語サーバーよりMCPサーバー使うのがコンテキスト問題の解決策になるかも?
https://chromium.googlesource.com/chromium/src/+/master/docs/…
robots.txtは守るの?
これはユーザーエージェントだよ。robots.txtを守られたら困るね。robots.txtはクローラー向けで、ユーザーの直接リクエストで動くエージェントには関係ないんだ。サイト運営者がどんなユーザーエージェントを使うかに口出しすべきじゃない。ターミナルだろうが、普通のブラウザだろうが、AIブラウザだろうが、誰が気にする?ウェブの強みは色んなツールでアクセスできることで、AIツールが嫌いだからってこれを犠牲にしちゃダメだよ。その先にはPlay Integrity APIみたいなのが氷山の一角で、ひどいことになるだけだ。詳細はここ:
https://www.robotstxt.org/faq/what.html
いや、今日のところはそうじゃないね。でも、もしそのエージェントがスクレイピングじゃなくて、ほぼ“人間的な”使い方をしてるだけなら、問題にならないのかな?
robots.txt.org [0]はロボットの定義がかなり具体的だよ。引用すると、> ロボットはドキュメントを取得し、参照されている全てのドキュメントを再帰的に取得することで、ウェブのハイパーテキスト構造を自動的に巡回するプログラムだ。これは君たちがやってることとは全然違うから、君のはロボットじゃないね。ユーザーエージェントなんだから、robots.txtに注意する必要はないよ。もし君たちのやってることがロボットトラフィックなら、投機的ローディングとか、リーダーモードとか、ターミナルブラウザとかもロボットになるってこと?ウェブは色んなユーザーエージェントが違う振る舞いをするように設計されてるんだ。サーバーをダウンさせないためにレート制限は考慮すべきだけど、robots.txtは君たち向けじゃないし、そう扱い始めたら色々ダメになるよ。
[0] https://www.robotstxt.org/faq/what.html
どういう意味?このAIは複数のリンクを自動でスクレイピングできないの?例えば、“このページにリンクされてる全てのレシピを要約して”みたいなのは?それができるなら、間違いなくスクレイピングの定義に当てはまるよね。
彼が言いたいのは、単にクローリングやスクレイピングをしてるんじゃなくて、もっとターゲットを絞ったやり方だってことだと思うよ。ユーザーがそれぞれのサイトに手動で行くのと同じことを、もっと効率的にやる感じかな。
理想的には、ユーザーが本来見ていただろう内容だけを読むってことだろうね。それがそうなのか、保証されてるのか気になるな。新しい標準とか、サイトごとにユーザーが設定できるパーミッションとかがあれば、もっと良くなるかもしれないね。これがどうなるか、興味あるよ。
なぜ?僕のユーザーエージェントは、僕が楽になるように、そして本来アクセスしないだろうコンテンツにアクセスできるように設定されてるんだよ。ダークモードで夜遅く読めるし、リーダーモードでごちゃごちゃしたコンテンツを整理して読める。小さい文字はズームで大きくできる。これらの機能は、そうでなければアクセスしない内容を見れるようにするからって、robots.txtを尊重しなきゃいけないの?
いや、ダークモードなんかは広告を避けられないけど*、スクレイピングして要約するのは収益化を完全にバイパスするから全く違うよ。これはサイトの存続に関わる問題なんだ。リーダーモードも一時的な広告ブロックにはなるけど、あまり普及してないから大きな脅威じゃない。でもAIは、人間が見るのを完全にバイパスする多くのユースケースがあるからね。*他のリンクや情報バナーもね。
特定のサイトで着地したら即オンになるリーダーモードは、robots.txtのロボットに入るの?
https://addons.mozilla.org/en-US/firefox/addon/automatic-rea…
あと確認だけど、もしAd Blocker使ってたら、ユーザーエージェントはロボットになるからrobots.txt守るべきだって考えてるの?JSや画像をレンダリングしないターミナルブラウザで見ててもそう?
Ad Blocker使ってるなら、それは意図的にサイトの挙動を壊してるんだから(自分勝手な理由で)、robots.txtとかサイト側の期待に沿うかの議論自体が無意味だよ。自動リーダーモードなんかはまだ普及してないから問題になってないんだ。でもAIはもっと大きなユーザーベースを持つかもだから、懸念になる可能性があって、robots.txtや他のアンチボット機能が現実的な意味を持ってくるかもしれないね。