Perplexityがひそかに規約違反か隠しクローラーでウェブサイトの指示を回避し情報収集！

Perplexityがひそかに規約違反か隠しクローラーでウェブサイトの指示を回避し情報収集！

引用元：https://news.ycombinator.com/item?id=44785636

fxtentacle 2025/08/04 14:12:12

この問題、すごく難しいよね。1. 人間がウェブサイトをリクエストするなら、内容が表示されるべきって誰もが同意する。2. アドブロッカーみたいに、コンピュータのソフトで表示前に内容を変えるのは俺の選択で、サイトに知られるべきじゃないってほとんどのユーザーが思ってる。3. 広告やJavaScript、ポップアップで内容が使い物にならない時、LLMを使って要約してもらうのは、俺のFirefoxブラウザが代わりにアクセスするのと、法的に何が違うんだ？

itsdesmond 2025/08/04 15:08:42

InstacartやPostmatesのショッパーを歓迎しない店があるよね。店で買い物はできるし、スマホで値段チェックするのもOKだけど、第三者サービスが商品の在庫をインデックスしたり、オンライン注文品をピックアップしたりするのを許さない店もある。理由は様々で、品質管理を重視したり、スタッフが顧客と直接関係を築きたいと思ったり。無関係なビジネスが自分の実店舗内で活動することを許可しないのは、かなり合理的だと思うんだ。これはデジタルサービスにも当てはまるね。

rjbwork 2025/08/04 15:21:02

でも、個人ショッパーを送れば、誰も気づかないんじゃない？

Polizeiposaune 2025/08/04 15:45:01

この例を極端にすると、もし1万人の個人ショッパーが同時に同じ店に来て、ただ価格をチェックするだけだったら、店は正当に迷惑がるだろうね。だって、ちゃんとしたお客さんが入れなくなって売上が立たないから。

hombre_fatal 2025/08/04 16:05:16

君のコメントと上のコメントは違うケースを示してるね。誰かの明確な代理としてエージェントがリクエストするのは、ほとんどの人が合理的って同意するだろう。「Hacker Newsの最新記事は何？」って、俺がやるのと同じリクエストをエージェントがしてるだけだもんね。でも、Perplexityがするような不特定のクロールは擁護しにくい。「ホッキョクグマはいつも白いの？」みたいに、俺が必ずしもやらないリクエストで4～6ソースをクロールするのは、増幅攻撃にも見える。でも元の記事の例は最初のケースだよ。

bayindirh 2025/08/04 16:11:18

いくつかサイトを持ってる人間として、AIクローラーがページを持っていくのを見てて疑問なんだけど、俺がボットスクレイピングを明確に禁止したページでも、これらの会社がコピーして次の学習サイクルに使うのを止めるものって何？指切りげんまん？倫理？法律？技術的な限界？Leeroy Jenkins？

yojo 2025/08/04 14:28:06

広告は問題あるビジネスモデルだけど、AI企業がコンテンツクリエイターとユーザーを切り離すのは、俺が望むウェブじゃない。例えば、有料ニュースレターのクリエイターがいて、頑張って作った内容の一部を公開して、サイトに誘い、購読につなげてるって想像してみて。彼らはコンテンツを見せることと、そこからのアップセルがセットだと思って公開してるんだ。AIスクレイパーがそれを消費して、肝心な行動喚起を消しちゃう。AIクローラーが勝つと、俺たちは皆損するよ。

bradleyjg 2025/08/04 15:28:58

あらゆる社会規範を破ることは可能だよね。そういうことを称賛する社会は、高い信頼社会とは正反対で、かなり不快な場所だよ。

AuthAuth 2025/08/04 23:35:25

Hacker Newsは、サイトを訪れて、メインページを見て、スレッドに入って議論に参加してほしいと思ってる。AIに「今のHacker Newsの記事は何？」って聞くと、AIがフロントページとすべてのスレッドを取ってきて、要約して返すんだ。情報がすでに要約されちゃってるから、議論に参加する可能性が低くなるよね。

jasonjmcghee 2025/08/04 14:43:24

スケールの問題だと思うんだ。もし個人用のリサーチボットが、人間よりずっと速くたくさんのページを見て答えを探し回るようになったら、どこが転換点になるんだろう？個人的なWebクロールはOKなのかな？もしそれがもっと賢くなって、あなたが聞くことを予測して定期的に情報を集めるようになったら？それとも、多くのユーザーのために全体的/大量なクロールをするようになったら問題になるのかな？

npc_anon 2025/08/05 09:43:09

あなたの論理の問題は、全部「私」から始まってることだよ。関わるのはあなただけじゃない。あなた、仲介者（検索エンジンやLLM）、そしてウェブサイトの持ち主がいるんだ。ウェブサイトの持ち主（またはそのユーザー）が、基本的に全ての仕事と価値を提供してる。彼らがコンテンツを作って、コストやリスクも負担してるんだ。LLM以前の「取引」は、少なくともいくらかのトラフィックがサイトに送られて、リーチや収益化の助けになってた。これも検索エンジンが全ての主導権を握る非対称な取引だったけど、何もないよりはマシだったんだ。ウェブサイトに全くトラフィックを送らないLLMモデルだと、そもそもウェブサイトを持つインセンティブがゼロになるか、ログイン必須にするように促されちゃう。ユーザーが、ごちゃごちゃしたWebを手動で探すより、スッキリした直接の答えを好むのはわかるけど、Webがこれほどイライラする理由は、訪問者が何もお金を払いたがらないからだよ。

sublinear 2025/08/04 15:52:15

残念だね。もっと大きな「お店」を作るか、この情報を公開すれば、1万人の「個人的な買い物客」は要らないじゃん。Webサイトを持つことの本来の目的ってそうじゃなかったの？誰がこのシンプルなアイデアを今のクソみたいなウェブサイトに変えちゃったのさ？

recursive 2025/08/04 15:54:43

変な考え方だね。お店があなたの「個人的な配送業者」に何か借りてるわけじゃないでしょ。

danbruc 2025/08/05 10:12:30

「Webがこれほどイライラする理由は、訪問者が何も支払いたがらないから」って？
彼らはもう既に支払ってるんだよ。それが今のめちゃくちゃな支払い方になってるだけなんだ。商品を買う時、価格の一部は広告予算になってて、それが広告を表示するウェブサイトに分配されてるんだ。だから広告をブロックすることにも何も問題はないよ。広告は既に支払われてるんだから、あなたが見るか見ないかは関係ない。みんなが全ての広告をブロックしない限り、広告予算はどこかしらに届くんだ。分配が偏るだけだね。もちろん、広告ブロッカーを使うユーザーが多いWebサイトにとっては問題になるかもしれないけどね。コンテンツに直接お金を払うとなると、ほんの数サイトしか払えなくなっちゃう。もし100種類のWebサイトで記事を1つずつ読むとしたら、全ての時間を1つのWebサイトに使うかのような値段で設定されてる100個のサブスクリプションに現実的に加入できるわけないよね。誰もまだ、実際に消費したコンテンツにだけ料金を請求して、クリックするたびに数セントやそれ以下の金額を意識して支払う必要がない、そしてプライバシー悪夢にならないWeb全体の支払い方法を作ることに成功してないんだ。それに、もしコンテンツに直接お金を払ったら、二重に払うことになるんだよ。サブスクリプション代を払うし、買うもの全部で広告予算にもお金を払うことになるんだからね。

fxtentacle 2025/08/04 14:54:31

Internet ArchiveとArchive Teamを制度化して、明確に合法化すべきなんじゃないかな。そしたら、Internet Archiveから特定のドメインの完全でそこそこ最新のクロールデータをダウンロードできるし、そのWebサイトに追加のコストは発生しない。でももちろん、ほとんどのウェブサイト運営者はそれを嫌がるだろうね。だって、彼らはコンテンツにアクセスしてほしいんじゃなくて、広告を見せてお金を稼ぎたいんだから。だから彼らにとってInternet Archiveが自分のWebサイトをクロールするのは「盗み」に近いんだ。それは広告の表示回数を奪うことになるからね。

Workaccount2 2025/08/04 14:20:12

＞2.もし私が人間として、自分のコンピューター上のソフトウェアに、例えば広告ブロッカーをユーザーエージェントにインストールすることで、コンテンツを表示する前に修正するように要求するなら、それは私の選択だし、Webサイトに通知されるべきじゃない。ほとんどのユーザーは同意するけど、一部のWebサイトはあなたがローカルで実行しているソフトウェアを修正するようにうるさく言ってくるよね。
私がWebサイトとそのコンテンツに時間と労力を費やしたのに、全てのコストを負担しているにもかかわらず、何の報酬も期待すべきじゃないってこと？
インターネットは全て有料の壁の裏に隠すべきで、広告なしで提供されているコンテンツ以外はダメだって？
これにみんなが同意すると思う？
「誰も何も払いたくないのに、どうやってインターネットは成り立つのか？」って問題を考える必要があると思うよ。

the_real_cher 2025/08/04 16:08:29

同じように、「個人的な買い物客」もお店に何も借りてないでしょ。

shortformblog 2025/08/05 11:30:48

広告をブロックしても、直接広告取引をしてない限り、パブリッシャーは一銭も払われないよ。広告テクノロジーのせいで、そういう取引は30年間ほとんどないんだ。新聞みたいに、記事をオンラインにする前に広告費が全額支払われるわけじゃない。そんなやり方はもうずっと前に終わってるんだ。あなたが広告にアクセスしない理由って、あのドラマ『Arrested Development』のシーンを思い出すね。レジから取ったお金を隠すために、バナナを捨てちゃうやつ。あれは取引を隠すどころか、問題を悪化させてるんだよ。もしパブリッシャーが広告を流す前に支払いを受けてたら、出版ビジネスはもっとずっと強かったはずなのにね。

bee_rider 2025/08/04 14:49:04

AIクローラーを止めるのは無理ゲーだよ。究極的にはカメラで画面撮ってUSBで操作もできるしね。会社はそんなことしないけど、ソフトウェアでやる方が楽だからね。コンテンツビジネスは変わるしかないと思うわ。YouTubeの annoying な奴らも、良質なニュース記事も影響受けるだろうね。

tempfile 2025/08/04 16:38:20

ページをダウンロードされたくないなら、インターネットから外せばいいじゃん。著作権とかアクセス制限の法律はあるけど、コンテンツを読んで説明するのを止める魔法の権利はないよ、ありがたいことにね。

danbruc 2025/08/05 14:39:00

俺が広告ブロックしても、サイト側が金もらえないってのはポイントじゃないんだわ。みんな既に商品買ってるし、広告費はそのどこかで使われる。もしかしたら別の人が広告を見るかもだし、広告単価が上がるかもね。会社が広告費を減らさない限り、金が回る量自体は減らないはずだよ。

bayindirh 2025/08/04 16:46:12

多くのサイト運営者は人がコンテンツにアクセスするのはOKだけど、AI会社がトレーニング目的でスクレイピングするのは嫌がってる。Anubisみたいなツールもあるしね。俺も同じで、CC BY-NC-SA-2.0ライセンスでAI学習は禁止してるのに、企業は金のために無視するんだぜ？なんで俺がこんな状況を我慢しなきゃいけないんだ？全然納得いかないわ。

rapind 2025/08/04 15:33:05

これって全部「規模」の話なんだよ。お前のパーソナルショッパーがどれだけすごいって言っても、ビジネスとしてみんなが使うレベルにスケールアップしないと、影響はゼロに等しいってこと。

Aeolun 2025/08/04 23:26:25

ボットスクレイピング禁止にしたページを、これらの会社がコピーして次の学習サイクルに使うのを何が防ぐって？誰も止められないだろ？ robots.txtなんてただのリクエストであって、アクセスを強制的に止めるルールじゃないんだから。

yojo 2025/08/04 15:24:19

技術的な不可避論なんて信じないね。Cloudflareが悪い奴らをBANしてるおかげで、スクレイピングはコストがかかるようになった。もっと洗練された欺瞞は必然的に高価になるしね。Web of Trustみたいな、もっと過激な方法もありえるんじゃない？まだないけどさ。

bobbiechen 2025/08/04 14:22:30

「crawler」と「fetcher」を区別する用語っていいよね。俺もAIエージェントの検出に取り組んでる（https://stytch.com/blog/introducing-is-agent/）けど、ウェブサイトの持ち主がAIエージェントを識別して、アクセスをコントロールできるようにするのはマジで価値があると思う。でもさ、有名なクローラーのユーザーエージェントを騙って、robots.txt を無視する悪い奴もいるのが問題なんだよな。

shortformblog 2025/08/05 14:47:57

お前の主張は論理的じゃないよ。会社の広告の仕方を勝手に理論化してるけど、全然現実と合ってないじゃん。出版社を全く考慮してないのは特にバカげてるわ。お前が広告ブロッカーを使うことを正当化しようとしてるだけだろ。出版社を冷酷に食い物にしてると認めろよ。はっきり言うけど、広告ブロッカー使うのは自由だけど、広告を「買った」かのように振る舞うのはやめな。

stanmancan 2025/08/04 15:50:19

この件には複雑な気持ちだよ。多くのウェブサイト、特に大手はビジネスなんだ。コンテンツ作って広告収入で利益出すのに、内容をパクられてビューを奪われると収入が減って経営に響くんだよね。IA（Internet Archive？）はビューが減った分の支払い制度を作るべきじゃない？今は大した影響ないけど、制度化すれば皆納得するかもね。

danbruc 2025/08/05 15:02:55

iPhoneを買うと、その一部がAppleの広告費になってるのかな？そのお金って、最終的にどこに行き着くんだろう？もしAppleの広告をブロックしなかったら、何か変わるのかな？

gruez 2025/08/04 14:10:00

Perplexity AIが制限されたドメインのコンテンツを詳細に提供したっていう実験結果、ちょっと結論出すには早いんじゃない？Perplexityが人間抜きで全ページをシステム的に見てたのか（クロール）、それともユーザーの代わりにコンテンツを取ってただけなのか、はっきりしないんだよね。後者の方がまだ許せるって思う人がほとんどじゃないかな。

もっとコメントを表示（1）

fluidcruft 2025/08/04 14:25:50

AIがアクセスした結果を全部アーカイブしたりキャッシュしたりして、多くの人がそれを使ったら、もうスクレーパーになるんじゃない？キャッシュデータから学習すればいいし。マン・イン・ザ・ミドルって立場は、重要なコンテンツをスクレイピングしつつ、その価値に関する情報も得るのにすごく簡単な方法だと思うよ。

thoroughburro 2025/08/04 14:14:45

違うね。自動取得ツールが私のサイトをスクレイピングするかどうかは、誰が指示してようが私がコントロールできるべきなんだよ。猫とネズミのイタチごっこはいくらでもできるけど、コンテンツは私が管理してるし、最終的には私が勝つよ。本当に嫌になったらコンテンツを消しちゃえばいい。そしたら誰もコンテンツを得られなくなるし、Perplexityみたいな立派な会社に感謝しないとね、この信頼の崩壊についてさ。

JimDabell 2025/08/04 14:29:07

違うね。重要な違いは、ユーザーが特定のページを聞いたとき、Perplexityがそのページを取ってくるのは、人間が操作してるからで、クローラーとして動いてるわけじゃないってこと。これが何回あっても、結果をどう使おうと関係ないんだ。再帰的にページを取ってないなら、それはクローラーじゃないし、robots.txtも適用されない。robots.txtは一般的なアクセス制御じゃない、自動クライアント専用なんだよ。

a2128 2025/08/04 14:57:51

理論上はユーザーの代わりにページを取るのはアリだけど、このAI企業って著作権とかのルールを無視してるよね。彼らがページのコンテンツを保存して、将来のAIトレーニングとか、もっとクロールするために使わないなんて、馬鹿げてるよ。

zarzavat 2025/08/04 18:42:05

GooglebotにサイトをクロールさせてGeminiを訓練させるのに、小さいAI企業には同じことさせないなら、Googleの覇権を手助けしてることになるよ。AIが将来、社会でますます重要になることを考えたら、そんな差別は反社会的だ。今以上にGoogleに全部支配される未来なんて嫌だよ。クロールは合法だし、訓練もたぶん合法。小さい会社も両方できるようになってほしいね。

throwanem 2025/08/04 16:06:07

HTTPの仕様は、”ユーザーエージェント”っていう概念の形と名前で、暗黙的にそういう区別をしてるんだよ。

dgreensp 2025/08/04 19:27:32

Googlebotはrobots.txtをちゃんと守るよ。それに、GoogleはChromeユーザーから取得したデータを検索インデックスの補強には使ってないんだ（a2128がPerplexityがユーザーの代わりにページを取得するときにそうするかもって憶測してるけどね）。

ojosilva 2025/08/05 00:18:27

Sounds like an ad for Perplexity.They do end up looking bad out of Cloudflare’s report, who are the ”good guys” in this story - btw Cloudflare’s been very pushy lately with their we’ll save the web, content independence day marketspeak. But deep in the back of my head, Cloudflare’s goodwill elevates Perplexity cunning habilities (assuming they’re the culprit since no real evidence, only heresay is in the OP), both companies look like titans fighting, which ends up being positive for Perplexity, at least in the inflated perception of their firepower… if that makes any sense.

fluidcruft 2025/08/04 14:38:14

Many people don’t want their data used for free/any training. AI developers have been so repeatedly unethical that the well-earned Baysian prior is high probability that you cannot trust AI developers to not cross the training/inference streams.

foota 2025/08/04 20:35:35

Yes, but there’s no way to say ”allow indexing for search, but not for AI use”, right?

alexey-salmin 2025/08/04 19:33:30

Over time it degraded into declaring compatibility with a bunch of different browser engines and doesn’t reflect the actual agent anymore.And very likely Perplexity is in fact using a Chrome-compatible engine to render the page.

gkbrk 2025/08/04 14:20:59

＞ Then nobody gets the content, and we can all thank upstanding companies like Perplexity for that collapse of trust.But they didn’t take down the content, you did. When people running websites take down content because people use Firefox with ad-blockers, I don’t blame Firefox either, I blame the website.

warkdarrior 2025/08/04 21:13:32

But there is: https://developers.google.com/search/docs/crawling-indexing/...There is an user agent for search that you can control in robots.txt. user-agent: Googlebot

There is another user agent for AI training. user-agent: Google-Extended

IncreasePosts 2025/08/04 14:25:45

You don’t win, because presumably you were providing the content for some reason, and forcing yourself to take it down is contrary to whatever reason that was in the first place.

hombre_fatal 2025/08/04 14:25:20

Taking down the content because you’re annoyed that people are asking questions about it via an LLM interface doesn’t seem like you’re winning.It’s also a gift to your competitors.You’re certainly free to do it. It’s just a really faint example of you being ”in control” much less winning over LLM agents: Ok, so the people who cared about your content can’t access it anymore because you ”got back” at Perplexity, a company who will never notice.

JimDabell 2025/08/04 14:42:09

＞ Many people don’t want their data used for free/any training.That is true. But robots.txt is not designed to give them the ability to prevent this.

gruez 2025/08/04 14:38:08

＞If the AI archives/caches all the results it accesses and enough people use it, doesn’t it become a scraper?That’s basically how many crowdsourced crawling/archive projects work. For instance, sci-hub and RECAP[1]. Do you think they should be shut down as well? In both cases there’s even a stronger justification to shutting them down, because the original content is paywalled and you could plausibly argue there’s lost revenue on the line.[1] https://en.wikipedia.org/wiki/Free_Law_Project#RECAP

sbarre 2025/08/04 14:35:54

もしこの人手でのクロールが、後で自動クロールに回されないって確証があるなら納得できるけどさ。
そうじゃないなら、勝手にサイトをインデックスに追加して、最初のクロール結果を見せてるだけじゃん。

CaliforniaKarl 2025/08/05 00:39:56

Cloudflareが「OpenAIはルールを守ってる」って言ったから、これってOpenAIの広告みたいに聞こえるな。
個人的にはPerplexityへの興味が薄れて、OpenAI製品に興味が湧いたわ。

gunalx 2025/08/04 19:41:08

名前の通り、「ロボットのためのルール」なんだよ。
AIだろうが何だろうが、大量だろうが1ページだけだろうが、スクレイピングはルールを守るべきだね。

Den_VR 2025/08/04 14:26:58

アクセス制限はACLやログイン、証明書、最終的には電源コードでもできるけど、自動ツールの制御って技術じゃなくずっと名誉の問題だった。
そして、その信頼は常に破られてきたんだ。LexiBotやAltaVistaを覚えてる？

glenstein 2025/08/04 15:56:24

「何回やっても、結果をどう使っても関係ない」って言うのは違うと思うな。これは元のコメントの重要な点で、「関係ない」って言われただけじゃ納得できないよ。
キャッシュデータを使って単なるページ取得以上の機能を提供することについて、大事な指摘をしてると思うね。

snowwrestler 2025/08/05 03:14:17

「Perplexityがクロールしてたのか、単にユーザーのためにコンテンツを取得してたのか不明」って話だけどさ。
Perplexityも他のAI企業みたいに、本来ならユーザーエージェント文字列を設定してるはずなんだ。
Cloudflareが指摘してる行為では、そのどちらも使ってないで、MacOSでChromeを使ってる人間を装ってるんだよ。

fluidcruft 2025/08/04 14:44:55

俺はPerplexityを閉鎖しろとは言ってないぞ。
あと、あんたの例え話だと、キャッシュを作ってるやつらをブロックするために、サイト側がどんな行動をとっても全然アリってことになるな。

thunkshift1 2025/08/05 16:16:11

これってCloudflareの広告みたいだね。
1ヶ月前にLLMコンテンツスイープからウェブサイトを守るって発表してなかったっけ？
それで、その約束を果たせないって気づいたんだろ。「俺たちは正しくやったけど、こいつらは違法なやり方だ！」ってことか。
ちなみに月14.99ドルだぞ…

busymom0 2025/08/04 17:27:31

記事の例を見てると、単にユーザーのためにコンテンツを取得してるだけに見えるんだけど。
これって別に問題ないと思うな。

ipaddr 2025/08/04 15:35:08

俺のサーバーがLLMエージェントのせいでダウンし続けてるのかも。
歌詞サイトを消したら他のサイトは動いてるからマジな話。
Perplexityが気づかなくても、競合が有利になっても、そんなのどうでもいい。
結局コンテンツが消えるから、Perplexityユーザーも直接訪問者も損するんだ。
Perplexityとかが作ってるのは、ウェブから何でも取るけど何も残らない世界だよ。

Tokumei-no-hito 2025/08/05 02:19:44

ユーザーエージェントってさ、どんなしょうもないCSSハックとかJavaScriptポリフィルが必要か、って話に似てるよね。クローラーがユーザーエージェントを偽装するのを皮肉ってる感じ。

Bluescreenbuddy 2025/08/04 14:23:36

Firefoxは私のデータを使って金儲けしてないよ。AIスクレイパーはしてるけどね。

glenstein 2025/08/04 16:00:39

「コンテンツを削除したのはPerplexityじゃない、あんただろ」って言うけど、それは信頼の悪用におけるPerplexityの特別な役割を見過ごしてるよな。

もっとコメントを表示（2）

hnburnsy 2025/08/04 20:03:35

PerplexityがTech Crunchに反論したらしいね。
「Cloudflareのブログはセールス目的だ」って言ってて、ブログのスクリーンショットは「コンテンツにはアクセスしてない」証拠だって。さらに、Cloudflareが指摘したボットは「うちのじゃない」とも主張してるよ。

blablabla123 2025/08/05 06:05:08

これ笑えるね。CDNって10年以上前から膨大なデータをネットワークに流してたんだぜ。だからCloudflareの文句は正しいとしても偽善的だよ。
どっちにしろ、CDNはAIスクレイピングの流行と米国の著作権カオスで大儲けしてるしな。

bob1029 2025/08/04 15:34:38

「ステルスクローラー」は常に勝つだろうね。ブラウザ自動化ツール（https://www.w3.org/TR/webdriver2/ 、https://chromedevtools.github.io/devtools-protocol/ ）を使えば、検知はほぼ不可能になるよ。
CAPTCHAを出しても、ツール開発者が人間の介入ワークフローを組み込めば突破できるんだ。15年前のゲーム開発テストで見たラスタレベルのスクレイピング技術とか、今のインターネット監視員を困らせるだろうね。

blibble 2025/08/04 15:45:08

「ステルスクローラーが常に勝つ」って言うけど、そうはならないよ。最終的には、価値のあるサイトにアクセスするためにはリモートアッテステーションが必要になるだろうからね。

Buttons840 2025/08/04 19:30:15

そうだね、画面をカメラで撮ってロボットアームでマウスを動かす、って選択肢が常にあるからね。AIはもっと難しい問題を解決しようとしてるんだよ。

myflash13 2025/08/04 20:45:32

生体認証アッテステーションには通用しないよ。例えば、中国の銀行はバンキングセッションを続けるために、定期的な顔認証を求めるんだ。

DaSHacka 2025/08/04 21:54:06

これらの企業がスクレイピング作業をユーザーに丸投げするのを、何が止めるんだろう？「月50ドル払うか、ウチの拡張機能を入れてくれ。そして、指示されたらCAPTCHAを解いたり、該当ウェブサイトでID認証したりして、コンテンツを学習させてくれ」ってさ。

muyuu 2025/08/04 22:20:25

うん、でもあれはクローズドなサイトだろ。人間が来てほしいオープンなサイトで同じことやろうとしてみろよ。

Tokumei-no-hito 2025/08/05 02:23:40

ほら見ろよ、Redditはマジでティーンエイジャーに口開けたり頭をぐるぐるさせたりするのを要求してるじゃん。

Trung0246 2025/08/05 11:01:02

聞いた話だけど、リアルな3D人間のゲームモデルに口開けや頭を傾けるアニメーション付けたら簡単にバイパスできるらしいぞ。Garry’s Modでもそんなことできるってさ。

gkbrk 2025/08/04 16:55:14

価値あるサイトはリモート認証なんてほとんど使わないよ。お前のデバイス、OS、広告ブロッカー、拡張機能全部で動く代替策の方が、ロックダウンされたサイトよりユーザーを惹きつけるからな。

bakugo 2025/08/04 17:25:22

＞君のデバイス、OS、広告ブロッカー、拡張機能全部で動く代替策＜って言うけどさ、ユーザーの99.9%がリモート認証をサポートする特定のロックダウンされたデバイスやOS、ブラウザを使ってるなら、0.1%なんてどうでもよくなるだろ。モバイルデバイスでは既にそうなってるし、PCもロックダウンされるのは時間の問題だぜ。

blibble 2025/08/04 17:17:02

Widevineをすでに使ってる大規模なコンテンツサイトにそう言ってやれよ。

theptip 2025/08/05 15:28:25

でもPerplexityユーザーの場合、おそらくユーザーは認証を提供するためにループの中にいるんだろ。このケース（”このテーマを調べてきてくれ”）がここでのグレーゾーンなんだよな。単なるスクレイピングや検索インデックス作成とは違うけど、似た部分もある新しい活動だぜ。

rustc 2025/08/04 15:36:35

Perplexity自身がクローラーをブロックしてるのは皮肉だよな。
＄ curl -sI https://www.perplexity.ai | head -1
HTTP/2 403
ブラウザのユーザーエージェントを偽装しようとしてもダメだった。もっと高度な方法でクローラーを検出してるぞ。

thambidurai 2025/08/04 16:13:28

誰かがCEOにこれについてもう質問してるぞ：https://x.com/AravSrinivas/status/1819610286036488625

fireflash38 2025/08/04 16:20:41

ボットは家の中から来てんだよ。

czk 2025/08/04 16:45:44

皮肉なことに、PerplexityはCloudflareを使ってるんだって。

Trung0246 2025/08/05 10:57:49

これを試してみてよ: https://github.com/lwthiker/curl-impersonate

Havoc 2025/08/04 15:13:47

これはPerplexityに勝ったな。Cloudflareがインターネットの警察気取りなのも問題だけど、怪しいスクレイピングしてる企業を公に非難するのは良いことだ。会話のきっかけになるだけでもね。検索エンジンがみんなちゃんと振る舞ってた時代に戻るべきだよ。サイトを潰しても平気でコンテンツを“借りる”スクレイピングやDDoSは倫理に反するクソ行為だ。

jeffrallen 2025/08/04 22:01:10

“恥を知らない”時代には、非難しても効果ないよ。

Havoc 2025/08/05 07:52:56

何か他に効果的な良いアイデアある？

nostrademons 2025/08/04 16:54:39

Perplexityが隠しクローラーを使ってるんじゃなくて、外部のWebスクレイピング業者に委託してる可能性も十分あるね。そういう業者の中には、ユーザーのPCにマルウェアを仕込んでボットネットでデータ収集するようなかなり怪しいとこもあるらしい。FBIも同じような手段で、本来違法な監視をサプライチェーンに分散させて合法化してるって、少し前にHacker Newsで話題になってたよ: https://news.ycombinator.com/item?id=44220860

binarymax 2025/08/04 14:39:19

俺、個人的に検索エンジン作ったことあるんだ。Perplexityがやってることと基本的には同じようなことができる。友達とPerplexityと比較して試したら、50/50くらいで俺のエンジンの方が良いって言われたよ。俺のエンジンは調査のためにページをダウンロードできるけど、CAPTCHAとかでブロックされたら諦めて次に進むんだ。VCから何十億も資金もらってる企業が何でも好き勝手できると思ってんのがマジでムカつくね。

metadat 2025/08/05 08:42:31

面白いね！あなたのとPerplexityので何が違うのか、詳しく教えてくれる？

blibble 2025/08/04 15:07:13

AI企業が“同意”の概念を理解できないでいるのは、どんどんヤバくなってるね。こんなクソなチャットボット以上のが作れたら、神様助けてって感じだよ。

tempfile 2025/08/04 16:19:28

君はウェブサイト訪問する前に同意求めるの？もし俺が君に、俺のブログに来るなって言ったら、君は止めるの？

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。