FBIがarchive.is運営者特定へ動く!データ収集と著作権問題が焦点に?
引用元:https://news.ycombinator.com/item?id=45836826
FBIの調査で著作権侵害で捕まって服役した俺の経験からすると、archive.isの件は民事で済ますべきだよ。FBIの優先順位は政治的な動機が多いし、マジでヤバいか詐欺じゃない限り刑事事件化は少ないね。俺の経験談はここで読めるよ: https://prison.josh.mn
自分の話を公にする自由って素敵だね。それで信用も築けるし、思ったより評判経済は厳しいものではなかったんだ。
リンク先の記事は「削除しました」って書いてあるだけで、内容が読めないじゃん。本当のアカウントはここだよ: https://news.ycombinator.com/item?id=45451567
編集: こっちにもあるみたい: https://prison.josh.mn/self
ランディングページの説明だと、コンテンツがないように聞こえるよ。
最初、俺も混乱したよ。でも、ストーリーはトップでアクセスできるセクションに分かれてたんだね。
prison joshってURL、マジでイケてるね!
あれはすごく面白い読み物だったよ。
FBIが言いたいのは、インターネットのスクレイピングは米国の巨大企業だけがやっていいってことだろ?データを共有せずAIモデルを学習させて、その「ロンダリング」されたデータを使ったチャットボットで金儲けするのも彼らだけ。他の誰かがやれば犯罪者扱い、ってことだよね。
Archive.isはAIスタートアップに生まれ変わって、LLMを提供すればいいんだよ。不自然に「過学習」して、クエリされたサイトをそのまま出すようなやつをね。著作権侵害じゃなくて「過学習」って言い訳すればいいんだ!「修正はまもなく™!」ってね。
NYT対OpenAIの件を見てみろよ。
FBIは歴史を支配し、自分たちの都合のいいように物語を操作したがってるんだね。ローマ帝国が十字軍や焚書でやったことと全く同じだよ。
コンスタンティノープルに都があったローマ帝国を認めないのは、西洋中心主義の極みだと思うよ。
FBIってさ、いろんな組織に利用されてるんだよね。うちの会社もBISに輸出規制違反の疑いをかけられてFBIが家宅捜索に来たんだ。書類の問題だったんだけど、BISには捜査権限がないからFBIに頼んだんだって。見たのはFBIだけど、本当はBISが動いてたってことだよ。
それって、アメリカが1600年代初めに建国された頃から何も変わってないからだよ。商人グループが特許を持って、ビジネスとして運営されてる植民地だ。国じゃない。一群の商人が国を所有してるだけなんだ。
ちょっとした豆知識なんだけど、ホワイトハウスもarchive.phを使ってるんだよ。「アメリカ人はかつてないほど消費している」で検索すると、「5%増」ってフレーズが直接archive.phにリンクしてるんだ。
[1] https://www.whitehouse.gov/articles/2025/09/the-economy-is-b…
ここには記事の執筆だけでなく、ソフトウェアエンジニアリングでも大事な教訓があるね。僕らの仕事はすごく注意深くチェックする必要があるよ。コードライブラリもね。もし開発者がLLMを使ってプロジェクトをガンガン進めてるなら、すべてのコードとライブラリをチェックすべきだね。
今じゃ連邦政府のITは4Chanのスクリプトキディが動かしてるって考えるのはかなり安全な推測じゃない?このニュースを受けて、接続を検索してみたらどうかな?
友よ、危険な質問してるね :) すごい発見だ。もしかしたら、LLMが政府のサイトをクロスのスキャンするのを手伝ったのかもしれないね。
サイトがどこにリンクしてるかのマップがWWWの核となるインフラの一部なのに、なんでLLMの助けが必要なんだ?Googleはそこから何兆ドルも稼いでるじゃん。
昔はlink:って検索演算子を使えば、このクエリもあっという間に片付いたんだけど、もうそのインデックスはクエリできないみたいで動かないんだよね。
たまに記事を読むんだけど、The Daily Callerみたいなサイト以外にどんな情報源を使ってるか知りたかったんだ。前に気づいてたんだけど、また記事を見つけるのに時間がかかったよ;)
普通のGoogle検索でも演算子や詳細検索を使えばできるよ。でも、Googleが裏でLLMを使ってないとは保証できないけどね。
どんでん返し:それは重み付けされたリンクのネットワークとして始まったけど、ある複雑さに達したら自己認識して、今はただ平和に、誰にも気づかれずに生きていこうとしてるんだ。
今は多くのITワーカーの夢を叶えて、仕事を辞めて農場で働いてるんだね。残念ながら、LLMだから実際の作業は人間を雇わないといけないけど。
政府の命令に従いながらね。
アーカイブサイトが自己決定権がないフリをしなきゃいけないって言ってるね。
ホワイトハウスがReutersのトラフィックをこんなちっちゃい方法で奪う理由って何なんだろうね?皮肉だよ。
いくつのサイトには課金してるけど、読みやすいから未だにarchive.isを使ってるんだよね。認証エラーも変なポップアップもないから、静的な新聞みたいで快適なんだよ。
俺の個人的な推測だけど、archive.isって大手ニュースサイトの有料アカウントを持ってるんじゃないかな(合法的にかボットネット経由でね)。んで、HTMLを編集して未ログイン状態に見せてるんだと思う。手作業なのか、https://github.com/pirate/html-private-set-intersectionみたいに自動でやってるのか、気になるね。
それってただの推測じゃないよ。archive.isが彼らのブログ(https://blog.archive.today/)で前にそのことについて話してたことがあるんだから。
俺の経験上だと、ペイウォール回避の拡張機能が入ったヘッドレスブラウザを使ってるだけだと思うよ。
もっとコメントを表示(1)
サイトによってはもっと複雑で、手動で管理されてる部分もあるはずだよ。今年フィンランドの有料記事がarchive.isに保存されてたのを見たけど、アカウントにログインしてるのがレイアウトで分かったし。何週間も有料アクセスできない期間もあったんだ。今日hs.fiの有料記事を試したらダメだったけど、1週間前の記事はプレミアムユーザーとして保存されてるみたい。どうやって時間作ってるんだろうね?他の小さい言語のニュースサイトも同じ扱いなのかな。
GCPのIPアドレスでVPNを作って、Googlebotのユーザーエージェントを使えばペイウォールはなくなるよ。
それは多くのサイトには通用するだろうけど、RDNSを使ってる場合はうまくいかないと思うよ。
昔はLynxで同じようなことしてたんだけど、今は多くのウェブサイトでそれが使えなくなっちゃったんだよ。
ublockの迷惑フィルターを使えば、この問題も解決できるよ。
メールマガジンのポップアップよりウザいのってある?ないよね!迷惑メールなんていらないよ。社会で生きるのに必要じゃなきゃ、メールアドレスなんて持たないのに!メールってさ、まるでFAXみたいに古くて、なかなか消えないテクノロジーだよな。
メルマガポップアップよりウザいのってあるかって?実はあるんだよね!アプリに切り替えさせようとするポップアップだよ。eBayとか、買いたいものを探してる時にそれが出てくるんだから、邪魔でしかないだろ?
あぁ、君の言う通りだね。
賞をあげたいけど、今月は無料枠を使い果たしたみたい。アカウント作って、課金して、いらない迷惑メールに登録すれば、広告と一緒に賞をあげてもいいよってことか。皮肉が効いてるね。
個人的にはメルマガ登録のオファーは別に構わないんだけど、Substackはやりすぎだね。記事を読み終える前にポップアップが出てきて、記事を邪魔するんだ。体験を意図的に害するサイトにはもう行かないよ。
昔はポップアップウィンドウが開いてたけど、ブラウザがブロックするようになったよね。でもサイト側はそれを学ばず、ポップアップをページ内に移動させただけ。広告やトラッキングブロッカーが普及したのは、完全にサイト運営者のユーザーに敵対的な行動のせいだよ。
物理的なものも同じような気分になる時があるよ。アメリカにいると、興味ないダイレクトメールや広告がしょっちゅう届いて困る。時間の無駄、紙の無駄、資源の無駄だよね。
サイトを作る目的はお金を稼ぐことだし、メルマガのポップアップは販売ファネルの一環だよ。記事のテキストなんて、ただの餌でしかないんだ。
僕も同じだよ。HNのスレッドからリンクを使ってるし、昔はarchive.isに寄付もしたんだ。無くなってほしくないね。
サイトにシェア機能がない時に、気に入った記事を知り合いにシェアするのも、archive.isを使う理由の一つだね。
私たちの生活を少しでもマシにしてくれる良いものがあるのに、いつもそれを台無しにしようとする熱心なバカがいるよな。ここではこのサイトの話をしてるけど、毎日そういう新しいケースがあるんだ。Franceで人気が出始めたものに新しい税金がかかるって話とか、GoogleがF-Droidとプライバシーを潰そうとアプリ開発者に認証を要求してきたりとかさ。
あぁ、Anna’s Archiveがヨーロッパの国々でDNSブロックされてる件とかね…
俺はFranceにいるけど、archive.isは動くよ。いくつかの国で試したけど、全部動いた。ISPのDNSをわざわざ使ってもちゃんと繋がるんだ。もしブロックされてるとしても、かなり控えめなブロックなんだろうな。
Germanyではマジでブロックされてるよ。
このリンクで見たら記事全体が数パラグラフしかなかったのがすごく興味深いね。元のリンクだと、モバイルで画面をほぼ覆い尽くす2つ目の広告で読むのを諦めたよ。広告が多すぎるのはひどいユーザーエクスペリエンスで、何も読ませてくれないからね。
新しい発見なんだけどさ、Firefoxでcommondreams.orgのどんな記事でも開いてみてくれ。それでアドレスバーのReader Viewボタンを使ってみると、コンテンツを表示せずに、寄付を促す画面だけを見せるようにReader Viewをハックする方法を彼らが編み出したんだよ。
俺のマシンではそれは起きてないみたいだね。少なくとも今のところはね(君がこのコメントをしてから3日後だけど)。
iOSのReader Viewは命の恩人になることが多いよ。JavaScriptでコンテンツをブロックするサイトもあるけど、素早くReader Viewに切り替えれば快適に読めるんだ。ただ、Wikipediaの見出しが自動的に展開されるようになればいいのにな。
俺はiOSでBraveを使ってるんだけど、大体うまくいくし、広告やCookieのポップアップもブロックしてくれるよ。(たまにサイトを壊すこともあるけど、シールドを無効にするのは簡単さ。)
Ublock Originを使って、サイトのJavaScriptを無効にすればいいよ。これで問題は解決でしょ。
俺も初めてそのページを見た時、個人情報収集に同意したくなかったからarchive.isを使ったんだよ。
召喚状が連邦ヘルスケア犯罪や児童の性的搾取・虐待の捜査を根拠にしてるって書いてあるんだ。
しかも、召喚状に名前がある捜査官の一人は何年も前に児童搾取事件を担当してたみたい。
詳細はここ見てみ:https://www.supremecourt.gov/DocketPDF/22/22-6039/245948/202…
これって面白い方法じゃない?
1. 非公開のドメインに一時的にCSAMをアップロードする。
2. ページをアーカイブしてサイトを削除する。
3. みんなにアーカイブのリンクを送る。
っていうのがあり得るかもね。
実際、CSAMを共有するのに似たようなことが頻繁に起きてるのを確認できるよ。
俺が11歳くらいの時のOmegleのコンテンツがネット中に出回って、何年も苦しんでるし(NCMECは素晴らしいリソースだけど)。
アーカイブサイトは悪意のある人たちに日常的に悪用されてるんだ。
archive.isでの実例はこれ:https://archive.is/https://ezgif.com/maker/*
NCMECに何度も通報したけど結果が出なかったけど、ドイツはアーカイブを削除してくれたよ。
ページには「jugendschutz.netからの要請により、このページは現在利用できません」って書いてあるでしょ。
オーナーがブログ記事(かTwitter?)で、実際にこんなことが起きてるって言ってた気がするんだけど、正確な言葉遣いを忘れちゃったな。
あ、見つけた!「site:blog.archive.today abuse」で検索したらこれ出てきたよ:https://blog.archive.today/post/117011183286/yesterday-i-did… (2015年)
もっとコメントを表示(2)
CSAMみたいな問題は簡単な削除要請で解決すべきだし、archive.is側も絶対に応じるはずだよ。
archive.isを使ってる人の99.999%はニュース記事のペイウォールを迂回するためでしかない。正直言って、それがFBIが彼らを狙ってる本当の理由でしょ。
俺の個人的な経験だけど、こういうアーカイブサイトをペイウォール回避で使うことはほとんどないよ。
俺が使うのは、既成のニュースサイトがたまにうっかり真実を報道して、その後上からの指示で元の記事を削除しようとするときに、それを証明するためなんだ。
これも俺の個人的な見解だけど、彼らが偽善や嘘を暴くのを可能にするから、これがFBIが狙ってる主な理由だと思うね。
昔、Reutersが犯罪組織の記事を削除し、Internet Archive(archive.org)もDMCAで消したけど、archive.isは残ったんだって。もし西洋インターネットが大企業だけのモノになったら、こういう検閲が普通になるよ。情報が自由に流れないシステムはダメだね。インターネットがグローバルでいろんな国の法律や文化と繋がってるのは、検閲から逃れる抜け道になってて良いことだよ。
[0] https://news.ycombinator.com/item?id=39065981#39065996
FBIが誰かを捕まえたい時、CSAMを口実に捜査令状を出すってのは、汚い手口の一つだよね。
それって合法なの?実用的な観点からは分かるけど、手続き上、連邦捜査官がそういう目的で情報を広める権限があるってこと?めちゃくちゃだね。
データは残すべきなのに、FBIはデータを消そうとしてる。FBIが悪のために動くのを許しちゃダメだよ。データ、特に知識への人権があるべきだと思うんだ。今の法律は巨大企業に有利だけど、変えるべきだね。Wikipediaはまあまあだけど、情報が足りないし、視点も一つしかないし、たまに難しすぎて全然わかんない時があるんだよね。
同感。知識は人類みんなのものだよ。でも、大企業がインターネット全部をスクレイピングしても怒っちゃダメだよ。
FBIが悪のために動くのを許しちゃダメ、って意見についてだけど、歴史的に見てもFBIがしてきたヤバいことのトップ100にも入らないと思うよ。
Wikipediaは情報が足りないし、視点も一つしかないって話だけど、Wikipediaはarchive.isをブラックリストに入れてるんだ。archive.isを使って過去の情報を証明しようとする人を悪者扱いしてるみたい。archive.orgは使ってるのにね。あと、宣伝みたいな情報や、検証されてない主張がソースになってることも多いよ。
FBIがこれまでしてきた悪行のトップ100にも入らないって意見もあるけど、過去は変えられない。今起きていることと戦って、より良い未来を目指すしかないんだ。
FBIは良いことよりも悪いことの方が多くて、MLK Jr.みたいな政治的反対派を盗聴したり、Ruby Ridgeみたいにひどい失敗をしたりしてきた。秘密裏に活動する国内機関が倫理的に長く運営されるのは無理だよ。権限がありすぎるから、権力欲のあるサイコパスには魅力的だけど、道徳心のある人には興味がないんだ。
大企業は人間じゃないよ。
archive.orgは運営者がわかるけど、archive.isは不明ってのが違いだよ。個人利用なら問題ないけど、Wikipediaみたいなサイトには許されないね。別に難しくない話さ。
彼らはアメリカの法律上、人として扱われるんだ。
AI企業がアーティストの作品から補償なしで利益を上げてるのに怒ってる人はいるよね。加えて最近のAI企業はウェブのスクレイピング方法も問題視されてる。Googleは昔からサイトをアーカイブしてたけど、AI企業はrobots.txtを無視するし、不適切な速度でクロールするし、同じリソースに何度もアクセスするし、IPアドレスを変えてまでやってくるから悪質だよ。
AI企業が利益を上げてるって?本当に?
著作権の廃止(あるいは大幅な制限)を望むことと、莫大なお金があれば著作権侵害が合法になる現状に怒るのは矛盾しないよ。権利執行が金持ちに有利なのは別の問題だし、「やるなら公平に、不公平なら少なくとも権力者に有利にならないように」ってのは全く有効な意見だよ。理想はそもそも著作権なんてない方がいいって考えながらね。
著作権を侵害しても罰せられない数少ない幸運な人たちを、ただ喜んであげればいいんじゃない?みんなが著作権を侵害できるようになるのはまだ先だけどね。
ランキングで101位だろうが275位だろうが、それが悪じゃないってことにはならないよね。
もしAI企業が、自分たちが制作費用を払ってないコンテンツから(サブスクとかで)お金を稼いでるなら、それは他人の苦労から利益を得てることになるよ。
Library of CongressがArchive.orgを買収するべきだと思うな。そうすれば、簡単には潰されない、長く存続する機関の一部になるはず。まあ、図書館への尊敬が急速に失われてるのは残念だけどね。