メインコンテンツへスキップ

FBIがarchive.is運営者特定へ動く!データ収集と著作権問題が焦点に?

·2 分
2025/11 著作権 データスクレイピング FBI ウェブアーカイブ AI

FBIがarchive.is運営者特定へ動く!データ収集と著作権問題が焦点に?

引用元:https://news.ycombinator.com/item?id=45836826

joshmn 2025/11/06 18:07:17

FBIの調査で著作権侵害で捕まって服役した俺の経験からすると、archive.isの件は民事で済ますべきだよ。FBIの優先順位は政治的な動機が多いし、マジでヤバいか詐欺じゃない限り刑事事件化は少ないね。俺の経験談はここで読めるよ: https://prison.josh.mn

jeanlucas 2025/11/07 11:35:59

自分の話を公にする自由って素敵だね。それで信用も築けるし、思ったより評判経済は厳しいものではなかったんだ。

yreg 2025/11/07 10:27:00

リンク先の記事は「削除しました」って書いてあるだけで、内容が読めないじゃん。本当のアカウントはここだよ: https://news.ycombinator.com/item?id=45451567
編集: こっちにもあるみたい: https://prison.josh.mn/self
ランディングページの説明だと、コンテンツがないように聞こえるよ。

causal 2025/11/07 12:10:18

最初、俺も混乱したよ。でも、ストーリーはトップでアクセスできるセクションに分かれてたんだね。

Bayko 2025/11/07 03:54:29

prison joshってURL、マジでイケてるね!

redox99 2025/11/07 07:00:51

あれはすごく面白い読み物だったよ。

klipklop 2025/11/06 19:12:20

FBIが言いたいのは、インターネットのスクレイピングは米国の巨大企業だけがやっていいってことだろ?データを共有せずAIモデルを学習させて、その「ロンダリング」されたデータを使ったチャットボットで金儲けするのも彼らだけ。他の誰かがやれば犯罪者扱い、ってことだよね。

scrps 2025/11/06 21:30:21

Archive.isはAIスタートアップに生まれ変わって、LLMを提供すればいいんだよ。不自然に「過学習」して、クエリされたサイトをそのまま出すようなやつをね。著作権侵害じゃなくて「過学習」って言い訳すればいいんだ!「修正はまもなく™!」ってね。

HPsquared 2025/11/07 09:04:20

NYT対OpenAIの件を見てみろよ。

attisday 2025/11/07 14:22:34

FBIは歴史を支配し、自分たちの都合のいいように物語を操作したがってるんだね。ローマ帝国が十字軍や焚書でやったことと全く同じだよ。

SauciestGNU 2025/11/07 16:25:23

コンスタンティノープルに都があったローマ帝国を認めないのは、西洋中心主義の極みだと思うよ。

littlecorner 2025/11/07 12:49:46

FBIってさ、いろんな組織に利用されてるんだよね。うちの会社もBISに輸出規制違反の疑いをかけられてFBIが家宅捜索に来たんだ。書類の問題だったんだけど、BISには捜査権限がないからFBIに頼んだんだって。見たのはFBIだけど、本当はBISが動いてたってことだよ。

zrn900 2025/11/08 01:06:23

それって、アメリカが1600年代初めに建国された頃から何も変わってないからだよ。商人グループが特許を持って、ビジネスとして運営されてる植民地だ。国じゃない。一群の商人が国を所有してるだけなんだ。

stefankuehnel 2025/11/06 23:39:53

ちょっとした豆知識なんだけど、ホワイトハウスもarchive.phを使ってるんだよ。「アメリカ人はかつてないほど消費している」で検索すると、「5%増」ってフレーズが直接archive.phにリンクしてるんだ。
[1] https://www.whitehouse.gov/articles/2025/09/the-economy-is-b

Shocka1 2025/11/10 18:36:22

ここには記事の執筆だけでなく、ソフトウェアエンジニアリングでも大事な教訓があるね。僕らの仕事はすごく注意深くチェックする必要があるよ。コードライブラリもね。もし開発者がLLMを使ってプロジェクトをガンガン進めてるなら、すべてのコードとライブラリをチェックすべきだね。

nativeit 2025/11/07 20:27:04

今じゃ連邦政府のITは4Chanのスクリプトキディが動かしてるって考えるのはかなり安全な推測じゃない?このニュースを受けて、接続を検索してみたらどうかな?

kakacik 2025/11/07 09:42:55

友よ、危険な質問してるね :) すごい発見だ。もしかしたら、LLMが政府のサイトをクロスのスキャンするのを手伝ったのかもしれないね。

Cthulhu_ 2025/11/07 09:45:27

サイトがどこにリンクしてるかのマップがWWWの核となるインフラの一部なのに、なんでLLMの助けが必要なんだ?Googleはそこから何兆ドルも稼いでるじゃん。

jldugger 2025/11/10 17:48:27

昔はlink:って検索演算子を使えば、このクエリもあっという間に片付いたんだけど、もうそのインデックスはクエリできないみたいで動かないんだよね。

stefankuehnel 2025/11/07 10:15:06

たまに記事を読むんだけど、The Daily Callerみたいなサイト以外にどんな情報源を使ってるか知りたかったんだ。前に気づいてたんだけど、また記事を見つけるのに時間がかかったよ;)

trashb 2025/11/07 10:04:25

普通のGoogle検索でも演算子や詳細検索を使えばできるよ。でも、Googleが裏でLLMを使ってないとは保証できないけどね。

rbanffy 2025/11/08 10:44:02

どんでん返し:それは重み付けされたリンクのネットワークとして始まったけど、ある複雑さに達したら自己認識して、今はただ平和に、誰にも気づかれずに生きていこうとしてるんだ。

saturnite 2025/11/08 15:55:59

今は多くのITワーカーの夢を叶えて、仕事を辞めて農場で働いてるんだね。残念ながら、LLMだから実際の作業は人間を雇わないといけないけど。

egberts1 2025/11/08 14:26:57

政府の命令に従いながらね。

rbanffy 2025/11/08 14:29:01

アーカイブサイトが自己決定権がないフリをしなきゃいけないって言ってるね。

patcon 2025/11/06 23:59:20

ホワイトハウスがReutersのトラフィックをこんなちっちゃい方法で奪う理由って何なんだろうね?皮肉だよ。

teeray 2025/11/06 16:51:27

いくつのサイトには課金してるけど、読みやすいから未だにarchive.isを使ってるんだよね。認証エラーも変なポップアップもないから、静的な新聞みたいで快適なんだよ。

nikisweeting 2025/11/06 20:52:40

俺の個人的な推測だけど、archive.isって大手ニュースサイトの有料アカウントを持ってるんじゃないかな(合法的にかボットネット経由でね)。んで、HTMLを編集して未ログイン状態に見せてるんだと思う。手作業なのか、https://github.com/pirate/html-private-set-intersectionみたいに自動でやってるのか、気になるね。

wlonkly 2025/11/09 16:07:36

それってただの推測じゃないよ。archive.isが彼らのブログ(https://blog.archive.today/)で前にそのことについて話してたことがあるんだから。

nikcub 2025/11/06 22:44:11

俺の経験上だと、ペイウォール回避の拡張機能が入ったヘッドレスブラウザを使ってるだけだと思うよ。

もっとコメントを表示(1)
Stagnant 2025/11/06 23:34:17

サイトによってはもっと複雑で、手動で管理されてる部分もあるはずだよ。今年フィンランドの有料記事がarchive.isに保存されてたのを見たけど、アカウントにログインしてるのがレイアウトで分かったし。何週間も有料アクセスできない期間もあったんだ。今日hs.fiの有料記事を試したらダメだったけど、1週間前の記事はプレミアムユーザーとして保存されてるみたい。どうやって時間作ってるんだろうね?他の小さい言語のニュースサイトも同じ扱いなのかな。

arealaccount 2025/11/07 03:11:22

GCPのIPアドレスでVPNを作って、Googlebotのユーザーエージェントを使えばペイウォールはなくなるよ。

WatchDog 2025/11/07 05:17:39

それは多くのサイトには通用するだろうけど、RDNSを使ってる場合はうまくいかないと思うよ。

Scoundreller 2025/11/06 18:06:38

昔はLynxで同じようなことしてたんだけど、今は多くのウェブサイトでそれが使えなくなっちゃったんだよ。

93po 2025/11/06 17:31:58

ublockの迷惑フィルターを使えば、この問題も解決できるよ。

riskable 2025/11/06 18:39:57

メールマガジンのポップアップよりウザいのってある?ないよね!迷惑メールなんていらないよ。社会で生きるのに必要じゃなきゃ、メールアドレスなんて持たないのに!メールってさ、まるでFAXみたいに古くて、なかなか消えないテクノロジーだよな。

dcminter 2025/11/07 08:21:14

メルマガポップアップよりウザいのってあるかって?実はあるんだよね!アプリに切り替えさせようとするポップアップだよ。eBayとか、買いたいものを探してる時にそれが出てくるんだから、邪魔でしかないだろ?

riskable 2025/11/08 18:16:04

あぁ、君の言う通りだね。
賞をあげたいけど、今月は無料枠を使い果たしたみたい。アカウント作って、課金して、いらない迷惑メールに登録すれば、広告と一緒に賞をあげてもいいよってことか。皮肉が効いてるね。

kevincox 2025/11/06 20:07:17

個人的にはメルマガ登録のオファーは別に構わないんだけど、Substackはやりすぎだね。記事を読み終える前にポップアップが出てきて、記事を邪魔するんだ。体験を意図的に害するサイトにはもう行かないよ。

dabinat 2025/11/06 23:55:15

昔はポップアップウィンドウが開いてたけど、ブラウザがブロックするようになったよね。でもサイト側はそれを学ばず、ポップアップをページ内に移動させただけ。広告やトラッキングブロッカーが普及したのは、完全にサイト運営者のユーザーに敵対的な行動のせいだよ。

fuzzy_biscuit 2025/11/06 19:05:26

物理的なものも同じような気分になる時があるよ。アメリカにいると、興味ないダイレクトメールや広告がしょっちゅう届いて困る。時間の無駄、紙の無駄、資源の無駄だよね。

codedokode 2025/11/07 09:58:10

サイトを作る目的はお金を稼ぐことだし、メルマガのポップアップは販売ファネルの一環だよ。記事のテキストなんて、ただの餌でしかないんだ。

lossolo 2025/11/06 21:19:04

僕も同じだよ。HNのスレッドからリンクを使ってるし、昔はarchive.isに寄付もしたんだ。無くなってほしくないね。

physicsguy 2025/11/07 15:18:43

サイトにシェア機能がない時に、気に入った記事を知り合いにシェアするのも、archive.isを使う理由の一つだね。

greatgib 2025/11/06 16:54:12

私たちの生活を少しでもマシにしてくれる良いものがあるのに、いつもそれを台無しにしようとする熱心なバカがいるよな。ここではこのサイトの話をしてるけど、毎日そういう新しいケースがあるんだ。Franceで人気が出始めたものに新しい税金がかかるって話とか、GoogleがF-Droidとプライバシーを潰そうとアプリ開発者に認証を要求してきたりとかさ。

poolnoodle 2025/11/06 23:10:46

あぁ、Anna’s Archiveがヨーロッパの国々でDNSブロックされてる件とかね…

BrandoElFollito 2025/11/09 10:30:21

俺はFranceにいるけど、archive.isは動くよ。いくつかの国で試したけど、全部動いた。ISPのDNSをわざわざ使ってもちゃんと繋がるんだ。もしブロックされてるとしても、かなり控えめなブロックなんだろうな。

poolnoodle 2025/11/09 22:04:09

Germanyではマジでブロックされてるよ。

55555 2025/11/06 16:29:51

https://archive.is/XdQRp

serial_dev 2025/11/06 19:18:48

このリンクで見たら記事全体が数パラグラフしかなかったのがすごく興味深いね。元のリンクだと、モバイルで画面をほぼ覆い尽くす2つ目の広告で読むのを諦めたよ。広告が多すぎるのはひどいユーザーエクスペリエンスで、何も読ませてくれないからね。

styanax 2025/11/07 11:31:34

新しい発見なんだけどさ、Firefoxでcommondreams.orgのどんな記事でも開いてみてくれ。それでアドレスバーのReader Viewボタンを使ってみると、コンテンツを表示せずに、寄付を促す画面だけを見せるようにReader Viewをハックする方法を彼らが編み出したんだよ。

BobaFloutist 2025/11/10 23:11:43

俺のマシンではそれは起きてないみたいだね。少なくとも今のところはね(君がこのコメントをしてから3日後だけど)。

rbanffy 2025/11/08 10:49:43

iOSのReader Viewは命の恩人になることが多いよ。JavaScriptでコンテンツをブロックするサイトもあるけど、素早くReader Viewに切り替えれば快適に読めるんだ。ただ、Wikipediaの見出しが自動的に展開されるようになればいいのにな。

karel-3d 2025/11/07 08:10:01

俺はiOSでBraveを使ってるんだけど、大体うまくいくし、広告やCookieのポップアップもブロックしてくれるよ。(たまにサイトを壊すこともあるけど、シールドを無効にするのは簡単さ。)

pimeys 2025/11/07 09:10:25

Ublock Originを使って、サイトのJavaScriptを無効にすればいいよ。これで問題は解決でしょ。

prophesi 2025/11/06 18:58:59

俺も初めてそのページを見た時、個人情報収集に同意したくなかったからarchive.isを使ったんだよ。

danso 2025/11/06 17:52:58

召喚状が連邦ヘルスケア犯罪や児童の性的搾取・虐待の捜査を根拠にしてるって書いてあるんだ。
しかも、召喚状に名前がある捜査官の一人は何年も前に児童搾取事件を担当してたみたい。
詳細はここ見てみ:https://www.supremecourt.gov/DocketPDF/22/22-6039/245948/202…

_aavaa_ 2025/11/06 18:02:15

これって面白い方法じゃない?
1. 非公開のドメインに一時的にCSAMをアップロードする。
2. ページをアーカイブしてサイトを削除する。
3. みんなにアーカイブのリンクを送る。
っていうのがあり得るかもね。

wikipedia 2025/11/06 19:13:44

実際、CSAMを共有するのに似たようなことが頻繁に起きてるのを確認できるよ。
俺が11歳くらいの時のOmegleのコンテンツがネット中に出回って、何年も苦しんでるし(NCMECは素晴らしいリソースだけど)。
アーカイブサイトは悪意のある人たちに日常的に悪用されてるんだ。
archive.isでの実例はこれ:https://archive.is/https://ezgif.com/maker/*
NCMECに何度も通報したけど結果が出なかったけど、ドイツはアーカイブを削除してくれたよ。
ページには「jugendschutz.netからの要請により、このページは現在利用できません」って書いてあるでしょ。

r721 2025/11/06 18:16:58

オーナーがブログ記事(かTwitter?)で、実際にこんなことが起きてるって言ってた気がするんだけど、正確な言葉遣いを忘れちゃったな。
あ、見つけた!「site:blog.archive.today abuse」で検索したらこれ出てきたよ:https://blog.archive.today/post/117011183286/yesterday-i-did… (2015年)

もっとコメントを表示(2)
DebtDeflation 2025/11/06 19:03:16

CSAMみたいな問題は簡単な削除要請で解決すべきだし、archive.is側も絶対に応じるはずだよ。
archive.isを使ってる人の99.999%はニュース記事のペイウォールを迂回するためでしかない。正直言って、それがFBIが彼らを狙ってる本当の理由でしょ。

serial_dev 2025/11/06 19:24:58

俺の個人的な経験だけど、こういうアーカイブサイトをペイウォール回避で使うことはほとんどないよ。
俺が使うのは、既成のニュースサイトがたまにうっかり真実を報道して、その後上からの指示で元の記事を削除しようとするときに、それを証明するためなんだ。
これも俺の個人的な見解だけど、彼らが偽善や嘘を暴くのを可能にするから、これがFBIが狙ってる主な理由だと思うね。

perihelions 2025/11/07 10:39:47

昔、Reutersが犯罪組織の記事を削除し、Internet Archive(archive.org)もDMCAで消したけど、archive.isは残ったんだって。もし西洋インターネットが大企業だけのモノになったら、こういう検閲が普通になるよ。情報が自由に流れないシステムはダメだね。インターネットがグローバルでいろんな国の法律や文化と繋がってるのは、検閲から逃れる抜け道になってて良いことだよ。
[0] https://news.ycombinator.com/item?id=39065981#39065996

jalla 2025/11/07 10:39:31

FBIが誰かを捕まえたい時、CSAMを口実に捜査令状を出すってのは、汚い手口の一つだよね。

oscaracso 2025/11/07 21:27:41

それって合法なの?実用的な観点からは分かるけど、手続き上、連邦捜査官がそういう目的で情報を広める権限があるってこと?めちゃくちゃだね。

shevy-java 2025/11/06 16:41:03

データは残すべきなのに、FBIはデータを消そうとしてる。FBIが悪のために動くのを許しちゃダメだよ。データ、特に知識への人権があるべきだと思うんだ。今の法律は巨大企業に有利だけど、変えるべきだね。Wikipediaはまあまあだけど、情報が足りないし、視点も一つしかないし、たまに難しすぎて全然わかんない時があるんだよね。

baxtr 2025/11/06 16:49:35

同感。知識は人類みんなのものだよ。でも、大企業がインターネット全部をスクレイピングしても怒っちゃダメだよ。

BigTTYGothGF 2025/11/06 17:52:53

FBIが悪のために動くのを許しちゃダメ、って意見についてだけど、歴史的に見てもFBIがしてきたヤバいことのトップ100にも入らないと思うよ。

zahlman 2025/11/06 17:39:03

Wikipediaは情報が足りないし、視点も一つしかないって話だけど、Wikipediaはarchive.isをブラックリストに入れてるんだ。archive.isを使って過去の情報を証明しようとする人を悪者扱いしてるみたい。archive.orgは使ってるのにね。あと、宣伝みたいな情報や、検証されてない主張がソースになってることも多いよ。

throw0101d 2025/11/06 17:59:03

FBIがこれまでしてきた悪行のトップ100にも入らないって意見もあるけど、過去は変えられない。今起きていることと戦って、より良い未来を目指すしかないんだ。

pksebben 2025/11/06 19:39:59

FBIは良いことよりも悪いことの方が多くて、MLK Jr.みたいな政治的反対派を盗聴したり、Ruby Ridgeみたいにひどい失敗をしたりしてきた。秘密裏に活動する国内機関が倫理的に長く運営されるのは無理だよ。権限がありすぎるから、権力欲のあるサイコパスには魅力的だけど、道徳心のある人には興味がないんだ。

foofoo12 2025/11/06 16:55:41

大企業は人間じゃないよ。

Yokolos 2025/11/06 18:03:30

archive.orgは運営者がわかるけど、archive.isは不明ってのが違いだよ。個人利用なら問題ないけど、Wikipediaみたいなサイトには許されないね。別に難しくない話さ。

exe34 2025/11/06 17:03:55

彼らはアメリカの法律上、人として扱われるんだ。

capitainenemo 2025/11/06 16:57:52

AI企業がアーティストの作品から補償なしで利益を上げてるのに怒ってる人はいるよね。加えて最近のAI企業はウェブのスクレイピング方法も問題視されてる。Googleは昔からサイトをアーカイブしてたけど、AI企業はrobots.txtを無視するし、不適切な速度でクロールするし、同じリソースに何度もアクセスするし、IPアドレスを変えてまでやってくるから悪質だよ。

gilfoy 2025/11/06 17:24:54

AI企業が利益を上げてるって?本当に?

phantasmish 2025/11/06 17:30:15

著作権の廃止(あるいは大幅な制限)を望むことと、莫大なお金があれば著作権侵害が合法になる現状に怒るのは矛盾しないよ。権利執行が金持ちに有利なのは別の問題だし、「やるなら公平に、不公平なら少なくとも権力者に有利にならないように」ってのは全く有効な意見だよ。理想はそもそも著作権なんてない方がいいって考えながらね。

warkdarrior 2025/11/06 17:46:53

著作権を侵害しても罰せられない数少ない幸運な人たちを、ただ喜んであげればいいんじゃない?みんなが著作権を侵害できるようになるのはまだ先だけどね。

cestith 2025/11/06 19:24:30

ランキングで101位だろうが275位だろうが、それが悪じゃないってことにはならないよね。

johneth 2025/11/06 17:43:26

もしAI企業が、自分たちが制作費用を払ってないコンテンツから(サブスクとかで)お金を稼いでるなら、それは他人の苦労から利益を得てることになるよ。

andai 2025/11/06 20:32:50

Library of CongressがArchive.orgを買収するべきだと思うな。そうすれば、簡単には潰されない、長く存続する機関の一部になるはず。まあ、図書館への尊敬が急速に失われてるのは残念だけどね。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。