1兆のWebページがアーカイブされた！

1兆のWebページがアーカイブされた！

引用元：https://news.ycombinator.com/item?id=45487476

arjie 2025/10/06 05:10:01

archive.orgのP2Pミラーリング機能があったら嬉しいな。本家のアプリはすぐエラーになるし。Bittorrentみたいにゆっくりミラーして、P2Pで提供できたら最高！ArchiveBoxも使ってるけど、結局IAの膨大なデータには敵わないね。

stavros 2025/10/06 13:51:07

ディスク容量をarchive.orgに寄付して、レアなコンテンツをミラーリングするシステムを考えたんだ。Bittorrentベースでコンテンツ配信もできる。いくつかのアーカイブチームに提案したけど、誰も興味示さなくて、結局作らなかったな。

giancarlostoro 2025/10/06 13:41:29

IAってIPFS使わないのかな？古いWebサイトだとJavaScriptやCSSが動かない問題もあるし。当時のデータから壊れたコードを修正できたらいいのにね。IAでドメイン選んだら、WARファイルをデスクトップクライアントがダウンロードして、オフラインで見れるようになったら最高だよね。

toomuchtodo 2025/10/06 13:56:02

長期的にインターネットアーカイブのリソースを維持するのは本当に難しい問題だよね。Filecoinもうまくいかないと思う。アーカイブ維持の重要性を感じる人と、金銭目的でストレージを運営する人では目的が違いすぎるから。IAに直接お金を送って、ストレージ費用を賄う方が現実的だよ。（IAボランティアより）

1gn15 2025/10/06 13:58:11

Anna’s Archiveに、まさにこのシステムがあるよ。Freenetみたいな感じだね。

stavros 2025/10/06 13:59:17

僕の考えてるシステムはボランティア制で、レアなファイルを最小限にするように自動でバランスを取るんだ。長期コミットメントは難しいから、短期参加をすごく簡単にすれば、全体でうまくいくんじゃないかな。

zapataband2 2025/10/06 05:26:11

「バージョン管理された」Bittorrentってあるのかな？適切なPGPキーがあれば、Bittorrentとパッケージングシステムを組み合わせて、更新可能なディストリビューションができるかもね。

stavros 2025/10/06 13:59:47

Freenetは暗号化がすごいけど、それは今回の話とは違うね。Anna’s ArchiveってBittorrent以外に何があるんだろう？

TechSquidTV 2025/10/06 13:49:22

Anna’s ArchiveもBittorrentを使ってるね。僕もActivityPubでIAみたいなのを作ろうと調べてたんだけど、IPFSは誰も使わないってIAと同じ結論に至ったよ。一般ユーザーには難しいし、ツールも少ない。結局Bittorrentの方が実用的なんだよね。

1gn15 2025/10/06 16:21:21

ちょっと混乱してるんだけど、これってディスクスペースを提供できるシステムじゃないの？
https://annas-archive.org/torrents
何か誤解してる気がするな。

stavros 2025/10/06 14:09:55

いや、別に俺は何にもしてないよ、今はただの設計だしね。でも、いいデザインだと思うんだ。
もしどの Archive Teamでもこれに協力したいなら、ぜひ実現したいな。分散型でボランティア主導のバックアップのための、良い FOSS システムを作れると嬉しいね。

kevincox 2025/10/06 14:39:53

トレントの問題は、ファイルが変わると（たまに小さいメタデータ変更でも）更新されて、シーダーが見つからなくなることだね。
古いハッシュのリストも持っておけば、少なくとも手動で古いトレントからデータを復元しようとできるんじゃないかな？

toomuchtodo 2025/10/06 14:14:56

textfilesにメールしてみたらどう？
彼なら ArchiveTeamの誰に繋ぐべきか知ってるし、IAの分散型 Webの人たちと繋がる機会もあるかもよ。
君のアーキテクチャは torrentプリミティブに依拠しているから、Filecoinや IPFSより優れてるって強く信じてるんだ。（IAを信頼できる情報源とし、最後の手段のストレージシステムとする。→アイテムインデックス→トレントインデックス→グローバルな torrentスウォーム）

stavros 2025/10/06 16:23:42

俺のシステムは、「X GB提供したい」って言うだけで、あとは全部処理してくれるんだ。スペースを埋めたり、珍しい torrentsを入手したり、アップデートしたりね。
ただ torrentをダウンロードして終わりじゃなくて、グローバルに分散した信頼性の低い JBODを中央サーバーが「プッシュ」方式で管理する、って考えるといいよ。

zerd 2025/10/06 18:57:06

なんか Wualaに似てるね。
https://www.youtube.com/watch?v=3xKZ4KGkQY8

Lammy 2025/10/06 16:04:57

それは古い情報だよ。
こういった問題は BitTorrent Enhancement Proposalsで解決済みだよ。新しい torrentは作るけど、スウォームのメンバーにとっては古い torrentを更新するのと機能的に同じ方法で配布されるんだ。
BEP-0039と BEP-0046を見てみて。これらは torrentを更新するための HTTPと DHTのメカニズムをそれぞれカバーしてるよ。
https://www.bittorrent.org/beps/bep_0039.html
https://www.bittorrent.org/beps/bep_0046.html
もしその更新された torrentが BEP-0052（v2）torrentなら、ファイルごとにハッシュされるから、変更されていないファイルについては更新された v2 torrentでも同じハッシュになるよ。
https://www.bittorrent.org/beps/bep_0052.html
これは BEP-0038と組み合わされるから、更新された torrentはファイルを共有する古い torrentの infohashを参照できるんだ。だから、古いものを持っていれば、変更されたファイルだけダウンロードすればいいんだよ。
https://www.bittorrent.org/beps/bep_0038.html

pronoiac 2025/10/06 13:31:15

Internet Archiveとは別の Archive Teamが、Internet Archiveの一部を分散バックアップしてたんだ。
https://wiki.archiveteam.org/index.php/INTERNETARCHIVE.BAK
ただ、もう何年か休止状態だけどね。

renegat0x0 2025/10/06 11:46:53

Webアーカイブは本当に遅いってのは確認済みだよ。
AIスクレイパーが帯域幅のボトルネックを作ってるのを見たことがある気がする。
一部のデジタルアーカイブでは科学的なアカウントを作る必要があるんだ（Common Crawlがそうだったと思う）。
データはかなり簡単に巨大になるし、多くのものを保存するのが目標だからね。インターネットだけでなく、時間の次元も加えて保存してるし。
データが多すぎるから、ナビゲートしたり検索したりするのが難しくて、簡単に使えなくなるんだ。
例えば、だから俺は自分のメタデータリンクを作ったんだよ。ドメインに関する情報が必要だったからね。
Link:https://github.com/rumca-js/Internet-Places-Database

NoMoreNicksLeft 2025/10/06 16:15:40

あれこれ言われてるけど、結局IPFSとかってどのクライアントやライブラリに実装されたの？もう何年も経ってるんだけど。

komali2 2025/10/06 14:25:10

今ちょっと探したんだけど、archive.orgの人が書いためっちゃ長いブログかコメントで、IPFSは遅すぎるしトランザクション量も多いから実用的じゃないって結論付けてたのを読んだ気がするんだよね。その記事見つけたい！
編集: https://github.com/internetarchive/dweb-archive/blob/master/…

stavros 2025/10/06 13:44:22

だってIPFSで誰もピンしないからね。正直、今は余計な手順を踏むHTTPみたいなもんだよ。

uses 2025/10/06 15:51:51

そうそう、前にスクレイピングで過去のWebページを見ようとした時、Internet Archiveから情報取るのがめっちゃ大変だったよ。結局、https://pypi.org/project/pywaybackup/っていうライブラリを使ったらかなり助けられたけどね。

outside1234 2025/10/06 13:53:34

IPFSってアイデアは最高なのに実行がイマイチだよね。コンテンツアドレス型ストレージ自体はすごく良いけど、実際の大きい規模（ハードディスク1台以上）で使うのはめっちゃ難しいよ。

stavros 2025/10/12 16:06:07

彼にメールしたけど、まだ返信ないんだよね。もしもう少し詳しい情報が知りたかったら、僕が書いた短い設計ドキュメントがこれだよ: https://gist.github.com/skorokithakis/68984ef699437c5129660d…

smallerize 2025/10/06 15:30:56

それは他のコレクションしかカバーできないよ。だって、Wayback MachineのWebスクレイプから得られるWARCファイルは公開されてないんだもん。

pabs3 2025/10/06 05:39:51

トレントの更新に関するBEPがいくつかあるよ:
https://www.bittorrent.org/beps/bep_0039.html
https://www.bittorrent.org/beps/bep_0046.html

throawayonthe 2025/10/06 11:01:16

BitTorrent v2っていう標準があるんだけど、残念ながらほとんどのFOSS torrentクライアントは対応してないんだよね。一部はリリース当初のLibtorrent 2.0.xのIO性能が悪かったせいで、torrentクライアントが1.2.xブランチに戻っちゃったからさ。詳しくはここ見てね: https://blog.libtorrent.org/2020/09/bittorrent-v2/

pronoiac 2025/10/06 13:43:35

SciOpがその分野でなんかやってるみたいだよ、カタログサイトとWebseedsでね。ここがそのサイト: https://sciop.net/

jonah-archive 2025/10/06 05:41:33

やあ、Internet Archiveでデータセンターやインフラチームを運営してる者だけど！この秋に開催されるいろんなイベントにぜひ来てほしいな。もしチケット代の支払いが難しい場合は、僕にメールしてくれれば（プロフィールにアドレスがあるよ）、可能なら招待するから遠慮なく言ってね！

psychoslave 2025/10/06 07:08:54

イベントは世界中で分散開催されるの？それともチームが集まってる場所（多分サンフランシスコかな？）だけなのかな？
P.S. Internet Archiveのチームのみんな、本当にありがとう！君たちが提供してるものは人類にとってすごく重要なことだよ。

もっとコメントを表示（1）

moralestapia 2025/10/06 07:02:53

ねぇQ、Internet Archiveのサイズってどれくらいなの？

textfiles 2025/10/08 01:57:34

大まかに言うと、ユニークデータは150〜200ペタバイトの間ってとこかな。僕が最後に確認した時は、その範囲の低めだったと思うよ。

metalman 2025/10/06 11:19:31

それは十分デカいから、実際の物理的な磁気チャージで取り込まれたデータって、人が感じられるくらいの重さがあるのか気になるな。もちろんハードウェアは家一つを埋め尽くすだろうけど、世界のデータが、少なくとも理論上だけど、はっきりとした物理的な現実になるのはどの時点なんだろうね？

the_real_cher 2025/10/06 11:21:44

Exabyteか、それに近いサイズだと思うな。

southernplaces7 2025/10/06 09:23:25

一番知りたいのは、そんなにたくさんのアーカイブページをどうやって信頼性高く安全に保存・ホストしてるのかってこと！この巨大なプロジェクトについて簡単に説明してくれない？
あと、この素晴らしい成果、本当におめでとう！君たちは僕にとっての情報の頼みの綱だよ。追記: 全部で何テラバイトになるの？

WhereIsTheTruth 2025/10/06 08:13:25

NSAが米国のサーバーにアクセスできるのはみんな知ってるよね。悪意ある改ざんからアーカイブをどう守ってるの？不変ストレージとか使ってる？ポスト量子暗号で安全なの？

gosub100 2025/10/06 12:09:36

なんでそんなことするんだ？これまで彼らが誰かのウェブサイトを”悪意を持って改ざん”した事例って見たことある？

WhereIsTheTruth 2025/10/06 13:24:46

Internet Archive（IA）がアーカイブしてるデータの完全性と不変性に疑問があるだけだよ。なんでデータを改ざんするのか知りたい？
https://seclab.cs.washington.edu/2017/10/30/rewriting-histor…
https://blog.archive.org/2018/04/24/addressing-recent-claims…
NSAはすでにRSAにバックドアを仕掛けるために金を払い、ハッキング済みのルーターを流通させているのがバレた。QUANTUMでページを書き換えたり、感染したリモートマシンからデータを抜き取ったりできるんだぜ。他に何ができると思う？
https://www.amnesty.org/en/latest/news/2022/09/myanmar-faceb…

gosub100 2025/10/06 16:30:31

Internet Archive（IA）自身がデータを改ざんする可能性もあるんじゃない？もともと公式な歴史的スナップショットとして、真剣な目的で使われるようには作られてないし。でもこれまでにも注目されるネットの騒動でそういう使われ方をしてきたよね。ひそかに改ざんされて悪意のある目的で参照されるのは時間の問題だと思う（たぶん選挙中とかに）。

pabs3 2025/10/06 06:59:59

もしヨーロッパにいるなら、Software Heritage（Internet Archiveに似てるけど、ソースコード専門）も検討してみてね。
https://www.softwareheritage.org/jobs/

msephton 2025/10/06 10:29:01

Internet Archiveは今アムステルダムにも拠点があるんだって。

awesomeMilou 2025/10/06 05:49:34

ここで話してるイベントって何のこと？

jackling 2025/10/06 06:29:31

たぶんこれらだよ。
https://blog.archive.org/events/

vettyvignesh 2025/10/06 08:11:49

この偉業に関する技術的な詳細を知りたいな。例えばそもそもどうやってクローリングするのかとかストレージのこととか。

pabs3 2025/10/06 05:40:53

もっとコンテンツをアーカイブするのを手伝いたいなら、ArchiveTeamっていうボランティアグループがあるよ。彼らはIAにデータを提供してるんだ。興味あるならhttps://archiveteam.org/を見てみたら？

londons_explore 2025/10/06 19:39:13

みんなの旅行の写真を無料で保存する場所になっちゃわないように、ちゃんと人間が「これ、アーカイブする価値あるね」って決めなきゃいけないんじゃない？

pabs3 2025/10/07 04:59:58

ArchiveTeamのメンバーがウェブサイトのクロールを始められるんだ。誰でもリクエストできるし、理由を伝えればだいたいクロールしてくれるよ。

msephton 2025/10/06 10:32:39

1兆ページもアーカイブしたのはすごいけど、検索できないのはもったいないなぁ。URLがわかってないと見つけられないのは不便だよね。アーティスト名とかファイル名、画像の中身とかで検索できるようになるといいのに。

qwertytyyuu 2025/10/06 10:36:11

それを全部インデックス化するなんて、めちゃくちゃ大変だろうね。

Exuma 2025/10/06 10:49:29

時間軸も考慮したら、今のインデックス戦略とそんなに変わらないんじゃないかな。別のサイトみたいに動いて、あとでドメインごとに結果をまとめるとか？

citbl 2025/10/06 10:40:02

Googleみたいな企業の問題だったらすぐ解決するだろうけど、誰かがお金もらってやらない限り、世の中って動かないもんだよね。

Keyframe 2025/10/06 10:49:04

AI企業がIAとかCommon Crawlからすごく恩恵を受けてるのに、少しもお金が還元されないのは残念だよね。

1gn15 2025/10/06 13:57:09

Kagiか何かで、こういう検索機能があった気がするんだけどなぁ。今見つけられないんだよね。

bluebarbet 2025/10/06 11:33:43

それってプライバシー的にどうなの？robots.txtが無効になって、サイトを削除するのも後からじゃできなくなる、並行ウェブができちゃうじゃん。データは公開されてるから避けられないけど、IAを検索可能にするのはマジでやばいと思う。

breakingcups 2025/10/06 12:42:46

実はね、Internet Archiveはrobots.txtを遡及的に尊重してると思うんだ。例えば、今disallowリストに追加したら、1年前のWebayback Machineのスクレイプも公開アクセスから削除されるって。でも、もしかしたら違うかもしれないから、詳しい人がいたら教えてほしいな。

1gn15 2025/10/06 16:26:57

記憶が正しければ、Internet Archiveはrobots.txtが悪用されて古いページの削除に使われるようになったから、もう気にしなくなったんだよね[1]。ページを削除してほしい場合は、フォームと理由が必要だよ[2]。(robots.txtはプライバシー対策じゃなくて、クローラーが同じ場所をぐるぐる回るのを防ぐためのものだからね！)
[1] https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea…
[2] https://help.archive.org/help/how-do-i-request-to-remove-som…

bluebarbet 2025/10/07 10:06:15

へぇ、知れて良かったよ。個人的な意見だけど、あまり共感されてないみたいだけど、サイトをネットから削除するってことは、歴史的にアクセスできなくなって、インデックスされず、簡単な検索でも見つからなくなるって意味だったはず。もし今後その常識を変えるなら、少なくとも遡及的に尊重するのが礼儀だと思うんだ。

fragmede 2025/10/07 10:17:20

それって、一度リリースされたものは完全に「リリースされてない」状態にはできないっていう考え方と矛盾するんじゃないかな。

bluebarbet 2025/10/06 14:32:20

そうかもしれないね。以前調べたけど、はっきりした答えは出なかったんだ。でも、サイトをオフラインにするってことは、robots.txtのDisallowの究極の指示だって、広く理解されてきたはずだから、それを尊重すべきだよ。

1gn15 2025/10/06 16:18:32

関連情報だよ: https://wiki.archiveteam.org/index.php/Robots.txt
(あと、こういう機能を禁止しちゃうと、開発が裏に潜るだけで、DRMみたいに真っ当なユーザーだけが損をするってことも考えてみてね。)

もっとコメントを表示（2）

emporas 2025/10/06 10:40:59

俺はGPTウェブ検索を使ってて、いつもInternet Archiveから教科書を探すんだ。教科書にはすごくいいんだけど、ウェブページについてはどうかな。

ChrisArchitect 2025/10/06 04:56:53

関連するブログ記事で体験談を募集してるよ:https://blog.archive.org/2025/09/23/celebrating-1-trillion-w…

ks2048 2025/10/06 10:40:33

Internet ArchiveとCommon Crawlって一緒に仕事したことあるのかな？範囲とかインフラってどう違うんだろう？目的は違うけど、やってることは基本的に似てるよね。

pabs3 2025/10/06 11:09:58

Internet ArchiveはCommon CrawlとかArchiveTeamとか、他のグループからのWARCを取り込んでると思うよ。

londons_explore 2025/10/06 19:36:00

IAがAI企業と取引して全アーカイブを渡すって話。多額の寄付をくれたらアーカイブを維持できるし、データも全部渡す。もし断ったら、ダウンロード速度は激遅になるし、全部手に入れるのに何年もかかるぞ。

Lapra 2025/10/06 19:51:09

そんなことしたら、IAが公共財として築き上げてきた信頼がぶっ壊れるぜ。みんな自分のコンテンツがアーカイブされるのは気にしないけど、データを売るのは許さないだろうな。

ehsanu1 2025/10/06 04:56:09

統計が見れたら面白いだろうな。データ量がどれくらいかとか、分布はどうなってるのかとか。時間でページが重くなってるし、同じページが何度もアーカイブされてるから、その辺も気になるぜ。

FooBarWidget 2025/10/06 06:37:52

IAが著作権屋に閉鎖されてないのが不思議だぜ。IAは遅すぎて使えないから、俺はいつもarchive.isを使ってる。でも、彼らの努力には敬意を払うよ。

groos 2025/10/06 16:24:55

閉鎖はされなかったけど、訴訟に負けて著作権コンテンツの貸し出しができなくなって、かなり不便になったよ。それから俺のサイト利用は10分の1に減ったな。

lofaszvanitt 2025/10/06 07:53:01

ドメインごとの訪問統計があったらいいのにね。そうすれば、ライブサイト運営者が自分のサイトとarchive.orgのアーカイブ、どっちがどれだけ見られてるか比較できて便利じゃん？

zghst 2025/10/06 05:49:49

インターネットの歴史にとって素晴らしい節目だね！

philippz 2025/10/08 01:32:49

これ、IPFSに全部コピーして、オンチェーンに置くべきだよね。

lyu07282 2025/10/06 07:56:25

Jason Scottこと@textfilesの講演が含まれてたらよかったなー。彼の話っていつもすごく面白いからさ！

totaldude87 2025/10/06 15:29:23

じゃあ、全ウェブページをスクレイピングする代わりに、Archiveに払えば全データ手に入るってこと？

vivzkestrel 2025/10/07 03:29:17

ちょっと関係ないバカな質問なんだけど、もしインターネット上の全ページのバージョンを10年間、毎秒アーカイブしたら、10年後には1デシリオンページになるの？

not--felix 2025/10/06 09:35:49

今頃、OpenAIはもっとたくさんのページをアーカイブしてるのかな。

BiraIgnacio 2025/10/06 12:26:22

おめでとう！

i_have_to_speak 2025/10/06 06:46:22

これらの全ページのインデックスってあるの？

timmy777 2025/10/06 08:24:50

政府（やデータにアクセスできる他の人たち）が歴史を書き換えるのをどう防ぐの？
何かブロックチェーンでハッシュ化するの？
歴史を書き換えられないってのは世界にとって素晴らしい贈り物になるよね。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。