1兆のWebページがアーカイブされた!
引用元:https://news.ycombinator.com/item?id=45487476
archive.orgのP2Pミラーリング機能があったら嬉しいな。本家のアプリはすぐエラーになるし。Bittorrentみたいにゆっくりミラーして、P2Pで提供できたら最高!ArchiveBoxも使ってるけど、結局IAの膨大なデータには敵わないね。
ディスク容量をarchive.orgに寄付して、レアなコンテンツをミラーリングするシステムを考えたんだ。Bittorrentベースでコンテンツ配信もできる。いくつかのアーカイブチームに提案したけど、誰も興味示さなくて、結局作らなかったな。
IAってIPFS使わないのかな? 古いWebサイトだとJavaScriptやCSSが動かない問題もあるし。当時のデータから壊れたコードを修正できたらいいのにね。IAでドメイン選んだら、WARファイルをデスクトップクライアントがダウンロードして、オフラインで見れるようになったら最高だよね。
長期的にインターネットアーカイブのリソースを維持するのは本当に難しい問題だよね。Filecoinもうまくいかないと思う。アーカイブ維持の重要性を感じる人と、金銭目的でストレージを運営する人では目的が違いすぎるから。IAに直接お金を送って、ストレージ費用を賄う方が現実的だよ。(IAボランティアより)
Anna’s Archiveに、まさにこのシステムがあるよ。Freenetみたいな感じだね。
僕の考えてるシステムはボランティア制で、レアなファイルを最小限にするように自動でバランスを取るんだ。長期コミットメントは難しいから、短期参加をすごく簡単にすれば、全体でうまくいくんじゃないかな。
「バージョン管理された」Bittorrentってあるのかな? 適切なPGPキーがあれば、Bittorrentとパッケージングシステムを組み合わせて、更新可能なディストリビューションができるかもね。
Freenetは暗号化がすごいけど、それは今回の話とは違うね。Anna’s ArchiveってBittorrent以外に何があるんだろう?
Anna’s ArchiveもBittorrentを使ってるね。僕もActivityPubでIAみたいなのを作ろうと調べてたんだけど、IPFSは誰も使わないってIAと同じ結論に至ったよ。一般ユーザーには難しいし、ツールも少ない。結局Bittorrentの方が実用的なんだよね。
ちょっと混乱してるんだけど、これってディスクスペースを提供できるシステムじゃないの?
https://annas-archive.org/torrents
何か誤解してる気がするな。
いや、別に俺は何にもしてないよ、今はただの設計だしね。でも、いいデザインだと思うんだ。
もしどの Archive Teamでもこれに協力したいなら、ぜひ実現したいな。分散型でボランティア主導のバックアップのための、良い FOSS システムを作れると嬉しいね。
トレントの問題は、ファイルが変わると(たまに小さいメタデータ変更でも)更新されて、シーダーが見つからなくなることだね。
古いハッシュのリストも持っておけば、少なくとも手動で古いトレントからデータを復元しようとできるんじゃないかな?
textfilesにメールしてみたらどう?
彼なら ArchiveTeamの誰に繋ぐべきか知ってるし、IAの分散型 Webの人たちと繋がる機会もあるかもよ。
君のアーキテクチャは torrentプリミティブに依拠しているから、Filecoinや IPFSより優れてるって強く信じてるんだ。(IAを信頼できる情報源とし、最後の手段のストレージシステムとする。→アイテムインデックス→トレントインデックス→グローバルな torrentスウォーム)
俺のシステムは、「X GB提供したい」って言うだけで、あとは全部処理してくれるんだ。スペースを埋めたり、珍しい torrentsを入手したり、アップデートしたりね。
ただ torrentをダウンロードして終わりじゃなくて、グローバルに分散した信頼性の低い JBODを中央サーバーが「プッシュ」方式で管理する、って考えるといいよ。
なんか Wualaに似てるね。
https://www.youtube.com/watch?v=3xKZ4KGkQY8
それは古い情報だよ。
こういった問題は BitTorrent Enhancement Proposalsで解決済みだよ。新しい torrentは作るけど、スウォームのメンバーにとっては古い torrentを更新するのと機能的に同じ方法で配布されるんだ。
BEP-0039と BEP-0046を見てみて。これらは torrentを更新するための HTTPと DHTのメカニズムをそれぞれカバーしてるよ。
https://www.bittorrent.org/beps/bep_0039.html
https://www.bittorrent.org/beps/bep_0046.html
もしその更新された torrentが BEP-0052(v2)torrentなら、ファイルごとにハッシュされるから、変更されていないファイルについては更新された v2 torrentでも同じハッシュになるよ。
https://www.bittorrent.org/beps/bep_0052.html
これは BEP-0038と組み合わされるから、更新された torrentはファイルを共有する古い torrentの infohashを参照できるんだ。だから、古いものを持っていれば、変更されたファイルだけダウンロードすればいいんだよ。
https://www.bittorrent.org/beps/bep_0038.html
Internet Archiveとは別の Archive Teamが、Internet Archiveの一部を分散バックアップしてたんだ。
https://wiki.archiveteam.org/index.php/INTERNETARCHIVE.BAK
ただ、もう何年か休止状態だけどね。
Webアーカイブは本当に遅いってのは確認済みだよ。
AIスクレイパーが帯域幅のボトルネックを作ってるのを見たことがある気がする。
一部のデジタルアーカイブでは科学的なアカウントを作る必要があるんだ(Common Crawlがそうだったと思う)。
データはかなり簡単に巨大になるし、多くのものを保存するのが目標だからね。インターネットだけでなく、時間の次元も加えて保存してるし。
データが多すぎるから、ナビゲートしたり検索したりするのが難しくて、簡単に使えなくなるんだ。
例えば、だから俺は自分のメタデータリンクを作ったんだよ。ドメインに関する情報が必要だったからね。
Link:https://github.com/rumca-js/Internet-Places-Database
あれこれ言われてるけど、結局IPFSとかってどのクライアントやライブラリに実装されたの?もう何年も経ってるんだけど。
今ちょっと探したんだけど、archive.orgの人が書いためっちゃ長いブログかコメントで、IPFSは遅すぎるしトランザクション量も多いから実用的じゃないって結論付けてたのを読んだ気がするんだよね。その記事見つけたい!
編集: https://github.com/internetarchive/dweb-archive/blob/master/…
だってIPFSで誰もピンしないからね。正直、今は余計な手順を踏むHTTPみたいなもんだよ。
そうそう、前にスクレイピングで過去のWebページを見ようとした時、Internet Archiveから情報取るのがめっちゃ大変だったよ。結局、https://pypi.org/project/pywaybackup/っていうライブラリを使ったらかなり助けられたけどね。
IPFSってアイデアは最高なのに実行がイマイチだよね。コンテンツアドレス型ストレージ自体はすごく良いけど、実際の大きい規模(ハードディスク1台以上)で使うのはめっちゃ難しいよ。
彼にメールしたけど、まだ返信ないんだよね。もしもう少し詳しい情報が知りたかったら、僕が書いた短い設計ドキュメントがこれだよ: https://gist.github.com/skorokithakis/68984ef699437c5129660d…
それは他のコレクションしかカバーできないよ。だって、Wayback MachineのWebスクレイプから得られるWARCファイルは公開されてないんだもん。
トレントの更新に関するBEPがいくつかあるよ:
https://www.bittorrent.org/beps/bep_0039.html
https://www.bittorrent.org/beps/bep_0046.html
BitTorrent v2っていう標準があるんだけど、残念ながらほとんどのFOSS torrentクライアントは対応してないんだよね。一部はリリース当初のLibtorrent 2.0.xのIO性能が悪かったせいで、torrentクライアントが1.2.xブランチに戻っちゃったからさ。詳しくはここ見てね: https://blog.libtorrent.org/2020/09/bittorrent-v2/
SciOpがその分野でなんかやってるみたいだよ、カタログサイトとWebseedsでね。ここがそのサイト: https://sciop.net/
やあ、Internet Archiveでデータセンターやインフラチームを運営してる者だけど!この秋に開催されるいろんなイベントにぜひ来てほしいな。もしチケット代の支払いが難しい場合は、僕にメールしてくれれば(プロフィールにアドレスがあるよ)、可能なら招待するから遠慮なく言ってね!
イベントは世界中で分散開催されるの?それともチームが集まってる場所(多分サンフランシスコかな?)だけなのかな?
P.S. Internet Archiveのチームのみんな、本当にありがとう!君たちが提供してるものは人類にとってすごく重要なことだよ。
もっとコメントを表示(1)
ねぇQ、Internet Archiveのサイズってどれくらいなの?
大まかに言うと、ユニークデータは150〜200ペタバイトの間ってとこかな。僕が最後に確認した時は、その範囲の低めだったと思うよ。
それは十分デカいから、実際の物理的な磁気チャージで取り込まれたデータって、人が感じられるくらいの重さがあるのか気になるな。もちろんハードウェアは家一つを埋め尽くすだろうけど、世界のデータが、少なくとも理論上だけど、はっきりとした物理的な現実になるのはどの時点なんだろうね?
Exabyteか、それに近いサイズだと思うな。
一番知りたいのは、そんなにたくさんのアーカイブページをどうやって信頼性高く安全に保存・ホストしてるのかってこと!この巨大なプロジェクトについて簡単に説明してくれない?
あと、この素晴らしい成果、本当におめでとう!君たちは僕にとっての情報の頼みの綱だよ。追記: 全部で何テラバイトになるの?
NSAが米国のサーバーにアクセスできるのはみんな知ってるよね。悪意ある改ざんからアーカイブをどう守ってるの?不変ストレージとか使ってる?ポスト量子暗号で安全なの?
なんでそんなことするんだ?これまで彼らが誰かのウェブサイトを”悪意を持って改ざん”した事例って見たことある?
Internet Archive(IA)がアーカイブしてるデータの完全性と不変性に疑問があるだけだよ。なんでデータを改ざんするのか知りたい?
https://seclab.cs.washington.edu/2017/10/30/rewriting-histor…
https://blog.archive.org/2018/04/24/addressing-recent-claims…
NSAはすでにRSAにバックドアを仕掛けるために金を払い、ハッキング済みのルーターを流通させているのがバレた。QUANTUMでページを書き換えたり、感染したリモートマシンからデータを抜き取ったりできるんだぜ。他に何ができると思う?
https://www.amnesty.org/en/latest/news/2022/09/myanmar-faceb…
Internet Archive(IA)自身がデータを改ざんする可能性もあるんじゃない?もともと公式な歴史的スナップショットとして、真剣な目的で使われるようには作られてないし。でもこれまでにも注目されるネットの騒動でそういう使われ方をしてきたよね。ひそかに改ざんされて悪意のある目的で参照されるのは時間の問題だと思う(たぶん選挙中とかに)。
もしヨーロッパにいるなら、Software Heritage(Internet Archiveに似てるけど、ソースコード専門)も検討してみてね。
https://www.softwareheritage.org/jobs/
Internet Archiveは今アムステルダムにも拠点があるんだって。
ここで話してるイベントって何のこと?
たぶんこれらだよ。
https://blog.archive.org/events/
この偉業に関する技術的な詳細を知りたいな。例えばそもそもどうやってクローリングするのかとかストレージのこととか。
もっとコンテンツをアーカイブするのを手伝いたいなら、ArchiveTeamっていうボランティアグループがあるよ。彼らはIAにデータを提供してるんだ。興味あるならhttps://archiveteam.org/を見てみたら?
みんなの旅行の写真を無料で保存する場所になっちゃわないように、ちゃんと人間が「これ、アーカイブする価値あるね」って決めなきゃいけないんじゃない?
ArchiveTeamのメンバーがウェブサイトのクロールを始められるんだ。誰でもリクエストできるし、理由を伝えればだいたいクロールしてくれるよ。
1兆ページもアーカイブしたのはすごいけど、検索できないのはもったいないなぁ。URLがわかってないと見つけられないのは不便だよね。アーティスト名とかファイル名、画像の中身とかで検索できるようになるといいのに。
それを全部インデックス化するなんて、めちゃくちゃ大変だろうね。
時間軸も考慮したら、今のインデックス戦略とそんなに変わらないんじゃないかな。別のサイトみたいに動いて、あとでドメインごとに結果をまとめるとか?
Googleみたいな企業の問題だったらすぐ解決するだろうけど、誰かがお金もらってやらない限り、世の中って動かないもんだよね。
AI企業がIAとかCommon Crawlからすごく恩恵を受けてるのに、少しもお金が還元されないのは残念だよね。
Kagiか何かで、こういう検索機能があった気がするんだけどなぁ。今見つけられないんだよね。
それってプライバシー的にどうなの?robots.txtが無効になって、サイトを削除するのも後からじゃできなくなる、並行ウェブができちゃうじゃん。データは公開されてるから避けられないけど、IAを検索可能にするのはマジでやばいと思う。
実はね、Internet Archiveはrobots.txtを遡及的に尊重してると思うんだ。例えば、今disallowリストに追加したら、1年前のWebayback Machineのスクレイプも公開アクセスから削除されるって。でも、もしかしたら違うかもしれないから、詳しい人がいたら教えてほしいな。
記憶が正しければ、Internet Archiveはrobots.txtが悪用されて古いページの削除に使われるようになったから、もう気にしなくなったんだよね[1]。ページを削除してほしい場合は、フォームと理由が必要だよ[2]。(robots.txtはプライバシー対策じゃなくて、クローラーが同じ場所をぐるぐる回るのを防ぐためのものだからね!)
[1] https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea…
[2] https://help.archive.org/help/how-do-i-request-to-remove-som…
へぇ、知れて良かったよ。個人的な意見だけど、あまり共感されてないみたいだけど、サイトをネットから削除するってことは、歴史的にアクセスできなくなって、インデックスされず、簡単な検索でも見つからなくなるって意味だったはず。もし今後その常識を変えるなら、少なくとも遡及的に尊重するのが礼儀だと思うんだ。
それって、一度リリースされたものは完全に「リリースされてない」状態にはできないっていう考え方と矛盾するんじゃないかな。
そうかもしれないね。以前調べたけど、はっきりした答えは出なかったんだ。でも、サイトをオフラインにするってことは、robots.txtのDisallow
の究極の指示だって、広く理解されてきたはずだから、それを尊重すべきだよ。
関連情報だよ: https://wiki.archiveteam.org/index.php/Robots.txt
(あと、こういう機能を禁止しちゃうと、開発が裏に潜るだけで、DRMみたいに真っ当なユーザーだけが損をするってことも考えてみてね。)
もっとコメントを表示(2)
俺はGPTウェブ検索を使ってて、いつもInternet Archiveから教科書を探すんだ。教科書にはすごくいいんだけど、ウェブページについてはどうかな。
関連するブログ記事で体験談を募集してるよ:https://blog.archive.org/2025/09/23/celebrating-1-trillion-w…
Internet ArchiveとCommon Crawlって一緒に仕事したことあるのかな?範囲とかインフラってどう違うんだろう?目的は違うけど、やってることは基本的に似てるよね。
Internet ArchiveはCommon CrawlとかArchiveTeamとか、他のグループからのWARCを取り込んでると思うよ。
IAがAI企業と取引して全アーカイブを渡すって話。多額の寄付をくれたらアーカイブを維持できるし、データも全部渡す。もし断ったら、ダウンロード速度は激遅になるし、全部手に入れるのに何年もかかるぞ。
そんなことしたら、IAが公共財として築き上げてきた信頼がぶっ壊れるぜ。みんな自分のコンテンツがアーカイブされるのは気にしないけど、データを売るのは許さないだろうな。
統計が見れたら面白いだろうな。データ量がどれくらいかとか、分布はどうなってるのかとか。時間でページが重くなってるし、同じページが何度もアーカイブされてるから、その辺も気になるぜ。
IAが著作権屋に閉鎖されてないのが不思議だぜ。IAは遅すぎて使えないから、俺はいつもarchive.isを使ってる。でも、彼らの努力には敬意を払うよ。
閉鎖はされなかったけど、訴訟に負けて著作権コンテンツの貸し出しができなくなって、かなり不便になったよ。それから俺のサイト利用は10分の1に減ったな。
ドメインごとの訪問統計があったらいいのにね。そうすれば、ライブサイト運営者が自分のサイトとarchive.orgのアーカイブ、どっちがどれだけ見られてるか比較できて便利じゃん?
インターネットの歴史にとって素晴らしい節目だね!
これ、IPFSに全部コピーして、オンチェーンに置くべきだよね。
Jason Scottこと@textfilesの講演が含まれてたらよかったなー。彼の話っていつもすごく面白いからさ!
じゃあ、全ウェブページをスクレイピングする代わりに、Archiveに払えば全データ手に入るってこと?
ちょっと関係ないバカな質問なんだけど、もしインターネット上の全ページのバージョンを10年間、毎秒アーカイブしたら、10年後には1デシリオンページになるの?
今頃、OpenAIはもっとたくさんのページをアーカイブしてるのかな。
おめでとう!
これらの全ページのインデックスってあるの?
政府(やデータにアクセスできる他の人たち)が歴史を書き換えるのをどう防ぐの?
何かブロックチェーンでハッシュ化するの?
歴史を書き換えられないってのは世界にとって素晴らしい贈り物になるよね。