Anthropic、本の著者との巨額訴訟を15億ドルで和解!
引用元:https://news.ycombinator.com/item?id=45142885
他にもこんな記事があるよ。https://www.washingtonpost.com/technology/2025/09/05/anthrop…, https://www.reuters.com/sustainability/boards-policy-regulat…だよ。
これも参考にしてね。https://archive.ph/wugNc
はっきり言うけど、これはモデル学習の話じゃないんだ。フェアユース評価では、学習自体はフェアユースだけど、本の海賊版が問題なんだよ。Anthropicは学習データを手に入れるときに、うっかりそれをやっちゃったわけ。古本を買ってスキャンして学習するのはOK。Rainbows Endは色々な意味で先見の明があったね。
>古本を買ってスキャンし、それを使って学習するのはOK。って言うけど、誰もそんなことしないよ。最速で動いた会社に何十億ものVCマネーがかかってるんだからね。みんな罰金をリスクにするだけ。将来の抑止力には全然ならないよ。それはUberがタクシーの免許所有者と契約してれば問題なかったって言うのと同じだね。無許可タクシーを走らせて、投資家のお金で罰金を払い、有利な法律をロビー活動する方が速かったんだ。同じように、Anthropicも出版社ごとにライセンスする代わりに、DRMなしのPDFやePUBをどこからでもモデルに読み込ませる方が速かったんだ。
>無許可タクシーを走らせて投資家のお金で罰金を払い、有利な法律をロビー活動する方が速かった。
って言うけど、神に感謝だね。タクシーカルテルを是正する完全に合法な方法なんてなかったんだから。今じゃ多くの場所でUberを使わなくてもいいくらい、タクシーが競争しなきゃならなくなった。そうでなければ、彼らは”カードリーダーが故障してる”詐欺をやめなかっただろうし、わざと遠回りしたり、乗客を人種差別するのを難しくしたり、もっと責任を持たせるようなテクノロジーを使うこともなかっただろうね。
でも、最終的にそれが良いことだったのかは分からないな。今、UberやLyftは以前のタクシーより50〜100%も高くなってるよ。彼らは違う形で固定化されちゃったんだ。
>古本を買う。って、それはやっぱりおかしいよ。みんな図書館に保存されている全てを自由に読む権利以上を持っているんだ。(編集:実は最初、’〜するはずだ’と書いたんだけど、’〜する権利以上’に書き直したんだ。つまり、”知識はそこにあるんだから、みんな最大限の奨励を受けてそれにアクセスするべきなんだ”って意味だよ。)
>誰もそんなことしないだろう。って言うけど、15億ドルのリスクを負うか、1500万ドルを安全に支払うかの選択なら、やるかもしれないね。
選択肢1:$183B valuation、$1.5B settlement。
選択肢2:near-$0 valuation、$15M purchasing cost。
投資家から見れば、これはかなり良い取引に見えるだろうね。これは単なるビジネスコストだよ。僕の意見では、まさにこうしたやり方が間違ってるんだ。
>みんな図書館にある全てを自由に読む権利以上を持っている。
全ての人間にはそれらの本を読む権利があるんだ。そして、これは当然のことなんだけど、よく見落とされがちなことだよ。LLMは人間じゃないし、そんな権利は持っていないんだ。
30ドルくらいの海賊版の本に3,000ドルも払うって、割に合わない気がするんだけど。
アメリカの法律だと、Author’s Guild vs Googleの裁判(Googleの書籍スキャンプロジェクト)で、書籍をインデックス化するのはフェアユースとされてるんだよ。さらに、「人間には誰でも本を読む権利がある」っていつから?知識は自由であるべきだと思うけど、著者の言葉の並びを自由に複製するのは違う(ある程度の著作権保護は倫理的だと思う)。でも、本の知識を理解するツールを使うのは許されるべきだよ。
[1] https://en.wikipedia.org/wiki/Authors_Guild,_Inc._v._Google
「こういうやり方の何が問題なのか」って、俺の意見ではそうなんだよ。何が本当に問題なんだ?彼らは大量の海賊版書籍に15億ドル払ったんだろ。俺には妥当な金額に見えるけどな。和解金は社会が考えるコストか抑止力、あるいはその両方を反映すべきだ。これは議論を呼ぶかもしれないけど、自由な社会では、代償を払う意思があるならルールを破ることも許されるべきだと思うんだ。スピード違反できない車とか、非暴力的な抗議活動で投獄されないことを選べないとか想像してみてくれ。これは10億ドル相当の手つかずの自然を破壊して、軽い罰で済んだって話じゃないんだ。
彼は、図書館からどんな本でも無料で借りられるんだから、それを合法的な学習目的に使えるってことを言ってるんだと思うよ。だから、自分のコピーを持つ必要はないって話。
Aaron Swartzが生きてlibgenの時代を見たら、どう思ったんだろうな。
過去5年間のアメリカの30%を超えるインフレとか、UberやLyftが当初は市場シェア獲得のために赤字で運行してたけど、最終的に損益分岐点に到達しなきゃいけなかったこととか、考慮に入れた?
「UberやLyftが当初は市場シェア獲得のために赤字で運行してたけど、最終的に損益分岐点に到達しなきゃいけなかった」って?そんなやり方、ほとんどの先進国では、ひどいか、完全に違法とされてるよ。
それってどの法律を破ってるの?
「タクシーカルテルを是正する合法的な手段がなかったから、Uberがやってくれてよかった」って?いや、その代わりにUberはギグワーカーや社会に全てを押し付けたんだ。そして、その過程で200億ドルも損したんだぞ(不当廉売は安くないからな)。
アメリカは他の先進国と違って、いまだに雇用主に医療保険を依存する時代遅れのシステムだよ。国民皆保険みたいな制度は必要だよね。
https://en.wikipedia.org/wiki/Predatory_pricing#Legal_aspect…
Uberはタクシーより安いとみんなを信じさせたけど、今は空港でUberを待ってる人たちをよく見るよ。目の前のタクシーの方が2ドル安かったりするし、昔とは違うよね。
犯罪は犯罪だよ。アメリカのビジネスモデルは変わってきてる。昔はクールな技術でイノベーションしてたけど、今はUber、Google、AI企業みたいに、大規模な犯罪を犯して、後でお金を払って解決するっていう新モデルだ。これだと金持ちしかイノベーションできなくなるし、法の支配が崩れる。腐敗がひどい国みたいに、アメリカも将来、みんなが不幸になるバナナ共和国みたいになっちゃうぞ。社会契約が崩壊してるよ。
他の国では独占の乱用が違法だけど、ここで話してるのは違うよね。UberやLyftが始まった頃みたいに、スタートアップが既存の競合より安くやるのは違法じゃないよ。
誰もそんなことしないって言うけど、Googleはまさにそれをやろうと長い間プロジェクトを進めてたじゃないか?
https://en.wikipedia.org/wiki/Google_Books
Anthropicは訴訟で、モデルのトレーニングに不正な本を使ったと言われてたけど、実は使ってなかったことが判明したらしいよ。
フェアユースのポイントは、LLMのトレーニング自体がフェアユースだってことだよね。シェイクスピアの作品をトークン化してもそれは事実情報であって、作品そのものじゃない。でも、LLMがハリー・ポッター半分とか再現しちゃったら問題だよ。LLMが吐き出したコンテンツの著作権はどうなるの?人間じゃないから著作権なし?これからも裁判がたくさん起きそうだね。
AIにフェアユースがどう適用されるかはまだ結論が出てないと思うな。フェアユースは今の技術のために作られたわけじゃないからね。人間は読んだ本を完璧に覚えられないけど、LLMは完璧に記憶して、しかも盗用されたアイデアを大規模に広められる。LLM製品に対するフェアユースの線引きについて、まだまだ多くの疑問が残ってるよ。
「自由な社会ではコストを払えばルールを破れるべき」って?それって、超金持ちは法律に縛られないってこと?
富に比例したコストにしないと、法律無視の無法者が社会をめちゃくちゃにするぞ。
図書館は勝手し放題の場所じゃなくて、ライセンス契約の下で動いてるんだ。Googleだってイリノイ大学アーバナ・シャンペーン校の研究図書館と大モメした後で、やっとスキャン許可をもらったんだぜ。
でもbooks.google.comではプレビューしか見れない。なんでか?読者の課題だ。
もっとコメントを表示(1)
和解条件は次の通り(裁判PDFより):1. 少なくとも15億ドルの和解金:Anthropicは著作権者向けに最低15億ドルを支払う。50万点の著作物なら1点あたり約3,000ドルだ。増えれば追加で払う。
2. データセットの破棄:LibGenとPiLiMiから取得したデータセットを破棄する。
3. 請求の限定的免除:2025年8月25日までの過去の著作物リスト上の侵害のみ免除。将来の侵害やAIモデルが生成した侵害出力は含まないぞ。
それって、全部の本を買った方がはるかに安上がりだったってこと?
忘れるな、これは法的な判例にはならない!つまり、訴訟を起こす人はまたゼロから始めなきゃいけないってことだ。負けると思わなきゃ和解なんてしないぞ。
これ、GoogleがEpicとの訴訟でやったことと全く同じだ。みんながAppleに注目してる間にGoogleは引き延ばして、Appleが負けた後、Googleは不利な立場で和解したんだ。
うん、ずっと安上がりだったよ。しかも、Anthropicは結局後から本を全部買ったらしい。最初はただの海賊版だったけどな。
俺、著者なんだけど、これに乗れるかな?
やばいな。この和解はLLMの著作物利用に対するあらゆる異議申し立てを弱める可能性があるぞ。役員や投資家の間で裏取引がなかったら驚きだ。
和解しちゃうと、原告はもう請求権を持たない。つまり、もしニューヨーク・タイムズの訴訟にも参加してたら、そっちも撤回しなきゃいけないんだ。全国的な判決を骨抜きにするうまいやり方だと思わないか?
Anthropicが後から海賊版の書籍を買ったって情報、どこで確認できる?公式文書にはないよね。あと、新しいモデルは海賊版の書籍なしで学習されたのかも知りたいな。
それ、全然ちがうよ。和解文書の4ページ目には海賊版の本に関する請求しか載ってないんだから。著作権関連のスレッドでこんなに誤情報が多いなんて、マジで驚くわ。
Anthropicが海賊版を後で買ったって情報源はどこ?公式文書では見てないんだけど。
https://storage.courtlistener.com/recap/gov.uscourts.cand.43…
新しいモデルが海賊版なしで訓練されたのかも知りたいな。そうだと思うけど、確証はないし、すぐにソースは見つけられない。
これ、HN用語だと何て言うんだ?スタートアップの”Bootstrapping”?それとも”growth-hacking”かな?
Facebookもこれで訴えられて、判例が作られちゃうのかな?
Metaは訴えられたけど、衝動的に金儲けのためにやったことで、起訴されなかったとずっと思ってたよ。
リンクありがとう。裁判官はAnthropicが正規版を後から購入したと述べてるけど、『それが盗難の責任を免除するものではないが、損害賠償額には影響するかもしれない』って文章が一番関係ありそうだね。でも文書には、Anthropicが“全ての”海賊版を後から購入したとは明記されてない。この件が発覚して以来Claudeは使ってないけど、もし新しいモデルが海賊版を使ってないならまた使いたいな。『I’m pretty sure we do…』って、海賊版を使ったってこと?それとも使ってないってこと?
データセットで訓練したモデルをそのまま保持できるのか?それって結構大きな話だよね。モデルの寿命が短すぎなければだけど、どうなんだろう。
俺も同じ疑問持ってたよ。和解が承認されたら、このサイトで自分の作品があるか検索できるみたいだよ:
https://www.anthropiccopyrightsettlement.com/
もし作品があったら、和解金の一部がもらえる。なかったら、残念だけど無理だね。
著作物って50万件だけ?何百万冊もの本をダウンロードしたと思ってたんだけど。
”also”や”adjacent”を見落とした?俺は法律の細かいことは分からないけど、和解文書を読んだからって全部理解できるわけじゃないよ。フィンテック企業での俺の経験だと、和解を受け入れるのは防御を弱めるけど、判決と将来の同じ請求は防げる。だから、少なくとも実際の判決は避けられて、NYTとかの関連訴訟にはプラスになるだろうね。
それか、同じ泥沼にハマってる競合が、自分より長く争うと損するって思ってるんじゃない?
著作権のある作品を勝手にダウンロードしちゃダメって判例は山ほどあるんだよ。今回の訴訟はまさにそれ。Anthropicが絡んでるからって、これが新しいAIの問題ってわけじゃないんだよね。
後者だよ(冗談だって分かってるけどさ…)。スタートアップ界でのBootstrappingってのは、投資家を使わずに自己資金だけで起業すること。Anthropicは間違いなく投資家がいたんだから。
これはMetaやOpenAIに対する別の訴訟だよ。著作権侵害はもちろんだが、著作物を再現したり模倣したりできるモデルを一般公開することの是非はまだ決着してないんだ。
ドキュメントはAnthropicが海賊版の全書籍を買ったとは言ってないね。僕もその主張はしないよ。海賊版データセットには流通していない本も含まれていて、Anthropicは中古で手に入れられなかったかもしれない。でも、主要原告が出版した本は全て手に入れているから、かなり網羅的だ。彼らは”全ての”本を買おうと試みたようだね。
海賊版の書籍は使われてないと僕は思うけど、確信はないし、いつこの意見を持ったのかは覚えてないんだ。
世界中にいる著作権者の数を考えたら、それは現実的に不可能かもしれないね。
それらを買う許可については、Google Booksが2000年代にすでに解決済みだよ。
彼らは実際に買ったよ。でも、最初に本を海賊版として手に入れた後だけどね。
確かにその通り!Googleは遅延戦術を使ったと思うよ。世論や他のプレッシャーがAppleの訴訟を加速させたからね。(編集:Appleが負けたときに屈したってこと。だって同じケースなんだから。)
和解するのは、負けるって思うか、すでに欲しい判決を手に入れたかのどっちかだよね。
AnthropicのAI学習は、合法的に手に入れた素材についてはフェアユースって判断されたし、Anthropicも現在のデータ取得モデルはこれだって主張してる。
もしそれが本当なら、残りの部分で戦う意味はないし、PR的にもこれは正しい動きだね。
君が混乱してるのを僕に投影されても困るよ。
“In my experience\&training in a fintech corp-”なんて話を持ち出してるけど、和解を受け入れると防御が弱まるだけで、NYT(やその周辺)のケースには有利になるなんてことはない。
俺はIP litigatorだけど、君は全然わかってないね。このケースで残ってたのは海賊版の書籍ライブラリの件だけだったし、Alsupのフェアユース決定は和解で無効にならないし、有利だと思う人は今後も引用するだろうよ。
ありがとう。ケースのPDFリンクをここで探すのが早いと思ったんだけど、あなたの要約は助かるよ!
本当に、支払いだけじゃなくてデータセットの破棄も含まれるんだね。
記事では”Anthropicはこれらの海賊版作品を一切使ってない”って言ってるけど、もし他の生成AI企業が海賊版のデータを使って学習して商業化してたら、潜在的な責任は莫大になるだろうね。業界を揺るがすのは間違いないって彼が言ってる通りだ。
それが真実だとしても、近い将来どれくらいのケースを見るんだろうね。
本格的な訴訟は何年も続くし、控訴もあってリスクが高いから、和解するのは自然なことだね。もちろん、和解は判例にならないってことは明らかだよ。
もっとコメントを表示(2)
もしあなたが著者なら、関連するリンクをいくつか紹介するよ。
あなたの作品がLibGenに含まれてるか、著者名で検索できるよ。これに該当すればクラスメンバーになれると思う。https://www.theatlantic.com/technology/archive/2025/03/searc…
もしクラスメンバー(またはそう思うなら)なら、原告側の弁護士に連絡先をここから送れるよ。https://www.anthropiccopyrightsettlement.com/
ほとんどの著者が、この和解金で自分の本を売って得たお金よりも多くを稼ぐことになるなんて、かなり信じられないことだよね。
これは2018年のデータだよ。https://authorsguild.org/news/six-takeaways-from-the-authors…
中央所得は3100ドルで、Anthropicの和解による平均報酬3000ドルより大きいね。https://www.npr.org/2025/09/05/nx-s1-5529404/anthropic-settl…
もちろん、片方のデータは7〜8年前のもので、もう片方は数週間前の数字だし、中央値と平均は同じ意味じゃない。Author’s Guildの調査対象とAnthropicの訴訟の原告クラスがどう対応してるかも不明だけどね。
でも、だいたい同じくらいの範囲だってことだね。
投稿ありがとう!
自分の作品がデータセットに含まれてるんじゃないかって疑ってたんだけど、どうやらその通りみたい!フォームから連絡したよ。
うわ、自分の名前を好奇心で検索してみたら、PhD research papersが出てきたよ。連絡先を提出する価値はありそうだね。
それってその著作物に著作権があるかどうかによるかもね。
ありがとう!自分も影響を受けるとは思ってなかったけど、programming booksを何冊か書いていて、libgenに載ってるやつもあるんだ。連絡先を提出したから、何か進展があるといいな…。
わお、自分の本が8冊も見つかったよ!
8作品 × 3,000ドル/作品は、悪くない和解金だね!
これってChinese AIにとって大きな勝利だと思うんだ。Western companiesは収集・学習できるデータ量が制限されるけど、中国(や他のforeign AI)はもっと多くて質の高いデータにアクセスできるだろうからね。
西洋は著作権を制限すれば、イノベーションの苦痛や法的障害をなくせる。著者死後70年、企業90年は長すぎる。25年くらい、ソフトウェアなら10年でいい。AI companiesが最新コンテンツを使うなら所有者に支払うべきだ。だが西洋は、20世紀初頭の緩い規制で得した幸運な老人や企業を永遠に富ませたがっている。今の世代が同等の富を得ることを許さないんだ。
ほとんどの本は最初の数年を過ぎると利益が出ないから、Lawrence Lessigの「5年ごとの手数料付き著作権更新」提案が良いと思うよ。この制度だとほとんどの本は5年後にパブリックドメインに入る。Lessigは「今の著作権期間は長すぎる。私は5年ごとに更新し、最大75年というシステムを提案した。当時としてはかなり過激だと思ったね。The EconomistはEldred decision後、『14年に戻し、28年まで更新可能にしよう』と提案した。何であれ、14年以上も収益を回収する期間は必要ない。」https://www.econlib.org/library/Columns/y2003/Lessigcopyrigh…
Lessigの提案は素晴らしいね。昔、McGraw-Hill、J Wiley、Springer-Verlagといった出版社から本を10冊書いたことがあるんだ。でも、今はCreative Commonsライセンスを使ってLulu、LeanPub、自分のウェブサイトで本を出してる。経済的にも得だし、コモンズに貢献できるのも気持ちいいし、楽しいよ。
人々って5年待ってから本を買うだけになっちゃわない?
Anthropicは昔、LibGenから本を違法に盗んでAIを学習させたけど、今はちゃんと本を買ってスキャンしてるよ。過去の違法行為の和解金だから、今の学習方法は問題なし。合法的に手に入れた本でLLMを学習するのはFair Useだって判事も言ってるしね。中国企業もLibGenから盗めるだろうけど、Anthropicはもう合法的にほとんどの本を持ってるし、スキャンはそんなに費用がかからないよ。さらに、スキャンのおかげでニッチな本もデジタル化できて有利かもね。
「合法的に手に入れたスキャンデータでのLLM学習はFair Useに該当しない」って言ってるけど、「Fair Useに該当する」って言いたかったんじゃないの?
うん、ごめんね、俺の言い間違いだ。
一つの会社がデジタル化して販売・共有する方が、多くの会社が個別にやるより効率的だよね。欧米企業は大丈夫だろうけど、アメリカで違法になるようなデータ共有は、海外の会社には有利に働くよ。
これって、底辺への競争じゃないんだよ。彼らは盗む代わりに、ちゃんと本を買うこともできたはずなんだ。
中国のAIモデルがフリーパスだなんて、ナイーブすぎるよ。現地の検閲とか言語・データの偏り、輸出規制とか、彼らにだって影響があるんだから。
いやいや、中国のAIがフリーパスじゃないって思う方が、よっぽどナイーブだよ。逆なんだから。
でもさ、Anthropic、OpenAI、GoogleのAIモデルって、ほとんどがプラットフォーム上でLLMによって言い換えられたユーザーデータを使って学習してるんだよ。そのユーザーデータって独自のもので、普通の本よりずっと価値があるんだ。
いいじゃん、AIがそんなにすごいものなら、20億人以上の中国人にも使わせてあげればいいじゃん?
確かにね。でも今って、合成データでの学習がSOTA(最高性能)をどんどん押し上げてるみたいだよ。