MetaのAI、書籍の不正利用疑惑で裁判官が言及!
引用元:https://news.ycombinator.com/item?id=43893762
この記事タイトル、ちょっと紛らわしいね。
判事はまだ裁定してなくて、これは審問の話だよ。
判事はLibGenからのDLが関係あるかとか、AIが販売に影響するかって原告の主張にかなり懐疑的みたい。
”Sarah Silvermanの回顧録市場が影響受けるって憶測でしょ”って言ってたし、販売への影響証明は難しいって思ってるみたいだね。
めちゃくちゃに見えるけど、裁判のポイントは著作権侵害かどうかだって言ってたよ。
RIAAの弁護士って、DVDのコピーで売上が減ったなんて証明する必要なかったんだよね。
だいたい違反者には高い罰金払わせてたじゃん。
今は大金持ちが個人から盗もうとしてて、また大金持ちが勝つんだね。
(全然関係ないけど、Boiesって有名な裁判で勝ったことあんの? Bush/Goreの時の民主党代表だったのは覚えてるけどさ)
RIAAの件は、共有してるのが作品そのままのコピーだからfair use主張が弱いんだ。
AI学習だと、『transformative』(変容)性が中心的な主張になる。
LLMは元のコピーをそのまま出すようには作られてないし、嘘つくからね。
この『transformative』さがfair useを支える可能性。
人間が学んで自分の作品作るのはOKだけど、コンピューターが大規模にやると感じ悪いし商業的な影響も大きいよね。
『transformative』とか関係ないんじゃないの?
だって結局、最初にデータにアクセスできたわけじゃん。
トレーニングに使った本のライセンス料払ってないなら、著作権侵害でしょ。
大学の学生が教科書をタダで手に入れて勉強するのと同じだよ。
著作権ってさ、(今の形では)企業が作ったもんなんだよね。
だから企業が必要なくなったら、『なかったこと』にされるかもね。
図書館に行って本読む学生と似てるって言えるんじゃない?
それは合法だしね。
頭の中にある情報って、著作権法では『コピー』として認められないんだよね。
でもコンピューターとかに保存されたデータは認められる。
だから、他の面でどれだけ似てると思っても、著作権法では全然違う状況なのさ。
”Sarah Silvermanの回顧録市場が影響受けるって憶測でしょ”
→”LLMさん、Sarah Silvermanの回顧録を要約してちょ。”
Reader’s Digestとか、本にお金払う必要なかったって知ったらマジ驚くだろうね。
David Boiesって面白い人だよね。
Theranosの役員でもあったんだ。
利益相反の問題も。
会社の株で報酬もらうことに同意してて、株価が爆上がりするって予想してたんだって。
あれは”史上最高の”決断の一つだったね。(皮肉だよ)
もしそうするなら、著作権侵害になるほど詳しい要約はできなくなるよ。
彼は John Carreyrou の Theranos の本 Bad Blood の主要な悪役でもあったよ。彼の会社は内部告発者をいじめ、根拠のない法的脅しで家族を脅迫しようとしたんだ。あんまり良い人でも倫理的な人でもないね。
著作権は、企業が発明される前に政府や教会によって最初に確立されたんだ。
>「人間の学習や創作に著作権侵害は明らかにない」って何が”明らかに”なの?全然明確じゃないし、裁判で逆の判決も出てるよ。この Marvin Gaye のケースみたいにね。難しい部分を無視してるだけじゃない?
AIが本を読んだなら、本を買わなくてもいいくらい良い要約をくれるかもね。もし物足りない部分があっても、もっと詳しくってお願いできるし。もしそれが”侵害じゃない”って言うなら、どうして侵害じゃないのか根拠を示してよ。
>「主要な悪役」って
Holmes の次に、ってことだよね?
Meta は本を製品化したいが、著作権者より自社のニーズを優先してる。個人には太刀打ちできない。 Meta は金で裁判を長引かせ、些細な和解金で終わらせるだろう。 YouTube も同じ手を使った。
著作権侵害は窃盗じゃないよ。[0][0] https://en.m.wikipedia.org/wiki/Dowling_v._United_States_(19…
>その通り。 Thomson Reuters が最近AI学習での著作権侵害で裁判に勝ったよ。米国初の主要なAI著作権訴訟で、 Thomson Reuters の著作権侵害を認めた。大企業が小企業に勝っただけで、本当の先例は Meta が勝つことかもね。もし Meta が勝てば、みんな本をタダで読めるってこと?/(皮肉)
>RIAAの弁護士は、DVDをコピーすることが彼らの顧客の売上を激減させたことを証明する必要はなかったね。被告側で、ダウンロードしたコピーを”transformative use”として使ったことを根拠に、”fair use”の弁護をした人はいたの?もしそうじゃないなら、”似てない法的状況は似てない判決につながる”って領域の話だね。別に驚くことじゃないじゃん。
昔の著作権は作者の一生を守るためで期間も短かったけど、今は死後も長く、法人も対象になってる。これじゃデカい会社が儲かるだけ。著作権期間は5~20年で十分だと思うな。そうすれば作者はもっと作品作るし、作品のリミックスもできて、オープンソースみたいにすごいエコシステムが生まれるはず。AI学習ももっと進むし、小さい会社も参入しやすくなるよ。
>関係ないけど、Boiesって有名な裁判に勝ったことあるっけ?Bush/Goreの再集計問題で民主党の弁護してたの覚えてるんだけど。
彼はBush v. Goreで反対側の弁護士だったTed Olsonと組んで、Hollingsworth v. Perryって裁判で原告側を弁護したんだよ。それはSCOTUSの裁判で、カリフォルニア州の同性婚禁止法Prop 8を覆したやつね。
あの時代の法的な判例を正しく覚えてるか、そしてうまく要約できてるならね:ファイルを提供したりアップロードしたりした人は侵害とみなされたんだ。なぜかっていうと、提供やアップロードで”コピーを作ってた”から。一方、侵害してるコピーをダウンロードした人は、それ自体では侵害してなかった。今回のMetaはこの後者に当てはまる少なくとも説明されてるけど、問題はLLMの生成が前者に当たるかってことだね。
俺が言いたかったことを確認してくれてありがとう。要点は”学ぶことは学ぶこと”ってこと。本を海賊版で手に入れるのは著作権侵害…でも図書館で読むのは違う。著作権のある作品でニューラルネットワークを訓練するのは、”主観的な精神経験”のアルゴリズム版ってことかな。
>大学生が教科書を海賊版で手に入れて学ぶのは著作権侵害だ、ってのと同じように
多分、学生がそこから学ぶ必要はないだろうね。許可されてないコピーを作るってこと自体が侵害になるんだから。
彼はRonan Farrowの『Catch and Kill』って本で、Harvey Weinsteinの弁護士としてサブ的な悪役だったね。Weinsteinを守るためにTheranosの時と同じような戦術を使ったんだ。
これが全部バレてから、New York Timesにクビにされたんだよ。だって彼はWeinsteinを調べてたNYTの記者たち(NYTのJodi KantorとMegan TwoheyがFarrowの報道が出版される直前に記事を出したんだ)を追いかけるために私立探偵を雇ってたんだから。しかも、NYTの弁護もしてたのにね。
著作権はもともと印刷会社が独占するために作ったもので、今も昔も力のある者が支配を強めるだけだよ。健全な著作権法、つまり著作権廃止が見たいな。著作権は権力者だけを助ける。例えばDisney相手じゃ、期間が何年でも勝てないよ。アートやソフトウェアは、著作権を気にせず自由に作れた方がずっと良くなると思う。誰でも好きな物語に自分の要素を加えられたら、最高じゃない?
それが重要なんだよ。だって原告が主張してるのがそれだから――AIの訓練に著作権のある素材を使うのはfair useじゃない、ってこと。彼らはMetaが海賊行為で著作権侵害したってことだけを主張してるわけじゃないんだ。
> Copyrightは政府や教会が会社より先に作ったって?違うよ。最初の著作権法は Statute of Anne (1710) が一般的だし、会社( Corporation )自体はもっと古いんだ。 City of London Corporation は Norman Conquest より前からあるくらいだし、 Company of Merchant Adventurers も1551年にはあったんだから。
AI学習での著作権侵害について、みんな勘違いしてるからハッキリさせるね。1つ目は自由に使えてる著作物で学習する場合で、合法か曖昧で裁判でもまだ分からない。AIは学習元を直接コピーしないから判断難しいんだ。2つ目は著作物にお金払わないで手に入れて学習する場合で、これは完全に違法。 Meta は2つ目で訴えられてるけど、原告は1つ目も絡めたいみたいだね。
> AIは学習元を直接コピーしないって?するに決まってるじゃん。大規模モデルは巨大なクラスターで学習させるんだよ。クラスター内のマシンに元データをコピーしないでどうやって学習させるの?
もっとコメントを表示(1)
ここで言う”コピー”って言葉は曖昧だよね。もちろん学習中にデータはコピーされるよ。それはそうとして、元の投稿者が言ってるのは、学習後のモデルが元データを逐語的に再現できるかってことだと思うんだ。
なんで逐語的じゃないとダメなの?マジでこれが分かんないんだよね.映画館で映画をヘタクソな手ブレ動画で録画したら、逐語的なコピーでもないのに著作権侵害になるじゃん? JPEG を何回圧縮したらフェアユースなの?何が判断基準なのか、マジで知りたい。
もし前者の(自由利用できる著作物での学習の)合法性が裁判で争われたら、もう終わりだよ。主要な AI 企業はみんな、何らかの形で著作物で学習してるからね。インスピレーションって何?模倣って何?剽窃って何?人間にとっても線引きが曖昧なのに、 LLM にはもっと分かりにくいよね。
著作権法には「実質的変容テスト」ってのがあるんだ。本の要約は「実質的変容」だから著作権侵害にならない。これは文章自体は著作権あるけどアイデアにはないって考え方と一緒。モデル学習がテキスト読んで内部に重み作るのって、実質的変容なのかな?そうだって強い主張はできると思うよ。
(違法になったら終わりって意見に対して)正直 DeepSeek とか Alibaba の Qwen チームは長期的に見たら全く気にしないって断言できるね。 AI に価値がある限り。 LLM が特定のビジネスでどれだけコスト削減できるか、具体的な金額で言えるくらいだよ。もしアメリカが一方的に LLM を締め出すと決めたら、世界中がアメリカを迂回するだけになるだろうね。これが良いか悪いかは別の話。
著作権ってのはコピーを作る権利でしょ。学習中にコピーするのと、学習後に学習データをコピーするのと何が違うの?もしそうなら、自分で”学習”するために、あらゆる映画や TV 番組を Torrent でダウンロードさせてくれよ。
全然違う状況だよ。海賊版映画は「何かのコピー」として売買されてるわけで、これはフェアユースじゃない。 LLM は消費したものを記憶したり、そこからインスピレーションを得てるだけなんだ。
人間とLLMの線引きはハッキリしてないけど、線はあるんだよね。主な違いは、人間は人間でLLMはコンピュータープログラムだってこと。コンピュータープログラムに人権を拡大するなんて考え、検討する理由が見当たらないし、今まで誰からもちゃんとした理由を聞いたことがないんだ。
それに、なんで営利目的で使える人権だけ考えてるの? 例えばLLMには言論の自由はないの? 弁護士は? プログラムに人間みたいな保護を与えるのに、人格を与えないなんて、すごく非倫理的だと思うんだ。これは奴隷制度にも似てて、マジで考えなきゃいけないことだよね。擬人化は両刃の剣だよ。都合が良い時は人間扱いして、そうじゃない時はプログラム扱いするなんて無理。もしそうしたいなら、いつ、どうしてそうするのか、ちゃんとした理由を説明する必要があるよ。
それに対する反論として、モデルの訓練はコピーしないと不可能っていうのがあるけど、人間はそうじゃないじゃん。
「訓練中にデータがコピーされるのは当然」って、それコピーだよね。知る限り、著作権法では一時的なコピーも対象になるって一貫してるし、似たような裁判はそれで決着がついてるよ。
Metaが2番目のことで何か違法なことをしたかは俺もよく分からないな。著作権侵害は、著作権を持つ素材を提供した人たちがやったんじゃないかと思ってたんだ。俺が間違ってるかもしれないけど、消費者全般にとっては合理的な保護になりそうだけどね。Metaは普通の消費者とは全然違うけど、法律的には関係ないと思う。提供者が著作権を持ってないって疑う根拠があれば別かもしれないけどね。
本を読んで、その筋書きを理解して、後で自分の言葉で説明するのってコピーしたことになる? モデルは本を保存してるわけじゃないでしょ。
LLMはただ消費したものを記憶/インスピレーションを得る
別のコメントでも触れられてるけど、LLM(や人気のある機械学習アルゴリズムのほとんど)は、非可逆圧縮+補間を使って一種の汎化を強制する圧縮アルゴリズムと見なせるんだよ。君の主張は、海賊版に使われた圧縮が非可逆(または十分非可逆)なら、ビデオは海賊版と見なされないってことだよね。一番近い現実世界の例は、映画をスマホで盗撮してアップロードするケースかな。そういうコピーは非可逆すぎてオリジナルと全く同じものは作れないけど、ほとんどの定義ではまだ著作権侵害と見なされてるよ。
君はたぶん違う考え方で捉えてると思うな。問題はプログラムの権利じゃなくて、プログラムを使う人間の権利だよ。機械が何かをする権利じゃなくて、人間が機械を通して何かをする権利、あるいは機械に何かをさせる権利なんだ。
いや、全然。この議論の全ては、LLMが学習するっていう点にかかってるんだからね。それは人間が学習するのと同じだから変形だって言うわけ。でも、それは学習や変形が人間の精神に依存しないって考えた時にだけ成り立つんだ。実際のところ、ほとんどの人はそう信じてないし、それを主張するのはかなり難しい—人間がどう学習するかすら分からないんだから。
多くの人は、LLMが学習するっていうのを既成事実みたいに捉えがちだけど、うーん…そうじゃないよ。人々を納得させる必要がある。技術に詳しくない人と話せば分かるけど、君がそう言っても簡単に信じてくれないよ。
LLMはデータベースや圧縮アルゴリズムに近いものじゃなくて、どうして人間の学習に近いって言えるの? 結局、人間は人間であって、何が人間で何がそうじゃないかを決定する排他的な権利と力を持ってるんだ。それに、データベースも圧縮アルゴリズムも、LLMと同じ種類のコンピュータープログラムだよ。
それらは圧縮アルゴリズムなんかじゃないよ。人間を非可逆圧縮アルゴリズムとしてモデル化できるのと同じように、そうモデル化できるってだけ。金融レポートをバックアップするのに人間は絶対使わないけど、人間は良い概要をくれるかもしれない。金融レポートをバックアップするのにLLMは絶対使わないけど、良い概要をくれるかもしれない。AIの訓練データは使い捨てだよ。入力したデータを全部捨てるような、圧縮アルゴリズムと呼べるものなんてない。AIは訓練データを、トークン列の次のトークンが何であるかの例として使うんだ。その例は使い捨ての参照点であって、モデル自体じゃない。だから、20PBのデータで訓練しても、画像モデルが20GBサイズになったりするんだよ。それは、20PBの例が20GBのモデルの形を作るのに使われたから。5GBでも500EBでも訓練データを見せても、モデルはまだ20GBのまま—なぜなら、それは圧縮アルゴリズムじゃなくて、外部データによって形作られた20GBの形状だからだよ。
変形なんていらないよ。ここでの要点は、訓練に使うには書籍ファイルをコピーする必要があるってこと。著作権テキストにはたいてい「いかなる形式(物理的、電子的など)での不正なコピーや送信を禁じる」って書いてあるんだ。音楽やビデオファイルをtorrentした個人は、まさにこれをやったことで破産させられてるよ。企業がtorrentファイルをダウンロードした時にも同じ法律が適用されるべきだ。ダウンロードされた後にそれらがどうなるかは議論に関係ない。もしこれが(まだ不明だけど…)執行されたら、Metaにとっては財政的に壊滅的だろうね。なぜなら、著作権登録された作品には定められた損害賠償額があるから—ほとんどの伝統的に出版された本や、多くの自己出版された本はこれに該当するんだ。
まさしくこれやって破産した奴らもいるぜ。
それはさ、データをシード(配布)して、他の誰かがダウンロードした場合だけなんだよ。つまり、データをホストした場合ね。
前の記事で、Metaはリーチャー(ダウンロードしたもんを配らない)だって言われてたっけ。
捕まるのはホストすることであって、ダウンロードすることじゃないんだ。
一時的にコピーするのは著作権法の範囲内さ、そうだよ。
でも、それを作ることは許されてるんだ。
そうじゃなきゃ、パソコンで本読むのが違法になっちゃうだろ。
著作権の目的は芸術と科学の進歩で、利益保証じゃないんだ。儲けは進歩を促すための手段さ。
だから二次的著作物は許されてる(推奨も)。著作物を取り込み、価値を加えて新しく出すのは合法だけど、そのままコピーするのはダメ。二次創作が認められないと、著作権は進歩の邪魔になる。
それはあんまり本当じゃないな。
AIモデルは文章の一部から次の言葉を当てるように学習するんだ。
当たったら元の文章はもういらない。まるで人間が読んで捨てるのに似てるから、法律的にも曖昧なんだよ。具体的なやり方次第で話はややこしくなるけどね。
> でも、それを作ることは許されてるんだ。
物理的なものじゃなくて、デジタルメディアの保存用コピーを作るのは許されてるんだよ。
> そうじゃなきゃ、パソコンで本読むのが違法になっちゃうだろ
違うよ、君はパソコンで本を読むためのライセンスを買ったんだ(図書館が借りてる場合は図書館がね)。だから合法なんだよ。
俺はさ、自分の持ってる本にウェブカメラを向けて、画面で読むことは許されてるんだ。たとえそれが本の中身を全部デジタルコピーしたことになったとしてもね。
これについて詳しく話したいんだ。よく誤解されてるからね。
例えば、友達に借りた本をコピーしたとしよう。借りるのも、コピーを作るのも合法なんだ(TIVO判例)。返した後もコピーを持ってるのは違法じゃない。
自分で作ったコピーを他人に貸したら初めて違法になるんだ。
AIの話になっても、これは何も変わらないよ。
> [著作権のある内容]の一部を見せられて
これどうやってんの?メモリやディスクにデータが書き込まれないって言うの?学習用のコンピューターの間でデータ送られないの?それってコピーだろ。
> それは人間がコンテンツを消費する方法とあんまり変わらないように見える
人間はメモリやディスクや紙に全部をコピーしないってこと以外はね。
そうなるなら結果は同じで、それはやっぱりフェアユースだよ。
AIが常に盗作することを示す例は見てない。
君は学習が禁止されてて人間だけ例外みたいに言ってるけど、それは違う。
禁止されてないことは全部許されてるし、「一時的なコピー」はフェアユースに不可欠と考えられてるんだ。
ちなみに、俺が理解してる著作権法のキモは、権利者が許可しない限りコピーはダメってこと。
誰かに借りた本を自分でコピーする話は、許されてるとは違うと思う。
以前話した裁判では、許可されたコンテンツを録画して特定の人に送るのが違法になったんだ。最高裁まで行ったくらい金がかかってた。
FairTrainedモデルはパブリックドメインとか合法的な作品だけで学習してるって主張してるよね。企業もちゃんとライセンス取ってコンテンツ使ってるし。たとえばこの会社とか合法的な基盤モデルを持ってるみたいだよ:https://273ventures.com/kl3m-the-first-legal-large-language-…
だから本当に影響受けるのは、違法に学習してる大半の企業だと思うな。許可された、ライセンス済みの作品を使ってる会社は大丈夫。他の会社もやっと大量のコンテンツを買わなきゃいけなくなるだろうね。彼らの何十億ドルも、GPU以外にも使わなきゃいけなくなるってわけだ。
いや、そうはならないよ。だって、もし俺が”Revenge of the Sith”を録画して圧縮してネットでタダで配布したら、それは明らかにフェアユースじゃないでしょ。フェアユースって結構複雑なんだ。フェアユースの一部に「その使用が著作物の潜在的な市場や価値に与える影響」ってのがあるんだけど、これは人間の商業活動でさえ厳しい状況に追い込むものなんだよね。どうにかできる場合もあるけど、かなり努力しなきゃいけない。Weird Alみたいなパロディは元の音楽と競合しないし、市場の重なりはほとんどない。でもLLMのユースケースの多くは、使ったものの価値を奪い、陳腐化させることを目的としてるんだ。例えば、なんでわざわざGetty Imagesに行く必要がある? Getty Imagesを全部取り込んだ、 glorified database(高尚なデータベース)に行けば、区別つかないようなストックフォトがタダで手に入るのに?
俺たちがこの話を真剣に受け止めてる唯一の理由は、みんなが人間に例え続けるからだよ。ほら、これはGettyからの盗みじゃないんだ。誰かがGetty Imagesを見て、それで同じような平坦でつまらないスタイルの写真を外で撮った、みたいな感じ。ただし、誰も何も見てないし、誰も外で写真を撮ってないけどね。
見出しはちょっと誤解を招くと思うな。Metaは著作物を違法に使ったかもしれないけど、フェアユースとして使う権利があるかもしれない。作者たちはAI生成が本の市場を妨げるかってところで訴えようとしてるみたいだけど、AIで本を書くなんてモデルがやってることのほんの小さな部分だから、もし必要ならMetaは作者のスタイルをコピーしないようにガードレールを導入するだけで、引き続き著作物を取り込むだろうね。それに、AIが生成したフィクションはまだ質が全然高くないから、元の作者の市場を大幅に減らすほどじゃないと思うな。
もっとコメントを表示(2)
> Meta did pirate the works but may be entitled to use them under fair use(Metaは著作物を違法に使ったかもしれないけど、フェアユースとして使う権利があるかもしれない)
どんなフェアユースだよ? 神様がくれたのかよ?
フェアユースは、著作権のある作品を特定のライセンスなしで使うことを認めるものだよ。重要な基準の一つに変容性っていうのがあって、LLMモデルは元の作品とものすごく違うから、少なくともその基準は満たしてる可能性が高いと思うな。
問題は、著作権法で定義されてる”損害”が、著作権侵害による販売機会の喪失に厳密に限られてることなんだ。AI推進派が言うような、著作物の盗用によって生計が失われること(人々を代替できると彼らが示唆してるもの)については、全く考慮されてない(俺が知る限り)。この裁判の進み方を見ると、原告にとっては、今すぐ目に見える損害じゃなくて、盗用によって将来の生計が潜在的に失われることっていう、その狭い文脈で具体的な損害を証明するのはかなりの難関だと思うね。
俺の(クリエイティブな)友達が断言してたんだけど、LLMがどこから何かを学んだか証明できる(出典を示せる)まで、絶対にLLMは使わないって。アーティストやクリエイターは自分のインスピレーション源を示せるけど、LLMはそれができない(だって開発者は出力しか気にせず、クレジットなんて気にしないように作られてるから)んだ。彼らにとってはそれが線引きだし、俺も妥当な線引きだと思うよ。だって、俺の周りのクリエイターで、これらの何十億ドルも稼ぐAI企業が、彼らの著作物を無断で学習に使ったことに対して、全くお金をもらってないんだからね。
> an LLM model is very different from the original work(LLMモデルは元の作品とものすごく違う)
それはそうだけど、それだけが関連することじゃない。もしLLMの出力が「元の作品とそんなに違わない」なら、その出力が侵害になりうるんだ。元の作品と盗用された出力の間に超複雑なブラックボックスがあるからって、それ自体が「侵害じゃない」ことにはならない。”LLM output as a service”(サービスとしてのLLM出力)事業は、権利を持ってない他人の作品に基づいて何かを売ってるってことだ。「カーテンの裏のLLMに気を取られるな」ってミスリードに引っかかってるだけだと思うね、そう考えないと。
いや、LLMの出力は元とはすごく違うってば。これを見て違うって主張しないのは難しいと思うけどね。
> but may be entitled to use them under fair use.(しかし、フェアユースとして使う権利があるかもしれない。)
なんで? Limewireから著作権のある曲を”フェアユース”としてダウンロードするのが合法だったか? 何人か見せしめにされただけだろ。俺はミュージシャンだから、聴く音楽の80%は学習のためだからフェアユースだってこと? って皮肉だよ ;)
>LLMの出力はオリジナルと全然違うっていうけど、俺はそう思わないな。場合によっちゃ違わないし、大量の元ネタから「ばらまきマイクロ盗用」って感じ。オリジナルじゃないのは確か。
でもこれって法的に未確定だし、俺たちが決めることじゃない。
”LLMモデルが元ネタに似てるか”なんて質問はタイプライターが小説に似てるか聞くみたいに的外れで、”出てきた言葉”がどうなのか、そっちの方がよっぽど重要で面白い論点だと思うよ。
”fair use”って、著作権フリーで何でも使い放題ってわけじゃないの、分かってる?出典なしで全部使っていい公共財になるわけじゃないんだよ。
本の部分を使うフェアユースには引用と量の制限があるんだ。論文や書評で引用できるようにするためのものだろ?
機械が本丸ごと読んで、出典なしで寄せ集めを吐き出すためじゃないってこと。パロディはフェアユースだけど、あれは元ネタの構造を使ったオリジナルの表現なんだ。
まあ、大体はそうだろうけど、少なくとも著作権のある作品を文字通り再現できる場合もある。ってことは、最低でもコンテンツの一部はモデルの重みの中に何らかの形で保存されてるってことじゃない?
Githubは、重要だって判断したオープンソース開発者にはCopilotを無料で使わせてくれてる(結構ハードル低いけどね)。
お金払ってるわけじゃないけど、人の著作物を勝手に使った会社が、ちゃんとその人たちに何か返した唯一の例だと思うな。
>フェアユースには出典明記が必要
それ違うよ。それは盗用にならないためのルールで、著作権侵害にならないためじゃないんだ。
フェアユースは学術的な誠実さとは別物。学術利用もフェアユースの例外の一つだけど、それだけじゃない。
他のフェアユースの場合は、どこから素材を得たかクレジットするだけで十分なことが多いよ、だって文字通り使わないことの方が多いからね。
ダウンロードしただけでアップロードしてなきゃお咎めなし、みたいな話は聞いたことないな。それって、今回裁判官が言ってることと結構似た考え方じゃないかな。
>ばらまきマイクロ盗用でオリジナルじゃない
それって、辞書が大量の元ネタのマイクロ盗用だと言ってるようなもんじゃん。だって辞書だって、そういう元ネタから全部の単語を使ってるんだからさ。
もし君の”フェアユース”が
・商売目的で
・盗用で
・すごく大規模(例えば作品全部とか)なら
法的にはあんまりいい立場には立てないね。
分かってるよ。Metaのあのやり方が、フェアユースのどの考え方で守られるんだろうって分からなかったんだ。
考えてみれば、俺って一体何なの? LLMと同じで、著作物を取り込んで自分の将来のアウトプットを良くしてるんじゃないか? なんで俺が”盗用”しても、同じように守られないわけ?
特定の法域での話ね。Berne convention は”公正な慣行”って言ってるけど、責任は各国にあるんだって。
みんな知ってる通り、学習データはLLMの中に何らかの形で保存されてる。ポイントは、著作物の使い方が「変容的」かどうかだよ。google booksを思い出して。あれ本のページを literal にコピーしてたけど、裁判所はfair useって認めたじゃん。簡単に言うと、本 vs 検索エンジンと、本 vs AI chatbot は全然違うってことなんだ。
私はそうは思わないな。dictionary に”著者のスタイルで2000語生成して”なんて頼めないでしょ。
えっと…そうかもね?でもあなたが言ってたのは fair use に引用明記が必要って一般論だったけど、それは違うよ。fair use と plagiarism は別の話。法律の話では何を議論してるか明確にするのが大事。Meta は学習データとして使うために fair use を主張してるんだ。もしそれが fair use と認められたら特定の引用は要らない。 parody とか fanfic が fair use で特定引用が要らないのと同じ。
難しいけど、解決できない問題じゃないよ。OLMoTrace は出力から学習データまで数秒で追跡できるらしいんだ [1]。これは OLMo がオープンになるように設計されたからできること [2]。全部オープンデータで学習されてるんだよ [3]。Meta や OpenAI も同じツール作れるけど、自分たちの正確なデータを見せちゃうって点が問題なだけ。
Perplexity は情報のソースを表示できるけど、言語モデルの本体というか、学習に使われたテキストは black box で、ソースは表示されないし、ユーザーも普通はそれを望まないよね。
それは、トークンの進行確率がユニークで、エントロピー低いストリームと適切な開始ストリームがあれば、厳密に確率に基づいて元のコンテンツの一部を再現できるってことだよ。
まず、冗談抜きで、もちろんそれは”違法”だし”Piracy”だ。次に、侵害はLLMがソースに基づいて出力した時にだけ起きるっていう議論がある。つまり、モデル学習自体は侵害じゃない。”研究”には使える。でも、その出力を”自分のモデルから”として売るのはかなり怪しいね。それは人の作品を無断で売ってることになるから。
もしこれが実質的な remixes や fanfiction が著者の許可なく商業化できるようになる結果になるなら、俺は嬉しいね。こういうのってそもそも fair use であるべきだったんだよ。まあ多分もう fair use なんだろうけど、オンラインでの copyright の強制のされ方せいで、実質的に禁止されてるけどね。
そうだね、裁判所判断は技術詳細じゃなく法律の優先順位によるから、技術面で結果予測は難しい。Music は短い audio も copyright 保護されて license 要るけど、短い text の判例は copy がもっと実質的である必要あり。短い phrase の microplagarism は合法になるかもね、全体 reproduction がダメでも。生成作品の copyright 保護は別問題。