著名作家ら、生成AIの学習に著作権保護作品が使われていると訴え——データセットは今後、厳しい評価に直面するかも

2023-08-28

先週末、The Atlantic は、Stephen King 氏、Zadie Smith 氏、Michael Pollan 氏が、Metaのジェネレーティブ AI モデル「LLaMA」他の大規模言語モデル（LLM）の学習に、「Books3」と呼ばれるデータセットを使って、著作権で保護された作品を使用していたことを明らかにした。この報道は、AI の未来は盗まれた言葉で書かれていると主張している。

実際のところ、作品が「盗用」されたかどうかの問題は、少なくとも著作権法という厄介な世界に関しては、決着がついたとは言い難い。しかし、ジェネレーティブ AI の訓練に使われたデータセットは、アメリカの法廷だけでなく、世論という法廷でも清算に直面する可能性がある。

著作物を含むデータセットは、公然の秘密

LLM がトレーニング目的で著作権のある資料を大量に摂取していることは公然の秘密だ。推進派と一部の法律専門家は、これはデータの「公正利用」と呼ばれるものに該当すると主張している。しばしば、Google が図書館の本をスキャンしてオンラインで「スニペット」を表示することは著作権を侵害しないとした2015年の連邦判決を指摘するが、同様に説得力のある反論を見なす者もいる。

プリンストン大学助教授の Fei-Fei Li 氏が2009年にImageNetを発表したことから始まったと言えるが、LLM が膨大な量のデータを処理し、テキストや画像の出力を可能にする何百ものデータセットが、そのデータセットに含まれるクリエイティブな作品の多くにどのような影響を与えるかを、最近まで AI コミュニティの外部で深く考えていた者はほとんどいなかった。つまり、2022年11月に ChatGPT が発表され、わずか数カ月でジェネレーティブ AI が文化的時流に乗るまでは。

もはや秘密でもない

ChatGPT が登場した後、LLM はもはや科学的な研究実験としてではなく、巨額の投資と利益をもたらす可能性を秘めた商業企業として注目されるようになった。アーティスト、作家、ブロガー、ジャーナリスト、Reddit の投稿者、ソーシャルメディアに投稿する人々など、オンラインコンテンツのクリエイターたちは今、自分たちの作品がすでに膨大なデータセットに吸い上げられ、最終的には自分たちを廃業に追い込みかねない AI モデルを学習させているという事実に目覚めている。そして、訴訟やハリウッドでのストライキが起こっている。

同時に、OpenAI、Anthropic、Cohere、Meta といった LLM 企業は、伝統的にビッグテックの中で最もオープンソースを重視してきたが、LLaMA 2 がどのようにトレーニングされたかの詳細の公開を拒否した。

先月カリフォルニアで起こされた訴訟で、作家の Sarah Silverman 氏、Richard Kadrey 氏、Christopher Golden 氏は、Meta が LLaMA のトレーニングに彼らの本を使用したことで著作権法に違反したと主張している。

Meta や OpenAI のような企業以外では、これらのプログラムが訓練されたテキストの全容を知っている人はほとんどいません。Wikipedia や他のオンライン上の文章から学習テキストを得ることもありますが、高品質のジェネレーティブ AI には、通常インターネット上にあるものよりも質の高い入力が必要です。

TheAtlantic は、LLaMA の学習に使用された Books3 を入手し、分析した。この Books3 は、ブルームバーグの「BloombergGPT」、EleutherAIの「GPT-J（人気のあるオープンソースモデル）」、そして現在インターネット上の Web サイトに組み込まれている他のジェネレーティブ AI プログラムの学習に使用された。Jennifer Egan 氏の5作品、Jonathan Franzen 氏の7作品、Bell hook s氏の9作品、David Grann 氏の5作品、Margaret Atwood 氏の33作品を含む17万作品が確認された。

Pile を作成したEleuther AI のStella Biderman氏は、The Atlantic へのEメールの中で次のように書いている。

私たちはクリエイターや権利者と密接に協力し、彼らの考え方やニーズを理解し、サポートしています。私たちは現在、その用途のためにライセンスされた文書のみを含むPileのバージョンを作成中です。

データ収集には長い歴史がある

データ収集には長い歴史がある。20世紀半ばには、メーリングリストのブローカーが多くの商品やサービスに対して潜在的に関心のある消費者のリストを貸し出すことができると自慢していた時代もあった。

過去四半世紀にわたるインターネットの出現により、マーケティング担当者は膨大なデータベースを作成し、ソーシャルメディアの投稿から Web サイトのクッキーや GPS の位置情報まで、あらゆるものを分析して、広告やマーケティングコミュニケーションのターゲットを消費者に個人的に絞るようになった。品質保証のために録音された電話は、長い間センチメント分析に使われてきた。

プライバシー、偏見、安全性に関する問題に対し、2018年に施行されたEUの GDPR（一般データ規則）をはじめ、データ収集を規制するための訴訟や取り組みが何十年にもわたって行われてきた。しかし、歴史的に特定の分野を除き、企業や機関が明示的な同意なしに個人情報を収集することを認めてきたアメリカでは、この問題はまだゴールラインに達していない。

しかし今問題になっているのは、プライバシーや偏見、安全性に関連することだけでなく、ジェネレーティブ AI のモデルが職場や社会全体に影響を及ぼすことだ。労働や著作権に関連するジェネレーティブ AI の問題は、雇用をめぐる以前の社会変化の焼き直しに過ぎず、消費者はビッグテックが長年にわたってデータを収集してきた方法と大差ないとして、起きていることを受け入れるだろうと多くの人が信じているのは間違いない。しかし、何百万人もの人々が、自分たちのデータが盗まれたと信じており、おそらく黙ってはいないだろう。

ジェネレーティブ AI データセットに清算の日が来るかもしれない

もちろん、だからといって最終的に戦いを放棄する必要がないとは限らない。しかし、ビッグテックが大勝するという意味でもない。これまでのところ、私が話をしたほとんどの法律の専門家は、裁判所が判断すること、つまりこの問題は最高裁判所まで行く可能性があることを明らかにしている。

企業や AI 企業は、透明性を確保することが最良の選択だと考えた方がいいと思う。結局のところ、GPT-4 や Claude や Pie のような強力で洗練された巨大な AI モデルの中身について、専門家が推測することしかできないとしたら、それはどういうことなのだろうか？

LLM の訓練に使われるデータセットは、もはや次のブレークスルーを探す研究者のためだけのものではなくなっている。ジェネレーティブ AI が世界に利益をもたらすと主張する人もいるかもしれないが、著作権侵害が横行していることはもはや疑いようがない。商業的な成功を目指す企業が、モデルに与えるデータをこれまで以上に求めるようになるにつれ、できる限りのデータを手に入れたいという誘惑が続くかもしれない。これが良い結果をもたらすかどうかは定かではないのだ。清算の日は近いかもしれない。

出典：BRIDGE https://thebridge.jp/2023/08/generative-ai-datasets-could-face-a-reckoning-the-ai-beat

Back to list