Meta Platforms は、Llama AI モデルのトレーニングに海賊版素材を使用した疑いで、厳しい法的監視を受けています。 CEOのマーク・ザッカーバーグ氏が率いる同社は、海賊版書籍のソースとして有名なLibGenからの無許可のデータセットを使用した疑いで告発されている。
カリフォルニア北部地区連邦地方裁判所に提起された訴訟のために新たに提出された文書 (ドキュメント 1、文書 2) は、ザッカーバーグ氏がデータセットのデータセットを直接承認したと主張しています。
サラ・シルバーマンやサラ・シルバーマンなどの著名な著者。 Ta-Nehisi Coates も原告の一人であり、Meta の行為は著作権法およびデジタル ミレニアム著作権法 (DMCA)に違反していると主張しています。 。
彼らはまた、 の違反を主張しています。 href=”https://en.wikipedia.org/wiki/California_Comprehensive_Computer_Data_Access_and_Fraud_Act”>カリフォルニア州の包括的なコンピューター データ アクセスと詐欺法 (CDAFA)。データの出所を隠蔽したトレント活動とメタデータの除去を指します。
トレントは、 ユーザーが複数のソースからより小さなセグメントでファイルをダウンロードできるようにする、 ピアツーピアのファイル共有テクノロジーです。大規模なデータセットの共有には効率的ですが、分散型で監視が難しいため、海賊版コンテンツの配布によく使用されます。
関連: メタ、オーストラリアの Facebook ユーザー データを AI に利用することを認める同意のないトレーニング
内部の反対にもかかわらず承認
内部文書と証言録取書は、Meta における意思決定の厄介なパターンを明らかにしています。エンジニアらは LibGen の使用について懸念を表明し、その中には「[メタ所有の] 企業ラップトップからのトレントは適切とは思えない」という意見も含まれていました。
これらの反対意見はザッカーバーグにエスカレートされ、ザッカーバーグは最終的にデータセットの使用を承認しました。内部メモでは、「MZ [マーク・ザッカーバーグ] へのエスカレーションの後、Meta の AI チームは LibGen の使用を承認されました。」
この承認は、Meta がこれは、急速に進歩する AI 分野で競争するための戦略の重要な部分です。報道によると、LibGen データセットはモデルのトレーニングと微調整の両方に使用され、言語処理機能の開発に必要な大規模なデータを提供しました。
関連: ユーザーが Facebook を離れる、 Instagram、ザッカーバーグ氏のファクトチェック逆転後のスレッド
トレントとメタデータ削除
訴訟ではメタ社がトレントプロトコルを使用していると非難LibGen データセットにアクセスして配布します。トレントには本質的に「シーディング」、つまりダウンロードしたコンテンツの一部を他のユーザーと共有することが含まれます。
証言によると、メタのエンジニアは可視性を最小限に抑えるためにトレント設定を構成しました。裁判所の提出書類に記載されているように、「バシリコフは[トレント]を設定しました」 ] の設定を変更して、シードの発生を最小限に抑えました。」これは、ファイル共有ネットワークに参加しながら検出を回避する試みです。
トレントに加えて、Meta は 著作権管理情報 (CMI) よりトレーニング データセット。 CMI には、著作権で保護された作品に添付されたメタデータが含まれており、これには作者の名前、出版日、ライセンス情報などの詳細が含まれます。 CMI の削除は、著作権侵害を助長する場合、DMCA の下で違法となります。
原告らは、この削除はデータセットの出所を不明瞭にし、ラマ モデルが識別可能な著作権で保護されたコンテンツを出力するのを防ぐための意図的な行為であると主張しています。
訴状にあるように、「メタはトレーニング目的だけでなく、著作権侵害を隠すためにもCMIを剥奪した。なぜなら、著作権で保護された作品のCMIを剥奪することにより、LlamaがLlamaユーザーや公衆に警告する可能性のある著作権情報を出力することができなくなるからである」 Meta の侵害。」
Meta の主任 AI 科学者である Yann LeCun は、昨年、X (以前はTwitter) は、本の著者は自分の作品を自由に利用できるようにすべきだと主張しています。
本の販売から多額の収入を得ている本の著者は少数です。
これは、ほとんどの本が無料で利用できるようにすることを示唆しているようです。
著者の収入の損失は小さく、それに比べて社会への利益は大きいでしょう。 href=”https://t.co/4ObkW1tm85″>https://t.co/4ObkW1tm85— Yann LeCun (@ylecun) 1 月 1 日2024
法的および倫理的影響
メタに対する法的議論には、海賊版へのアクセスおよび使用に対する CMI および CDAFA の削除を求める DMCA に基づく申し立てが含まれます。許可のないデータ。原告らは、Meta のトレントとメタデータの削除は著作権で保護された素材の使用を隠蔽するために不可欠であったと主張している。
この訴訟を監督するヴィンス・シャブリア判事は、メタが提出書類のかなりの部分を編集しようとしているのを批判し、次のように述べた。
Meta に対する申し立ては、AI モデルのトレーニング方法に関する広範な議論の一部です。Llama のような大規模な言語モデルは、多くの場合、大規模な言語モデルに依存しています。
Meta のような企業はそのような使用はフェアユースに該当すると主張していますが、批評家はそれがクリエイターの権利を侵害しており、AI 開発におけるより明確な法的枠組みの必要性を強調しています。/p>
より広範な業界の状況
この訴訟は単独の事件ではなく、生成 AI の急速な発展により、大手テクノロジー企業に対するいくつかの訴訟が引き起こされています。クリエイターや著作権者は、自分の作品を同意なく使用することの合法性と倫理性に疑問を抱いています。
メタの訴訟は、技術革新と知的財産法との間の広範な緊張を反映しています。この訴訟は、メタ社内での運営上の決定にも光を当てており、AI 分野での競争力を維持するための推進が、倫理的および法的考慮事項を上回っているように見えます。
メタの慣行は、企業がイノベーションとコンプライアンスおよび説明責任のバランスをどのようにとるかについて疑問を引き起こしています。この訴訟は、裁判所が AI トレーニングにおける著作権で保護されたマテリアルの使用をどのように扱うかについて先例となる可能性があり、規制や業界基準に影響を与える可能性があります。