トムソン・ロイターが米国初の大規模AI著作権訴訟に勝利!その影響とは?
引用元:https://news.ycombinator.com/item?id=43018251
判決の内容は分かりやすいよ。Westlawが法律用語のヘッドノートを持っていて、Rossがそれを翻訳してAIを訓練した話。裁判では公平使用じゃないって判断されたんだ。直接競争してるからかも。
面白い意見だけど、長い目で見るとこれは持ちこたえないかも。Westのヘッドノートが引用だけでも著作権があるなんて、法律にとっては現実的じゃない。とにかく、RossがWestと直接競争してたのが影響してると思う。
競争する製品って考え方はすごく極端だね。公平使用の重要な要素は、元の作品と競争するか否かだけど、これは直接競争との定義を拡大しすぎ。学校の公平使用は助けになってる面があるのに。
これは極端な解釈じゃないよ。学校の公平使用は法律に書かれていて、競争は別次元の話。学校が著作権者と競争するなんて考えづらいし、教育が成り立たなくなる問題もあるから特例がある。
法律が書かれている以上、学校の公平使用はその通りだよね。でも、学生は競争の意図を持って学んでいるのは現実だと思う。AI訓練でも同じ話ができるはず。
法的には、法律の例示的な内容は無視できないよ。学ぶことと競争を結びつけるのは面白いけど、訴訟では違う見解が示されてる。
著作権は表現にしか関係なくて、Rossは元の情報からアイデアや事実を取り出す努力がなかった。WindowsとLinuxの例は全然違うんだ。大規模言語モデルはあやふやなところがある。
教育機関がテキストを使うのは、無料の広告として考えるべきだよね。子供たちが覚えたり、他の人と話したりすることが多いから。
この意見の根底にあるのは、誤解を招く表現を広めようとする人々の問題だね。リアルな世界では、こういうアイデアは拒否されがちだから。
このケースは単純に見えるね。人間でも機械でも、メモをコピーしてその著者と競争する形になってる。そこで、オリジナルのテキストを自動的に言い換えるプログラムを作ったら、やっぱりオリジナルの創作者を盗むことになると思う。法律は価値のある活動を守るためにあるんだし、教材やジャーナリズムのようなものが必要なのに、それを盗んで破壊してしまうのは社会に悪影響だよ。LLMも同じで、原著作物は守るべきだし、利益の一部はコンテンツ創作者に還元すべきだと思う。
単一のソースから始めて、全く同じ表現を使わずに意味を保存するのは難しいよね。でも、LLMは複数のソースを参照して、同じ事実やアイデアをさまざまな表現で捉えて、うまく一般化できるみたいだ。
複数のソースの概念を集約することで、より正確に言い換えられるけど、もしそのプログラムを使ってEncyclopaedia Britannicaを言い換えて、有料で提供したら許されるのかな?
根本的な問題は「意味」が多くの著作権可能な要素を含むってこと。典型的なLLMプログラムを使って別のテキストを言い換えようとすると、元の構造や順序がほとんど残る表現になってしまうから、著作権侵害になっちゃう。
既存の曲を短いフラグメントでコピーしてポップソングを作ったらいいのかな?その場合は著作権を回避できるの?人間ならそのぶん創造性があるって言えるけど、自動化されたらそれは創造的なのか、それとも単なる盗みなのか?
生物学の基礎を学んで教科書を書くのは普通だけど、成功してる会社のコンテンツを使って競合を作るのは全然違うよね。
“Westのヘッドノートは原文を単に引用していても著作権がある”という判決は違う。重要な部分をまとめているものには著作権が認められていて、原文を verbatim で引用したヘッドノートは含まれないって。
もっと読む
MSJではそうだけど、私はより広い影響を考えてた。裁判官はヘッドノートについて「それぞれが個独立した著作権のある作品」だと言っている。典型的な作業のように見えるが、verballyな引用はそれ自体がオリジナリティを持つって言ってる。
これが高等裁判所で馬鹿にされるのは間違いないよ。ここでの話は、著作権のない材料から作り出すことが如何にフェアユースとなるかを考えるべきだと思う。
著作権の対象となる作品は他人の作品を侵害しない必要がある、というのは間違いだよ。裁判所の決定は著作権の対象となるから、その verbatim な選択は彫刻家が素材を選ぶのとは異なる。
この比喩が高等裁判所でばかばかしいと言われるに違いないよ。その影響は、検討すると壊れる編集表現の種類にまで及ぶからね。実際、既存の情報からの”選択”が著作権で保護されるかはケースバイケースだけど、選択した作品が創造的かつ独自であれば保護されるべきだと思うな。
法的に著作権が引用の選択に付随するのは無理があると思う。分析する多くの弁護士が同じ引用に収束するだろうし。期待する選択の長さ次第だけど、完全に明白じゃない気もするな。
近い言い回しを検出できれば、元のテキストに一定の創造性が関与していた証明になると思う。著作権は純粋な機能や必要な要素を保護しないからね。
引用を選ぶこと自体が本当の作業だって議論もあるし、コピーすることで避けた作業なんじゃないか?言葉は辞書にあるから、新しいものではないし。ただの順番の引用なんだよ。
著作権は”作業”を保護するわけではなく、表現と創造性を保護する。だから、選択肢が一つだけの時は著作権は適用されない。言葉を並べるのは表現だが、決まった表現を用いるのはそうじゃない。
著作権の意図は有用な作業を保護することだ。公正な形で他の人をブロックしないようにするのは複雑。誰かが他の作品を簡単にコピーして競合するのは明らかに”公正使用”ではない。
著作権の意図は”科学と有用な芸術の進歩を促進する”ことだと思う。作業に対して報いることは関係ないんじゃないかな?ノートにオリジナリティがあるのは賛成。
著作権の意図は”科学と有用な芸術の進歩を促進する”ことにあるけど、作業面も含まれていると思う。進歩は作業がなければ意味がないし、保護が必要な理由もそこにある。
このケースとその結果は特定の事実に制限されているっていうのが一番のポイントだね。現在のLLM活動はここで起きたこととは全然違う。
WestlawのKeycitesを使ってみたけど、引用を引っ張り出すんじゃなくて、ルールを統合することでできるんだ。要約が必要ならKeyciteを見るし、金になる引用を探すときはリンクされたケースを掘り返す。どの法律分野をやってるかも知りたいな。
確かにほとんどは合成だと思うけど、時々はほぼそのままのヘッドノートを見ることもあるよ。ランダムにケースを取ってみると、Kearney v. Salomon Smith Barney, Inc.の4番目のヘッドノートなんて、原文とほぼ同じ文面だ。
エッセイや詩の集まりは著作権があるって考え方だから、これも似たようなもんじゃないかな。
裁判所の判決で、Westのヘッドノートが判決文をそのまま引用してても著作権があるって言ってるのは、引用するという編集判断が“創造的なひらめき”を示すからなんだって。結局、Rossが人間のアノテーターにヘッドノートを書かせて、それを丸パクリしただけだから、アノテーターが創造的なひらめきを見せたわけだ。
ロスの使い方は変形的じゃないってことが重要だ。変形性は利用目的に関係していて、元の作品と二次利用が同じ目的なら著作権の公平利用に対する評価が悪くなる。ロスはThomson Reutersのヘッドノートを使って法律検索ツールを作ろうとしてたけど、ただの検索エンジンみたいなものだから、変形的じゃないんだ。
最初の判決と合わせて考えると、ここのポイントが分かる。彼らがBulk Memosのモデルを使って新しいテキストを生成していれば、判断が変わっていたかもしれないということ。つまり、裁判官は“生成型”がそんなに意味のある違いではないとは思っていない。
Westlawのヘッドノートはケースの一部を切り取っただけのものだから、正直あんまりいいもんじゃないよ。弁護士の中には好きな人もいるけど。だって、彼らは自由に公開される裁判の決定を販売してるビジネスモデルなんだもんね。今のLLMは、ヘッドノートを完全に再現できると思う。
その通り。そもそもヘッドノートを使う意味は何?当然著作権があるとは思ってたけど、あんまり完璧じゃないし。
AI企業は“著作権のある文書で訓練した一般的なAIを作って、それを使って競争する”というのを明確に違うと言うだろうね。一般的なAI作りが変形的だと思うんだけど、訴訟が起こるかも。
そう思うよ。著作権法の目的は新しい素材を作るインセンティブを保護することだから、AIは訓練素材のクリエイターのインセンティブを奪うことになっちゃう。
AIに何を聞くの?事実情報?それは著作権の観点からは保護が薄いよ。AIの回答が別々に全然違う表現になることを考えると、事実細部に対する参照ができる。
法律家じゃないけど、寄与的著作権侵害のハードルはもっと高い気がする。被告の代表者が実際に侵害を促すようなことを言う必要があると思う。Groksterがユーザーに著作権を侵害するよう助長したのが負けた重要な要因だったんじゃないかな。
促しは必須要素じゃないよね。
興味深いことに、裁判官の意見は翻訳されたノートが著作権の対象かどうかにかなり集中してる。AIが著作権のある素材で訓練されたことが、そもそもコピーに当たるのかは無視されてる気がする。著作権のある資料がユーザーに配布されてないから、著作権違反ってどういうことか分からない。
Rossがテキストをコピーして使ったのは明らか。無許可でWestの本のボリュームを作ったみたいなもんだね。知られてないからって、法律に違反してないわけじゃない。
AIの使用は、ここでの判決とは関係ないの?単にRossが一つのローカルコピーを作成して、それを配布しなかったってこと?
著作権のある素材での訓練が、訓練資料を製作するのとどう違って侵害になるの?訓練の過程を通らない限り。
データブローカーが昔、OCRが実用化される前に電話帳を転写するために人を雇ってたけど、それは保護された。データは著作権の対象じゃないからね。ケース法のメタデータも、公共文書から取られた説明が含まれてるとしても、同じように議論できるはず。
著作権のある文書で訓練して一般的なAIを作った、そしてそのAIを使うためにお金を払う人たちが出てきた。これがオリジナルの著作者や音楽家と競争するサービスになってる。
AIは人間が座ってやることと何も変わらないことをしてるだけだね。確かにAIは早くできるけど、まだ人間ができることを超えたことは示されてない。人がしてはいけないことがAIなら合法になるなんておかしいよね。なんで驚くの?
著作権者が勝ったら、モデルの大手企業はライセンスを取得するだろうね。それはオープンソースを事実上死なせることになる。ライセンスを取得できないオープンソースは訓練データをサブライセンスできないから。これはAIの民主的なアクセスや開発にとってとても悪い。大手企業はこれを望んでるかも。彼らはすでにメディア企業を買収してるし、さらに統合が進んで厳しい参入障壁を作るだろうね。OpenAIは今頃大喜びだろうけど、最近のYC AI企業は大変だよ。
ライセンスするのは何?すべての著作権作品?わずかな部分を取得するのですら実現可能じゃないよ。これが意味するのは、企業がこういうモデルで金を稼げなくなるってこと。研究や個人的利用のためにモデルを使う人はフェアユースの基準に則って侵害とはならないと思う。
何をライセンスするの?すべての著作権作品を?わずかな部分を得るのも非現実的だよ。戦略としては、まずは生き残って十分なユーザーを得て、生成AI業界を潰すのが政治的に難しい状況に持っていくことかも。あと、音楽ビジネスで使われる強制的機械ロイヤリティシステムに似た妥協を権利者と交渉すること。AI会社はBMIやASCAPのようにロイヤリティ計算と徴収を行うことも可能だね。結局、AI会社は先にライセンスを取得せずに、人気のある権利者にロイヤリティを配分する形が考えられる。
どのIPがモデルの出力に使われたのか特定するのが難しいから、人気のある作品にロイヤリティを分配することになるよね。もともと10年くらい前は、YouTubeで音楽権利の収益が£1未満だと全額プールされて分配されてた感じで、追跡するコストもかさむから、最後には誰も受け取れないこともあった。完璧じゃないけど、少なくとも誰かはお金を受け取れてたし。
企業が著作権制約を回避するために見つけたクールなトリックをチェックしてみてください。弁護士が泣いて喜ぶようなやつだよ!
ライセンスは必要ないし、わずかな部分を得るのも全然実現可能。大型の企業、例えばGetty Imagesや大手出版社、SNSを使って、その利用規約に基づくライセンスを確保することができる。中間業者が稼ぎ、元の作者はほんのわずかしか得ないかもしれない。でも、億単位のクリエイターがいる中で、各クリエイターが3ドルもらっても大したことはないけど、小さな団体には大きな意味を持つ。
著作権法をソフトウェアやAIモデルにどんどん適用するのは意味がない。新しい法律を作って、モデルの訓練を規制するべきだと思う。各国で著作権法が異なるから、ソフトウェアは国境を越えて流通するんだし。すべての本を研究開発用に利用できるようにするのが良い。
彼らはすべての著作権作品を使って訓練したわけじゃなく、特定の法的な質問と回答のセットで訓練したんだ。ライセンスの取得も試みたし、取れなかったから代替手段に頼ったわけさ。
彼らが言ってたのはOpenAIみたいなモデルの大手のことだと思う。正しいとは言わないけど、OpenAIが必要とする著作権情報はずっと多いと思う。
ライセンスするのは何?法的な作品がすべて必要だって?そんなことはない。
オープンソースモデルをトレーニングするために、データセンターや過去の著作権作品を揃えることができない。OpenAIが法律に違反しているかどうかは、実際のオープンAI努力には全然関係ないから。
著作権者が勝ったらモデルの大手はライセンスを取得するって?いや、そんなことはないよ。最大のモデルは人間が書いたテキストを全部使いたいからね。小さな部分のライセンスは買えるけど、全部は無理だし、そもそもライセンスが取れない部分もある。だから著作権者が勝ったら、モデルのトレーナーはライセンスを無視するのではなく、トレーニングする内容に気を使わなきゃいけなくなる。
そんなことないよ。大きなモデルは人間が書いた全てのテキストを使いたいわけじゃない。使いたいのは質の高いテキストだけで、質の定義が他のLLMと差別化する秘密の要素なんだ。だから全てではなく、選ばれた高品質テキストを使いたいだけなんだ。
それでも商業モデルの会社は質の高い人間のテキストを全部ライセンス取得するのは無理だよ。OpenAIは倫理的ではないCEOを持つUberみたいなもんで、著作権法の精神を無視しながら素早く成長できればいいと考えているんだ。すぐにデータの出所を証明できない商業AI会社が破産しても別に悲しくはない。
新しいスタートアップには自分たちが法を破っていない証明を求めるのは面白いアイデアだね。全てのテックスタートアップにも適用すべきかな?それならシリコン系のスタートアップも盗んだ商業秘密がないことを証明しなきゃね。
オープンソースモデルはオープンソースのトレーニングデータを使って育てられるんだ。例えばRNNoiseがそうだったみたいにね。
オープンソースのモデル構築者は、コンテンツ所有者を盗む権利なんてないよ。『民主化されたアクセス』がどう影響しようが全く気にしない。大手がコンテンツにライセンスを取得すれば、正当な所有者にお金が入るし、オプトアウトの選択肢もあるから。
著作権ロビーは公共政策にかなり影響を与えてきたね。著作権は永遠に続くものじゃないってのが本来の目的だった。しかし今の120年なんて技術の進歩に対する拒否権を持たせるのはおかしい。元の14年プラス14年のモデルに戻るのは賛成だ。
法律的なアービトラージは技術の進歩じゃない。LLMの中に入っている技術の進歩が真の進歩で、著作権をどんどん取り入れる部分はAICorpが儲けるためだけのものだよ。
この裁判の全容は、法律素人でも理解できるように書かれていて素晴らしいね。イタリアの裁判官は意図的に難解に書くことが多いけど、この文書は読まれることを求めているかのようだ。技術文書より小説のスタイルに近い部分もあるよ。
裁判所は”AIの状況が急速に変わっているから、今日は生成的でないAIだけが対象であることを理解してほしい”って言ってるけど、生成的なAIがそんなに意味のある区別なのか疑問だ。判事はこのAIシステムの本質的な生成要素を誤解しているみたいだね。
このシステムはどうして生成的なの?
生成的って技術的な用語なんだよね。例えば、分類器は例とラベルの全結合確率分布をモデル化している時に生成的とされる。翻訳においても同様で、生成的翻訳モデルはフランス語と英語の文を両方モデル化する必要がある。裁判官が言ってる「生成的」が技術用語としてどう言いたかったのかよく分からない。
「生成的」を統計用語として定義するのは正しいけど、最近は一般の人や一部の専門家が大規模言語モデルについて話す時に「生成的AI」って言ってるから混乱が生じてる。大規模言語モデルはトランスフォーマーに基づいていて、神経ネットワークだよね。でも神経ネットワークは識別モデルであって、生成モデルとは真逆なんだよね。だから「生成的AIは識別器や回帰器に基づいてる」と言える。
その定義の辞書みたいなものはあるの?生成的を決定する要因になるのがよく分からないんだけど。「生成的AI」のwikiページも単に「新しいものを作るAI」って意味になってるし。あなたの定義だと基本的に二つの入力がある分類器は生成的になっちゃうのかな?MNISTデータセットで画像のピクセルを入力にした分類器は生成的なの?
MNISTの分類器が画像を入力にして数字の確率を出すだけなら、P(どの数字 | 全てのピクセル)をモデル化するだけだから生成的じゃないよね。でも、多くのモデルはP(どの数字、全てのピクセル)を与えてくるから生成的だよ。今の「生成的」がどういう意味なのかは、そのモデルが訓練データに似た出力を生成するってことだと思う。以前はモデルの情報に関係してたんだけど。
その前の情報(全ピクセル的なデータの事前分布)があれば、後の情報(結合分布)を導出できるんだよね。だから「生成的」モデルの特徴は入力データに対する事前分布があることなの?
生成的モデルはデータをモデル化するから、p(x)やp(x,y)や(x,y,z)とか。
うん、でもそれは明示的に書かれてないかもしれないね。
判事が何を呼んでも、判決がその最終的な影響や結果に関するものであれば、あまり重要じゃなくない?
Thomson Reutersは四つの要素のうち二つで勝ったけど、Bibasは四つ目が最も重要だとし、RossがWestlawに競争を挑むために市場の代替品を開発しようとしていたと述べた。うん、ずっと言われてることだよね。意図が元のものを置き換えようとするなら、コピーはフェアユースではない。問題は現在の訓練手法がこの大量のデータを要求することで、大規模な著作権侵害が必要になってることなんだ。お金持ちの被告がどうなるか見てみたいけど、これにはあまり良い影響はなさそう。大きな視点で見れば、お金持ちの利益は、現在の法律でLLMが存在できなくても、許可されるまでしっかりとロビー活動するだろうね。
今のトレーニング方法には大量のデータが必要だから、そのせいで著作権侵害が避けられないって言いたいのか。でも、著作権がある作品って普通は著作権者から許可をもらって使うよね。大きな企業なんだから、ちゃんと交渉すればいいだけなのに。大企業の利益に配慮しすぎて、法律がどんどん緩和されそうで不安だわ。結局、自分たちが得しなくなったからって、その法も変えようと必死になってるのが、ほんとに皮肉だ。
他のケースでは何百万、何十億の作品を使うことってないから、ビジネスとして成立するのか疑問だ。そういう大企業たちには、オープンソースや研究者も手に入るようにしてほしい。ただ、ディズニーやユニバーサルみたいな大企業が、もっと厳しい著作権法を求めるロビー活動をしているのが現実だと思う。技術系企業も利益のためだけに動いているわけじゃないから、著作権に関しては状況によっては支持することも多い。
億単位の作品を扱うことが普通になってきたと思うけど、そうなると著作権の問題がさらに厳しくなるのは事実だよね。オープンソースの開発者たちにもアクセスできるようにしてほしいけど、倫理的にソースを調達できたモデルが必要だと思う。データが82TBもいらないはずで、効率化できる余地があると思う。たしかに、恐ろしいほど多くのデータを扱ってる会社があるけど、少なくともそれを倫理的に集める努力をしてほしい。
数百万作品をライセンスする場合、映画でも数十曲やストック画像ぐらいだと思うんだけど、ビジネスではそれ以上の数の作品をまとめてライセンスする必要があるってことだよね。ただ、少なくとも履歴書をきちんと残している企業もあるから、今後必ずしもそうはならないと思う。著作権をしっかり守っているところが多いから、みんなが嫌だなとか、放置するのは良くない傾向だ。
コメントで言ったのは、特に技術的な構造のことではなく、物流の話をしてるんだ。たしかに従来とは違うやり方で、もっと効率的になっているという点はある。しかし、すべての問題を根本で解決するというのは難しいよ。AIがより効果的に進化していくのを見ていると、意外と様々なデータを使わずに成功することもあるから、今後の技術の進化には期待したい。
物流の面で話をしていたつもりだったんだけど、具体的に何を言ってるのかは分かりづらい。Deepseekが効果的であったように、大量のデータを使わずとも成功するモデルも必ずしも不可能じゃない。でも、ライセンス契約が一つの方法であるのは確かだ。ただ、名の知れた企業がその方法だけで十分なデータを集められるかは疑問だね。規制が厳しいから、そう簡単には行かない気がする。
今のトレーニング方法には、大量のデータが必要だって言うけど、技術的にまだまだ頭が良くないというか、人間と比べて馬鹿な装置のように思えるよ。人間の脳はこんなに多くのデータを必要としないのに。30年前には計算能力が増えれば人間の脳が完全に機械化されると思ってたのに、まだまだ遠い道のりだね。
人間の脳は生まれる前から進化の産物だから、そんなに多くのデータを直接必要としない。でも、赤ちゃんは言葉を使えない。でも、数年間の努力で言語を扱えるようになる。AIは基礎からスタートして、飛躍的に成長しないとならないから、そこが違うんだよね。
脳は常に生の感覚データを処理しているけど、モデルはその膨大なデータに対して18年間も待たなきゃいけない状態。人間のように進化する仕組みにはなってないし、その点で非常に時間がかかるよね。
感覚データが人間の認知能力に貢献するとは限らない。たとえば、視覚に障害のある人も普通に知能が高いし、他の人にも劣らない能力を持っている。ヘレン・ケラーを例にすれば、感覚情報が少なかった人でも、むしろ普通以上に聡明だった。
感覚データがなきゃ実際の認知能力は発揮できないが、潜在的なものはあるかも。データは視覚だけじゃなくて、五感を考えるべき。視力が弱いと聴覚が敏感になるみたいに、1つの感覚しか使えなくても、そこから認知が実現する可能性はあるけど、かなりの努力が必要だし能力には大きなギャップができるよ。LLMは視覚モデルとは違って、実際には1次元の文字列データで訓練されてるから、技術的には前処理された視覚情報が主要な“感覚”と言えるよ。
脳に備わってるものはそんなに多くないと思う。DNAの量も限られてるし、脳のデザインにはその一部しか使われてないはず。私たちができるのは何らかの一般的な能力から来てると思う。
残念ながら、そういう重みは赤ちゃんに受け継がれるわけじゃない。会社がなくなるまで保管されて、そのデータも一緒に消えてしまうだろうから、LLMがすでに行き詰まってるのも納得だよ。
そうだよね。人間が“良い出力”を出すのに必要なデータ量は、あまりにも少ないはず。30年前の友達との話を思い出すけど、あなたは結構歳取ってるね。良い出力を出すのにどれくらいの訓練が必要だった?要するに、私たちはメタトレーニングされてるから新しいことを素早く吸収できるわけで、概念やメンタルモデルで働いてるけど、LLMsはトークンの列を理解するだけで、比較にならないくらい弱いよ。
その通りだと思う。知能を作るのに必要なデータは何桁も少なくて済むはずなのに、まだそれには達してないってことだね。AGIに至るのも大きなデータが必要なのに。
僕の言いたいのは、人間が“良い出力”を出すのに、ものすごい量のデータが必要だったってこと。その後は次元が違うパフォーマンスだったけどね。
あと何年かかるのか、本当に道のりは遠いよ。20年以内に脳を模倣できるなんて言ってる人たちは、未来予測の被害者か、自分の死を否定してるんじゃないかと思うよ。
そうだね!問題は、次の知能の大きな変化がすぐそこにあるのか、それとも次の革命まで時間がかかるのかだよね。市場には新しい手法への研究を支えるお金が十分あるけど、時間がかかると投資家や立法者はすでに機能してるものを合法化しようとするだろうね。
30年前に友達と脳がいつか完全に機械化されるのは不可避だなんて話をしてたけど、まだ遠いね。なぜそれが不可避なの?“Burj Khalifaが建つのは鉄の生産量が足りれば当然だ”とか、“Pegasusが馬から生まれるのはオーツを集めれば確実だ”なんて話だよ。知能をただの計算能力の総体に還元するのは、知能を理解してないことになるよ。
そうだね、モデルは膨大な著作権侵害がないと成り立たないってことだよ。著作権は取得についてじゃなくて、公表や配布についてのもの。もし僕がゴミ箱からHarry Potterのコピーを手に入れたら読めるけど、会社がtorrentから全ての本のコピーを手に入れたら、AIの訓練に使えるんだ。ただしトレント提供者が著作権を侵害してても、AIが元のテキストの重要な部分を再現できる場合なら、その著作権侵害にはなる可能性があるけど、違法に配布されたテキストでモデルを訓練すること自体は著作権侵害にはならないはず。
著作権があるテキストを不正に配布されてるもので学習するのは著作権侵害じゃない気がするけど、出力を配布すると著作権違反になるんじゃないかな。学習は機械的なプロセスだから、著作権作品とモデルの出力との間には直接的なつながりがあるし、出力の形に関わらず著作権侵害になりそう。部分的に再現しなくても派生作品になるし。
その機械的プロセスが逆算できないなら、著作権侵害じゃないと思う。たとえば、全ての本のSHA256ハッシュを計算して、その結果として(ISBN, SHA256)のテーブルを配布するのは著作権侵害にならない。
実際、それは他のフェアユース基準に当てはまるよ。ハッシュテーブルは変換的だからフェアユースになるし、元の作品の代替にはならないからさ。私は自分の投稿をちょっとわかりやすくするために編集したよ。
実際、それはフェアユースにも満たない、著作権のない使用だね。一方向のハッシュは創造的な要素を消すために意図的に設計されてるし、ランダムに見えるデータを出力する。
著作権作品とモデルの出力の間に直接的なつながりがあるのが大きな問題だと思う。機械的なプロセスだからね。グーグルのサムネイル作成や本のスキャンも機械的だし、どちらもフェアユースと判断されてる。
“機械的プロセス”って何?『指輪物語』を読んで『スターウォーズ』を書くようになるのは機械的なプロセスなのか?脳は物理法則に従ってるし、シミュレートされた脳がチップ上で動いてたら?普通のやり方でなくても、頭の中でLLMの数学を計算して出力を生成することもあるよね。
機械がやること全般だよ。何をシミュレートしようが、法律上は人間じゃなくて機械だから、機械的なんだ。
面白い考えだけど、多くの法域では間違ってると思う。モデルが作品を配布できるか無視するにしても、多くの場所ではコンテンツをダウンロードすること自体が違法だしね。そうじゃないなら、映画をトレントする人が完全に無罪だろうし、MSが「ただ」Windowsのコピーをダウンロードする会社に何か言うとは思えない。
“映画をダウンロードすることで訴えられた例はある?”って言うけど、トレントはほぼ常にアップロードを伴うからね。ダウンロードだけで訴えられた例はあまりないと思う。むしろ不正なストリーミングサイトを使って訴えられた例があるのか知りたい。
抽象的には君の言う通りだよ。何もせずにLLMを学習させるならその通り。でも、実際はモデルをトレーニングして誰かがそのモデルを使えるようにするんだから、その点があまり役に立たないコメントだと思う。LLMにどのように著作権が適用されるかに関しても、あまり違いがないし。
著作権は取得のことじゃなくて、出版や配布のことなんだよね。裁判でどうなるか面白いところ。’おお、あなたの栄光、映画は見てないけど、AIを訓練するだけにダウンロードしたんです’って言ってもあまり意味ないと思うけど。
最終的にはそうなると思う。訓練データは消費よりも配布に近い扱いになる。商品を売るのが入ると複雑になるもんね。いくらか合法的に違うとしても、’Garry Botter’みたいなの作るのは無理だし、パロディじゃない限り侵害に走っちゃうから。
誰かが商売のためのソフトを提供してくれれば、その人が著作権で違反してても自分は問題ないと思う。違法に配布された著作権のあるテキストやソフトを使ってビジネスをするのが著作権侵害じゃないはず。
著作権のある本を印刷する機械を買って、その結果生成されたコピーを配布する場合、機械に使用許可がなければ、責任はあると思う。ただし、AI提供者によっては、そういった法的紛争をカバーするサービス利用規約もあるんだよ。
即時の責任はないかもしれないけど、やっていいわけじゃない。違反を指摘されたらすぐにやめる責任があると思うよ。
著作権は取得じゃなくて配布のこと。ゴミ箱からHarry Potterを取ってくるのは読んでもOKだけど、会社がトレントから全書籍を使ってAIを訓練するのはダメだと思う。’人の読み’と’コンピュータでのデータ処理’は別物だし、MDY Industries, LLC v. Blizzard Entertainment, Inc.は無許可の著作権資材の使用を’コピー’と見なしたんだ。
これは’AI’ってよりも要約の話だと思う。Googleはフランスでニュース見出しを検索結果にコピーして罰金を受けたこともあるし、Westlawは裁判所の結果を要約してきた歴史がある。RossはWestlawに直接競争を挑もうとしたけど、その出力を利用してたから問題になったんだ。
このケースはヘッドノートに関わるもので、単なる要点じゃないよ。それを作成するには多くの人間の創造性と判断が必要で、単純な事実をまとめたものとはまったく違う。ヘッドノートは著作権があり、翻訳しても著作権が消えるわけじゃない。AI訓練とは直接は関係ないと思う。
判例法は公的なものだから、Westlawの本をヘッドノートやキー、いくつかの独自要素を赤くしてデジタル版を公開できる。プロプライエタリな要素特にキーサイツはNGだね。ヘッドノートを書いたりするには専門的な創造性が求められるから、著作権を厳重に守っても当然なんだよ。
’多くの人間の創造性や判断が関わってる’っていいつつ、実は現代のSOTA LLMはそれを簡単に作れるんだよね。LexisNexisもその事実をアピールしてるし。
TRは法的戦争の始まりとして簡単な案件を選んだのかもしれないね。
このケースは2020年に始まったんだって、重要なモデルが存在する前にね。
いいね。多くの企業の目的はモデルを人間の出力で訓練して、最終的には人間の代わりに雇われることみたいだ。メディアではウォーターマークが実現可能な作品(写真など)はクリエイターが補償を受けているけど、テキストのクリエイターは何ももらえないのが面白い。
各文字を異なるフォントや文字のページで回転させるとか、そういうデータを表現するつもりだね。これがウォーターマークになる。
でも、フォントの変更はLLMの出力(プレーンテキスト)には表れないんだよね。
推測だけど、フォントは別の文字に見せかけるように表すから、サイトをスクレイピングするLLMには役に立たないけど、視覚的に読む人には有用なんだ。スクリーンリーダーの人や独自のスタイルシートを持つ人には悪影響だろうけど。
それには、視覚的に同じグリフで文字を異なるエンコーディングポイントで置き換えるルーチンを実行する方が良さそうだね。
それには、似たような置き換えに使われるマッピングで簡単に突破できる気がする。
そうだけど、彼らにはもう一つのハードルになるね。
それは小さなプレイヤーしか阻止できないだろうね。マージンに横向きのテキストや回転した表の列ヘッダーなど、長年にわたって解決されてきた問題もあるから。テキストを特定の要素に分解して、それに応じて処理したり無視したりするのは簡単だよ。
そうそう、普通のテキストはウォーターマーク版とは異なるから、自動生成された偽造として見抜かれるよね。誤ったウォーターマークは人間の偽造を示唆するわけだし、出力生成の複雑さを引き起こすんだ。
2020年にROSSが閉鎖したときの記事(https://www.lawnext.com/2020/12/legal-research-company-ross-…)を見ると面白い。2014年創業から2020年の破綻まで長い道のりで、2024年までこの訴訟が続いたのは司法の遅さを感じる。
訴訟はめっちゃ時間かかる。特にCOVIDを考慮に入れると、10年以上前のケースがまだ解決してなくて、区裁判所で数年待ちだよ。上訴裁判所も行くとさらに5年かかるし、刑事事件だと20年以上かかることもあるから、法律費用払わないなら各レベルごとに2年かかるかも。
父は法人税法の弁護士で、20~30年前の問題が絡む裁判が普通だったんだ。
それはすごいね、そんな時間がかかる裁判が存在するなんて想像もできなかった!でもそれが私が法人税弁護士じゃない理由の一つかも。
一つのケースは10Bドル以上で和解したから、確かにやる価値はあったよ!法廷に行く毎に数年かかるけど、基礎的な問題を数十年かけて争っていたんだ。
このケースはAIの言語モデルではなく、ROSSの製品は単なる情報検索システムだからね。ブラス判事についてのリンクもあったよ。
公正使用の観点が生成AIベンダーにとっては脅威だと思う。ひとつの判決だけど、悪い影響があるんじゃないかな。
公正使用の観点について、生成AIベンダーには良い知らせだね。
裁判所の記者たちは、法廷での発言を自分のものとして著作権を主張して多額の料金を取ってて、AIの逐語転写機がそれを崩すから、防がれるだろうね。
いや、その仕事は価値があるからお金を稼ぐ権利があるって。生放送で正確に確認できるからね。言葉や名前もちゃんと綴られてるし、話者も間違わずに特定できる。裁判所の報告者は、話者に速度を落としてもらったり、綴りを確認したりするから。AIのトランスクリプションじゃできないよ。
価値は認めるけど、弾圧的であるべきじゃないよ。
これってOpenAIにとって悪いニュースな気がする。大企業が高額な契約を結べるのは、公に使える情報を得られるから。AIの終わりを意味してるのか、それともモデルを訓練する権利の問題?
人間にとっては素晴らしい決定だね。OpenAIが非営利に見えるのは、こういうリスクがあるからなのかな?
Ross IntelligenceはThomson Reutersと直接競争する製品を作っていたから、明らかに公正使用じゃないよ。
もし本当の一般的なAIができたら面白い結果になるかも。でも今は著作権のせいでそれが実現しない。将来、金持ちだけがAIにアクセスできるようになるのが怖いんだ。
Westlawは法律業界にとってResearchGateが科学研究に対するような存在。情報を利用して、すごく高い価格をつけて利益を上げてるから、法律業界が高額になる理由の一つだね。
ほとんどの公正使用に関する記事では、小さい部分しか使えないって言うけど、AI関係の人は数少ない前例を拡張しすぎだよ。普通の人ならその解釈はしないと思う。AI企業はその結果に金をかけるのに、予想外の判決が出ることもある。
6ページ目から:『頭注は、意見の一部を要約したり、合成したり、説明したりすることで創造性を引き出し、著作権の対象になる可能性がある。』これって、AI生成の要約がLLM所有者によって著作権保護される前例を設定してるの?
Ross Intelligenceは、自然言語での検索インターフェースだったと思う。だから、彼らは生産にそのコーパスを使用してたんじゃないかな。
LLMシステムのコーパスがすでに統合されている場合、どうなるの?
裁判官はこれが著作権の侵害だと判決を下したから、正当なライセンスなしに著作権素材をホストするのと同じだよね。関連する重みをプルーニングして、それらの素材にアクセスできないようにする必要があるかも。
出力を検閲するだけじゃね?Youtubeは著作権素材のアップロードを止める必要はなくて、共有を止める必要がある。
重みをプルーニングする必要があるかもだけど、望ましくない出力を出さないように安定して訓練するのが重要だよね。
Thomson ReutersはRoss Intelligenceを訴えたけど、GoogleやOpenAIみたいな大手企業が相手だったら結果はどうなってた?政治的な駆け引きもあったかもね。大企業がRoss Intelligenceを資金援助して、訴訟戦略を台無しにする脅威があったかも。
この記事からこの行を見逃してたな:Ross Intelligenceは2021年に訴訟のコストを理由に閉鎖したんだ。
法的な側面が影響したかもね。このツールは自分たちの職業への攻撃と見られるから、そういうのが判断に影響を与える。
裁判官はWestlawのユーザーで、株主じゃない。彼らもWestlawがもっと安くて使いやすくなってほしいと思ってる。Westlawは裁判官の仕事から利益を得てるわけだから、裁判官にリクシードしてもらうべきだよね。
次のステップは何だろうね。まずはあなたの知的財産をコピーしてる競争相手を止めることかな。弁護士は喜ぶと思うけど。
Deepseekや他の非西洋のAIは著作権を尊重すると思う?これによってDeepseekがさらに価値を持つようになるだろう。
その4つの要素で『フェアユース』判断するなら、これは終わりだね。フェアユースじゃないのは明らかだし、全然フェアだと思う。『トランスフォーマティブ』が問題になると思ってたのに。
著作権が色んなAIを生み出すのはいいことだね。各AI企業がそれぞれ作ったトレーニングを使うことで、似ているけど異なるAIが生まれる方が、一つや二つのAIだけより全然いいと思う。
もう死んだ会社に勝って先例を作るのは印象に残らないし、他の会社にはあまり通用しないと思うよ。
AI支持者が必死に粘っていたフェアユースの言い訳は、この判決で崩れたね。これからライセンス契約が増えそうだ。AI詐欺師が『フェアユース』を使って著作権法を回避するのは許されないから。OpenAIがShutterstockや他のニュースソースにお金を払ったように、これも同じだ。
中国みたいな国がこういう制約ない状態で急成長したらどうなるんだろう?ライセンス費用が大きくて大規模なトレーニングができないと、経済に大きな影響が出るよ。
『俺たちの』モデルは劣ってない。データはたくさんあるし、次のフロンティアは予測時の計算とデータ合成だよ。中国は商業IPの発表を抑えてるんじゃない?
著作権の制約がないから、俺たちのモデルは劣ってないんだ。この話題が関わってるんだから。
判例が確立されたら、GitHubから俺のコードを使ったモデルを訓練したやつを一つにつき30万円で訴えるのを楽しみにしてるよ。保証制度書いたやつは後悔するだろうな。
それ言ったら、既にGitHubでロイヤリティフリーで共有したんじゃないの?
いや、特定のライセンスの下でクレジットが必要だったんだ。それ以外は権利は全て留保されてる。
どうしてみんなこれを良くない結果だと思うのか理解できない。大企業は大量のデータをライセンスする問題ないし、小さいサイトは合法的にスクレイパーに吸われないで済むから、いいことじゃん。今の状況では、プロジェクトをどこにアップするかの意欲が歴史的に低いよ。
素晴らしいニュースだ!
デラウェアがテック企業を再登記させるのにそんなに速く恐れさせるとは思えないな。
ありがとう。記事が読み込めなかったから、見出しと画像、フッターだけ見えてたんだ。全部それだけかと思って離れようとしてた。