外媒爆料 Apple 蘋果、Nvidia 輝達等公司使用未經同意的 YouTube 影片訓練 AI 模型

「加三嘻行動哇 Yipee! 成為好友」

FacebookYoutubeTwitterInstagramTelegramLine

當我們在享受便利的 AI 工具時,背後的開發人員必須大量餵食資料讓 AI 模型變得更聰明,尤其需要大量文字和語音資料來模擬人類的書寫與口語方式。然而,多數的開發人員通常保密 AI 模型的訓練資料來源,這意味著這些資料很可能是在創作者不知情的情況下被使用。

根據多家外媒的最新報導,包括 Apple 蘋果、NVIDIA 輝達在內的知名科技公司,使用了未經創作者同意從 YouTube 擷取的影片字幕資料來訓練 AI 模型。

這次報導主要內容來自《Proof News》和《Wired》的聯合調查,被點名的科技公司包括 Apple 蘋果、Anthropic、NVIDIA 輝達和 Salesforce,受影響的 YouTube 影片來自多達 4.8 萬個頻道、超過 17 萬部影片,其中不乏知名創作者 MrBeast、Marques Brownlee (MKBHD),以及新聞媒體 ABC News、BBC 和 The New York Times 創作的影片。

Marques Brownlee 在 X 平台上發文表示,Apple 蘋果從多家公司取得 AI 模型來源,其中一家公司從 YouTube 影片擷取包括他的影片在內的大量資料和文字記錄。Apple 蘋果因為不是抄襲的人,在技術上避免「錯誤」。但這將是 AI 長期發展的問題。

根據《Proof News》和《Wired》的調查顯示,這些字幕資料源自於非營利組織 EleutherAI ,它的目標是幫助小型開發者和學術界訓練 AI 模型,但這家機構提供的資料也不乏知名科技公司使用。

《Proof News》報導指出,Anthropic 和 Salesforce 確認有使用 EleutherAI 釋出的「Pile」開放訓練資料庫來訓練 AI,但否認不當行為。「Pile」資料庫的內容包含網路上公開的書籍、Wiki 維基百科文章等資料,也包含 YouTube 字幕。

《Wired》報導,Pile 的大部分資料庫是開放給有足夠空間和運算能力的任何人存取。大型科技公司以外的學者和其他開發人員也會使用這個資料集,但他們並不是唯一使用的公司。

Apple 蘋果、NVIDIA 輝達和 Salesforce 等公司曾在研究論文和其他文章中描述了他們如何使用 Pile 來訓練 AI 人工智慧。在數個月之前,Apple 蘋果公司也曾透露使用 Pile 來訓練 OpenELM 模型。

《Proof News》以專業技術確認公開的 YouTube 影片字幕訓練資料集,並從中取得影片的 Metadata 詮釋資料、標題、頻道和類別,找出有哪些創作者的影片被用於訓練 AI 模型。同時,還發布了一個查詢工具,讓使用者可以輸入關鍵字搜尋確認自己的影片或喜歡的 YouTuber 的內容是否出現在資料庫中。

但要強調的是,這些影片字幕資料並不是由 Apple 蘋果、Nvidia 輝達直接下載,這些科技公司只是使用 Pile 來訓練 AI 模型;如果有疑似違反 YouTube 使用條款的應該是 EleutherAI。

事實上,AI 公司很少願意公開 AI 模型的訓練資料來源;YouTube 內容的具體使用方式也是近期以來備受關注的關鍵問題。例如, 2024 年 3 月 OpenAI 推出影片生成工具 Sora 時,技術長 Mira Murati 多次迴避是否使用 YouTube 影片來進行 AI 模型訓練的問題。

不過,YouTube 執行長 Neal Mohan 先前接受《彭博社》採訪時雖然沒有證實 OpenAI 是否使用 YouTube 影片來訓練 AI 模型,但他表示這樣的做法將「明顯違反」YouTube 平台的政策。畢竟創作者將他們的作品上傳到 YouTube 平台時,他們有一定的期望。其中之一的期望是遵守服務條款,不允許下載文字紀錄或影片片段等內容。

Google 執行長 Sundar Pichai 在 5 月的訪問時也同意 Neal Mohan 的觀點,並強調:「我們有使用條款,我們期望人們在打造產品時,能遵守這些使用條款和條件。」,換句話說,如果確實使用 YouTube 內容訓練 AI 模型,將違反 YouTube 的條款。

這些事件凸顯訓練 AI 模型的資料來源的法律和道德問題,儘管 Apple 蘋果和其他被點名的公司使用的是公開的資料庫,但這些第三方資料來源的合法性仍然備受質疑。

隨著 AI 技術發展速度愈來愈快速,使用頻率也愈來愈普遍,類似案例只會愈來愈多,因此如何平衡科技發展與保護版權成為了業界急需解決的挑戰。

延伸閱讀:

Meta、Google 捧重金想與好萊塢達成 AI 合作授權,但 Disney 迪士尼、Netflix 拒絕

Apple 蘋果與 Shutterstock 達成協議,授權數百萬張圖片供 AI 訓練使用

OpenAI 也考慮向新聞媒體支付文章授權費,但金額不及 Apple 蘋果

Apple 蘋果與新聞媒體及大型出版商洽談文章授權,將用來訓練 AI 人工智慧

微軟、OpenAI 又遇新訴訟!多位紀實文學作家提告侵犯版權來訓練 AI 模型

美國新法案要求 AI 開發公司應該列出生成式 AI 使用的版權來源

圖片及資料來源:9to5MacThe VergeWiredProof News彭博社

好友人數

大家對網站文章上的一個讚、+1及轉分享,都是對我們的最好的鼓勵及繼續下去的原動力,請大家不要吝嗇。

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

下一頁

環旭電子擴展全球業務版圖,在墨西哥托納拉建造新廠

週四 7 月 18 , 2024
「加三嘻行動哇 Yipee! 成為好友」 【Facebook、Youtube、Twitter、Ins […]
Shares