
Apple без дозволу використовувала відео з YouTube для навчання свого ШІ
в iCases BlogПро це йдеться у розслідуванні Proof News та Wired.
Компанія Apple, а також інші великі технологічні компанії використовували субтитри YouTube для навчання моделей штучного інтелекту, як показало розслідування, проведене у четвер, розвіявши побоювання щодо використання даних для навчання моделей ШІ.
У розслідуванні Wired, проведеному раніше цього тижня, повідомлялося, що понад 170 000 відеороликів від популярних творців контенту були частиною набору даних, які використовуються для навчання моделей штучного інтелекту. Apple спеціально використовувала цей набір даних при розробці своєї моделі OpenELM з відкритим кодом, про яку вона оголосила в квітні.
Однак тепер Apple підтвердила виданню 9to5Mac, що OpenELM не працює з жодною з її функцій штучного інтелекту або машинного навчання, включаючи Apple Intelligence. Apple пояснила, що OpenELM був створений виключно з дослідницькою метою, щоб просунути розробку великомасштабних мовних моделей з відкритим вихідним кодом.
Випускаючи OpenELM на Hugging Face Hub, спільноті для обміну кодом штучного інтелекту, дослідники Apple назвали його "спільною мовною моделлю з відкритим вихідним кодом", покликаною "розширити можливості та збагатити спільноту дослідників з відкритим вихідним кодом". пояснили вони. Модель також доступна на сайті Apple Machine Learning Research. Apple заявила, що не планує розробляти нову версію моделі OpenELM.
Компанія підкреслила, що OpenELM не інтегрована в Apple Intelligence і що набір даних YouTube Subtitles не використовується для роботи її комерційних можливостей штучного інтелекту. Apple підтвердила свою попередню заяву про те, що моделі Apple Intelligence навчаються на «ліцензованих даних, включаючи дані, відібрані для покращення конкретних функцій, та загальнодоступні дані, зібрані веб-краулерами».
У звіті Wired детально розповідається про те, як компанії, включаючи Apple, Anthropic та NVIDIA, використовували набір даних YouTube Subtitles для навчання своїх моделей штучного інтелекту. Цей набір даних є частиною більшої колекції, відомої як The Pile, зібраної некомерційною організацією EleutherAI.