БЕЗКОШТОВНА 💚 доставка НОВОЮ ПОШТОЮ на аксесуари від 1499 ГРН 😎

Apple створює єдину модель штучного інтелекту, яка може бачити, створювати та редагувати зображення

Apple створює єдину модель штучного інтелекту, яка може бачити, створювати та редагувати зображення

в iCases Blog

Майбутнє вже тут

Команда дослідників Apple представила UniGen 1.5 — розвиток власної моделі UniGen, яка покликана об’єднати розуміння зображень, їх генерацію та редагування в межах одного універсального рішення. Якщо раніше для цих завдань зазвичай використовували різні моделі, то Apple продовжує рух у бік єдиного мультимодального підходу.

Від UniGen до UniGen 1.5

Першу версію UniGen Apple показала у травні минулого року в дослідженні UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. Тоді йшлося про модель, здатну як аналізувати зображення, так і створювати їх у межах одного алгоритму. У новій роботі UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning дослідники пішли далі й додали повноцінне редагування зображень, не розділяючи систему на окремі модулі.

Як працює редагування в єдиній моделі

Об’єднати аналіз зображень, їх генерацію та редагування в межах однієї моделі — непросте завдання, адже кожен із цих процесів працює за власною логікою. В Apple, однак, переконані: чим краще система «розуміє» зображення, тим точніше вона зможе його створювати й змінювати. Найбільша складність полягає в тому, що моделі часто неправильно зчитують складні або надто детальні інструкції, особливо коли йдеться про ледь помітні правки.

Саме тому в UniGen 1.5 з’явився додатковий етап після базового навчання — Edit Instruction Alignment. На цьому кроці модель не поспішає одразу змінювати картинку: спочатку вона аналізує запит користувача разом з оригінальним зображенням і формує детальний текстовий «план» того, яким має бути результат. Лише після такого внутрішнього узгодження система переходить до фінального редагування. Цей підхід дозволяє UniGen 1.5 значно точніше передавати задум користувача й помітно підвищує якість зображень, особливо в тонких і складних сценаріях.

Єдина система винагород і результати тестів

Ключовою інновацією дослідження стало використання спільної системи винагород для генерації та редагування зображень. Раніше це було складно реалізувати, адже редагування може варіюватися від дрібних правок до повної трансформації сцени. Завдяки уніфікованому підходу UniGen 1.5 показала високі результати в галузевих бенчмарках: модель або не поступається, або перевершує сучасні відкриті та закриті мультимодальні рішення за точністю дотримання інструкцій, якістю зображень і роботою зі складними правками. За деякими показниками вона навіть наближається до пропрієтарних моделей на кшталт GPT-Image-1.

Обмеження, над якими ще працюють

Попри прогрес, дослідники визнають і слабкі сторони UniGen 1.5.

Попри помітний прогрес, модель усе ще не ідеальна. Найбільше складнощів виникає з точним відтворенням тексту всередині зображень, а також зі збереженням стабільної візуальної ідентичності об’єктів у окремих випадках. Іноді змінюються ледь помітні, але важливі деталі — наприклад, структура шерсті у тварин або відтінки й малюнок пір’я. В Apple відкрито визнають ці обмеження та підкреслюють, що саме ці напрямки стануть фокусом подальших удосконалень.

Водночас UniGen 1.5 вже можна вважати вагомим етапом у розвитку універсальних мультимодальних систем. Модель на практиці демонструє, що поєднання аналізу, генерації та редагування зображень в єдиній архітектурі не лише реальне, а й здатне конкурувати з сучасними рішеннями, задаючи напрямок для наступних досліджень у цій сфері.

  1. Через різке подорожчання оперативної пам'яті Apple змушена знову купувати її у Samsung
  2. Samsung анонсує перший у світі 2-нм мобільний чіп, випередивши Apple
Додати коментар
Популярні статті
Товар додано до кошика