
Apple создает единую модель искусственного интеллекта, которая может видеть, создавать и редактировать изображения
в iCases BlogБудущее уже здесь
Команда исследователей Apple представила UniGen 1.5 — развитие собственной модели UniGen, призванной объединить понимание изображений, их генерацию и редактирование в рамках одного универсального решения. Если раньше для этих задач обычно использовали разные модели, то Apple продолжает движение в сторону единого мультимодального подхода.
От UniGen к UniGen 1.5
Первую версию UniGen Apple показала в мае прошлого года в исследовании UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. Речь шла о модели, способной как анализировать изображение, так и создавать их в пределах одного алгоритма. В новой работе UniGen-1.5: Enhancing Image Generation and Editing through Reward Unification in Reinforcement Learning исследователи пошли дальше и добавили полноценное редактирование изображений, не разделяя систему на отдельные модули.
Как работает редактирование в единой модели
Объединить анализ изображений, их генерацию и редактирование в рамках одной модели – непростая задача, ведь каждый из этих процессов работает по собственной логике. В Apple, однако, уверены: чем лучше система «понимает» изображение, тем точнее она сможет его создавать и изменять. Наибольшая сложность заключается в том, что модели часто неправильно считывают сложные или слишком подробные инструкции, особенно когда речь идет о едва заметных правках.
Именно поэтому в UniGen 1.5 появился дополнительный этап после базового обучения – Edit Instruction Alignment. На этом шаге модель не спешит сразу менять картинку: сначала она анализирует запрос пользователя вместе с оригинальным изображением и формирует детальный текстовый план того, каким должен быть результат. Только после такого внутреннего согласования система переходит в финальное редактирование. Этот подход позволяет UniGen 1.5 значительно точнее передавать пользовательский замысел и заметно повышает качество изображений, особенно в тонких и сложных сценариях.
Единая система вознаграждений и результаты тестов
Ключевой инновацией исследования стало использование общей системы вознаграждений для генерации и редактирования изображений. Раньше это было сложно реализовать, ведь редактирование может варьироваться от мелких поправок до полной трансформации сцены. Благодаря унифицированному подходу UniGen 1.5 показала высокие результаты в отраслевых бенчмарках: модель либо не уступает, либо превосходит современные открытые и закрытые мультимодальные решения по точности соблюдения инструкций, качеству изображений и работе со сложными правками. По некоторым показателям она даже приближается к проприетарным моделям типа GPT-Image-1.
Ограничения, над которыми еще работают
Несмотря на прогресс, исследователи признают слабые стороны UniGen 1.5.
Несмотря на заметный прогресс, модель все еще не идеальна. Наибольшее количество сложностей возникает с точным воспроизведением текста внутри изображений, а также с сохранением стабильной визуальной идентичности объектов в отдельных случаях. Иногда меняются едва заметные, но важные детали – например, структура шерсти у животных или оттенки и рисунок перьев. В Apple открыто признают эти ограничения и подчеркивают, что именно эти направления станут фокусом дальнейших усовершенствований.
В то же время, UniGen 1.5 уже можно считать весомым этапом в развитии универсальных мультимодальных систем. На практике модель показывает, что сочетание анализа, генерации и редактирования изображений в единой архитектуре не только реально, но и способно конкурировать с современными решениями, задавая направление для последующих исследований в этой сфере.

