
Apple представила новий ШІ, який може перевершити ChatGPT 4
в iCases BlogЯкий спрямований на радикальне поліпшення розуміння голосових помічників і реагування на команди.
Дослідники Apple розробили систему штучного інтелекту під назвою ReALM (Reference Resolution as Language Modeling), яка покликана радикально поліпшити те, як голосові помічники розуміють і реагують на команди.
У дослідницькому документі (через VentureBeat) Apple описує нову систему, яка являє собою великомасштабну мовну модель, що вирішує проблему вирішення посилань. Розв'язання посилань охоплює декодування неоднозначних посилань на об'єкти на екрані, а також розуміння контексту розмови і фону. У результаті ReALM забезпечує більш інтуїтивну і природну взаємодію з пристроєм.
Розшифровка посилань - важлива частина розуміння природної мови, що дає змогу користувачам використовувати займенники та інші непрямі посилання в розмові без плутанини. Для цифрових помічників ця здатність історично була серйозною проблемою, обмеженою необхідністю інтерпретувати широкий спектр лінгвістичних підказок і візуальної інформації. Система ReALM від Apple намагається розв'язати цю проблему, перетворюючи складний процес розв'язання посилань на завдання суто лінгвістичного моделювання. При цьому вона здатна розуміти посилання на візуальні елементи, що відображаються на екрані, та інтегрувати це розуміння в хід розмови.
ReALM використовує текстові подання для реконструкції візуальної схеми екрана. Для цього необхідно проаналізувати екранні об'єкти та їхнє розташування, щоб створити текстовий формат, що відображає зміст і структуру екрана. Дослідники Apple виявили, що ця стратегія в поєднанні зі спеціальним тонким налаштуванням мовної моделі для задачі роздільної здатності посилань значно перевершує традиційні методи, включно з функцією GPT-4 від OpenAI.
ReALM може дозволити користувачам набагато ефективніше взаємодіяти з цифровими помічниками, посилаючись на те, що перебуває на даний момент на екрані, не вимагаючи точних і докладних інструкцій. Це може зробити голосових помічників кориснішими в різних ситуаціях, наприклад, допомагаючи водіям орієнтуватися в інформаційно-розважальних системах під час керування автомобілем або допомагаючи користувачам з обмеженими можливостями, надаючи простіші й точніші засоби непрямої взаємодії.
Наразі Apple публікує кілька наукових робіт зі штучного інтелекту. Минулого місяця компанія оголосила про новий метод навчання великомасштабних мовних моделей, які легко інтегрують як текстову, так і візуальну інформацію. Очікується, що Apple анонсує низку функцій штучного інтелекту на WWDC у червні.