
Дослідження Apple показало, що ШІ-моделі не думають, а імітують мислення
в iCases BlogПовідомляє видання TechCrunch.
Нещодавно опубліковане дослідження, проведене дослідницькою групою Apple зі штучного інтелекту (ШІ), виявило серйозні недоліки у здібностях великих мовних моделей (LLM) до логічного міркування. Дослідження, розміщене на платформі arXiv, оцінювало продуктивність ряду передових мовних моделей, включаючи моделі від OpenAI, Meta та інших розробників, завдання математичного міркування. Результати показали, що навіть незначні зміни у формулюванні питань можуть викликати різкі коливання в роботі моделей, що ставить під сумнів їхню надійність у контекстах, що потребують логічної узгодженості.
Apple акцентувала увагу на тому, що мовні моделі, як і раніше, сильно залежать від зіставлення шаблонів, а не від справжніх логічних процесів. У ряді тестів дослідники продемонстрували, що включення до завдання зайвої інформації, не пов'язаної з її вирішенням, призвело до помилок у відповідях моделей. Наприклад, одне із завдань, наведених у дослідженні, стосувалося підрахунку зібраних ківі за кілька днів. Коли в завдання були додані нерелевантні деталі про розміри ківі, такі моделі, як OpenAI GPT-4 і Meta Llama, неправильно змінили кінцевий результат, незважаючи на те, що ця інформація не мала відношення до математичного рішення.
Дослідники дійшли висновку, що мовні моделі не використовують справжнє логічне мислення. Їхня поведінка більше схожа на складні механізми зіставлення шаблонів, які можуть бути порушені змінами, такими як незначна зміна імен або структури завдання. У дослідженні також зазначено, що зміна назв у прикладах може змінити результати на 10%, що є тривожною ознакою для застосування ШІ в областях, що потребують послідовних і точних міркувань.
Apple припускає, що для вирішення цієї проблеми в майбутньому може знадобитися інтеграція нейронних мереж з традиційнішими методами міркування на основі символів — так званими нейросимволічними підходами до ШІ. Це може дозволити моделям приймати більш точні рішення та краще справлятися із завданнями, що потребують логіки та міркувань у реальних сценаріях.