Исследование Apple показало, что ИИ-модели не думают, а имитируют мышление
в iCases BlogСообщает издание TechCrunch.
Недавно опубликованное исследование, проведённое исследовательской группой Apple по искусственному интеллекту (ИИ), выявило серьёзные недостатки в способностях больших языковых моделей (LLM) к логическому рассуждению. Исследование, размещённое на платформе arXiv, оценивало производительность ряда передовых языковых моделей, включая модели от OpenAI, Meta и других разработчиков, на задачах математического рассуждения. Результаты показали, что даже незначительные изменения в формулировке вопросов могут вызвать резкие колебания в работе моделей, что ставит под сомнение их надёжность в контекстах, требующих логической согласованности.
Apple акцентировала внимание на том, что языковые модели по-прежнему сильно зависят от сопоставления шаблонов, а не от истинных логических процессов. В ряде тестов исследователи продемонстрировали, что включение в задачу лишней информации, не связанной с её решением, привело к ошибкам в ответах моделей. Например, одна из задач, приведённых в исследовании, касалась подсчёта собранных киви за несколько дней. Когда в задачу были добавлены нерелевантные детали о размерах киви, такие модели, как OpenAI’s GPT-4 и Meta’s Llama, неправильно изменили конечный результат, несмотря на то, что эта информация не имела отношения к математическому решению.
Исследователи пришли к выводу, что языковые модели не используют настоящее логическое мышление. Их поведение больше похоже на сложные механизмы сопоставления шаблонов, которые могут быть нарушены изменениями, такими как незначительное изменение имён или структуры задачи. В исследовании также отмечено, что изменение имён в примерах может изменить результаты на 10%, что является тревожным признаком для применения ИИ в областях, требующих последовательных и точных рассуждений.
Apple предполагает, что для решения этой проблемы в будущем может потребоваться интеграция нейронных сетей с более традиционными методами рассуждения на основе символов — так называемыми нейросимволическими подходами к ИИ. Это может позволить моделям принимать более точные решения и лучше справляться с задачами, требующими логики и рассуждений в реальных сценариях.