
Apple показує, наскільки швидше M5 виконує локальні LLM порівняно з M4
в iCases BlogНова публікація в блозі Apple Machine Learning Research показує, наскільки мікросхема Apple M5 покращилася порівняно з M4, коли справа доходить до запуску локального LLM
У своєму блозі Apple наводить дані про значний приріст продуктивності інференсу в новому чипі M5. Це стало можливим завдяки появі GPU Neural Accelerators — спеціальних модулів, які пришвидшують матричні обчислення, важливі для AI-моделей.
Щоб продемонструвати різницю, Apple порівняла час генерації першого токена різними моделями при запуску на MacBook Pro з M4 і M5, використовуючи MLX LM.
Компанія протестувала:
-
Qwen 1.7B та 8B у BF16
-
4-бітні Qwen 8B та Qwen 14B
-
MoE-моделі: Qwen 30B (3B активних параметрів, 4-bit) та GPT OSS 20B (MXFP4)
Оцінювання проводили за двома параметрами:
-
час генерації першого токена,
-
швидкість генерації (токенів на секунду) при створенні 128 наступних токенів.
У всіх випадках об’єм підказки (prompt) був 4096 токенів.
Чому важливі перший токен і наступні
Процес генерації першого токена працює інакше, ніж подальший текст.
-
Перший токен: обчислювально складний (compute-bound).
-
Наступні токени: впираються у пропускну здатність пам’яті (memory-bound).
Тому Apple додатково тестувала швидкість виводу 128 токенів — щоб отримати повнішу картину.
Загалом M5 показав приріст продуктивності від 19% до 27% у порівнянні з M4, що підтверджує важливість нових GPU-акселераторів для роботи AI-моделей.

