
Apple показывает, насколько быстрее M5 выполняет локальные LLM по сравнению с M4
в iCases BlogНовая публикация в блоге Apple Machine Learning Research показывает, насколько микросхема Apple M5 улучшилась по сравнению с M4, когда дело доходит до запуска локального LLM
В своем блоге Apple приводит данные о значительном приросте производительности инференса в новом чипе M5. Это стало возможным благодаря появлению GPU Neural Accelerators – специальных модулей, ускоряющих матричные вычисления, важные для AI-моделей.
Чтобы продемонстрировать разницу, Apple сравнила время генерации первого токена разными моделями при запуске на MacBook Pro с M4 и M5, используя MLX LM.
Компания протестовала:
- Qwen 1.7B и 8B в BF16
- 4-битные Qwen 8B и Qwen 14B
- MoE-модели: Qwen 30B (3B активных параметров, 4-bit) и GPT OSS 20B (MXFP4)
Оценку проводили по двум параметрам:
- время генерации первого токена,
- скорость генерации (токенов в секунду) при создании 128 последующих токенов.
Во всех случаях объем подсказки (prompt) был 4096 токенов.
Почему важны первый токен и следующие
Процесс генерации первого токена работает по другому, чем последующий текст.
- Первый токен: вычислительно сложный (compute-bound).
- Следующие токены: упираются в пропускную способность памяти (memory-bound).
Поэтому Apple дополнительно тестировала скорость вывода 128 токенов – чтобы получить более полную картину.
В общем, M5 показал прирост производительности от 19% до 27% по сравнению с M4, что подтверждает важность новых GPU-акселераторов для работы AI-моделей.

