БЕЗКОШТОВНА 💚 доставка НОВОЮ ПОШТОЮ на аксесуари від 1499 ГРН 😎

Apple показує, наскільки швидше M5 виконує локальні LLM порівняно з M4

Apple показує, наскільки швидше M5 виконує локальні LLM порівняно з M4

в iCases Blog

Нова публікація в блозі Apple Machine Learning Research показує, наскільки мікросхема Apple M5 покращилася порівняно з M4, коли справа доходить до запуску локального LLM

У своєму блозі Apple наводить дані про значний приріст продуктивності інференсу в новому чипі M5. Це стало можливим завдяки появі GPU Neural Accelerators — спеціальних модулів, які пришвидшують матричні обчислення, важливі для AI-моделей.

Щоб продемонструвати різницю, Apple порівняла час генерації першого токена різними моделями при запуску на MacBook Pro з M4 і M5, використовуючи MLX LM.

Компанія протестувала:

  • Qwen 1.7B та 8B у BF16

  • 4-бітні Qwen 8B та Qwen 14B

  • MoE-моделі: Qwen 30B (3B активних параметрів, 4-bit) та GPT OSS 20B (MXFP4)

Оцінювання проводили за двома параметрами:

  • час генерації першого токена,

  • швидкість генерації (токенів на секунду) при створенні 128 наступних токенів.

У всіх випадках об’єм підказки (prompt) був 4096 токенів.

Чому важливі перший токен і наступні

Процес генерації першого токена працює інакше, ніж подальший текст.

  • Перший токен: обчислювально складний (compute-bound).

  • Наступні токени: впираються у пропускну здатність пам’яті (memory-bound).

Тому Apple додатково тестувала швидкість виводу 128 токенів — щоб отримати повнішу картину.

Загалом M5 показав приріст продуктивності від 19% до 27% у порівнянні з M4, що підтверджує важливість нових GPU-акселераторів для роботи AI-моделей.

  1. За чутками, дизайн нового iPhone 18 Pro матиме дві ключові зміни
  2. Карти Google: поради щодо використання штучного інтелекту Gemini
Додати коментар
Популярні статті