Внимание! Наблюдаем проблему выбора отделения или почтомата 😰 укажите город и № отделения в комментариях, а мы все изменим 🙈

БЕСПЛАТНАЯ 💚 доставка НОВОЙ ПОЧТОЙ  на аксессуары от 1499 ГРН 😎

 
Apple показывает, насколько быстрее M5 выполняет локальные LLM по сравнению с M4

Apple показывает, насколько быстрее M5 выполняет локальные LLM по сравнению с M4

в iCases Blog

Новая публикация в блоге Apple Machine Learning Research показывает, насколько микросхема Apple M5 улучшилась по сравнению с M4, когда дело доходит до запуска локального LLM

В своем блоге Apple приводит данные о значительном приросте производительности инференса в новом чипе M5. Это стало возможным благодаря появлению GPU Neural Accelerators – специальных модулей, ускоряющих матричные вычисления, важные для AI-моделей.

Чтобы продемонстрировать разницу, Apple сравнила время генерации первого токена разными моделями при запуске на MacBook Pro с M4 и M5, используя MLX LM.

Компания протестовала:

  • Qwen 1.7B и 8B в BF16
  • 4-битные Qwen 8B и Qwen 14B
  • MoE-модели: Qwen 30B (3B активных параметров, 4-bit) и GPT OSS 20B (MXFP4)

Оценку проводили по двум параметрам:

  • время генерации первого токена,
  • скорость генерации (токенов в секунду) при создании 128 последующих токенов.

Во всех случаях объем подсказки (prompt) был 4096 токенов.

Почему важны первый токен и следующие

Процесс генерации первого токена работает по другому, чем последующий текст.

  • Первый токен: вычислительно сложный (compute-bound).
  • Следующие токены: упираются в пропускную способность памяти (memory-bound).

Поэтому Apple дополнительно тестировала скорость вывода 128 токенов – чтобы получить более полную картину.

В общем, M5 показал прирост производительности от 19% до 27% по сравнению с M4, что подтверждает важность новых GPU-акселераторов для работы AI-моделей.

  1. По слухам, дизайн нового iPhone 18 Pro будет иметь два ключевых изменения
  2. Карты Google: советы по использованию искусственного интеллекта Gemini
Добавить комментарий
Популярні статті