Путешествие в мир LLM pretrain: топовые кластеры, неочевидные ускорения и трудности
Data Science/ML/AI
Backend

Тезисы

Расскажу о том, как устроено обучение нейронных сетей, которые не помещаются на одну видеокарту.

Поговорим о таких техниках, как ZeRO и Tensor / Pipeline /.../ Sequence Parallel. Затронем влияние вычислительной точности на модель. Поговорим о важности инфраструктуры и оптимизации скорости перезапуска обучения. А также обсудим, как грамотная работа с видеопамятью повышает скорость обучения, в том числе подсветим тонкости работы с кэширующим аллокатором памяти в PyTorch.


Аудитория

Data-scientist, ml-engineer, engineers.


Уровень сложности

Middle.

Презентация (на Я.Диске)

Запись доклада

SberDevices

Валентин Мамедов

Пришёл в AI из мира backend-разработки, а начал свою карьеру с вёрстки сайта по продаже бетона в Иркутске. Был SE в Промсофт, потом делал RecSys в Тинькофф.

Сейчас помогает учить претрейны для GigaChat в SberDevices, где занимается разным: от ускорения кода обучения до дизайна экспериментов.

Закончил мехмат НГУ, магистратуру ФПМИ МФТИ, сейчас аспирант первого курса в НГУ.

Пришёл в AI из мира backend-разработки, а начал свою карьеру с вёрстки сайта по продаже бетона в Иркутске. Был SE в Промсофт, потом делал RecSys в Тинькофф.

Сейчас помогает учить претрейны для GigaChat в SberDevices, где занимается разным: от ускорения кода обучения до дизайна экспериментов.

Закончил мехмат НГУ, магистратуру ФПМИ МФТИ, сейчас аспирант первого курса в НГУ.

Еще на тему Data Science/ML/AI