Расскажу о том, как устроено обучение нейронных сетей, которые не помещаются на одну видеокарту.
Поговорим о таких техниках, как ZeRO и Tensor / Pipeline /.../ Sequence Parallel. Затронем влияние вычислительной точности на модель. Поговорим о важности инфраструктуры и оптимизации скорости перезапуска обучения. А также обсудим, как грамотная работа с видеопамятью повышает скорость обучения, в том числе подсветим тонкости работы с кэширующим аллокатором памяти в PyTorch.
Data-scientist, ml-engineer, engineers.
Middle.
Презентация (на Я.Диске)
Пришёл в AI из мира backend-разработки, а начал свою карьеру с вёрстки сайта по продаже бетона в Иркутске. Был SE в Промсофт, потом делал RecSys в Тинькофф.
Сейчас помогает учить претрейны для GigaChat в SberDevices, где занимается разным: от ускорения кода обучения до дизайна экспериментов.
Закончил мехмат НГУ, магистратуру ФПМИ МФТИ, сейчас аспирант первого курса в НГУ.