В задачах машинного обучения данные не менее важны, чем модели. Чтобы собрать чистые данные, нужно постараться. Например, нужно перевести бизнес-постановку в пайплайн для крауда, поддерживать качество разметки и постоянно делать аналитику на предмет слабых мест датасета. Часто могут возникать сложности по типу как получить разметку на 100 классов или как добрать в датасет примеров с классом, который один на миллион. По статистике, в нашей команде, на сбор данных требуется 80% от суммарного времени на задачу.
Изначально задачами с данными у нас занимались ML-инженеры. Для них тяжело одновременно держать контексты данных и алгоритмов. У инженеров хорошо получается заниматься моделями, а вот следить за согласованностью разметки, планировать бюджет на неё и быть эмпатичными к крауду — не очень. Поэтому мы выделили отдельную роль и назвали её «менеджер датасетов».
В этом докладе:
Project-manager, data-scientist, ml-engineer, manager.
Any level.
Презентация (на Я.Диске)
Продолжительное время руководила командой аналитиков и выполняла функции менеджера по продукту. Последние три года отвечает за сбор и качество датасетов в команде компьютерного зрения 2GIS.