Сейчас один из трендов — это мультимодальность. То есть когда фундаментальная (языковая) модель умеет поддерживать связный диалог не только с использованием текста, но и при помощи картинок, видео и аудио. Вышло уже достаточно много моделей и сервисов типа GPT-4V, LLaVA, Qwen-VL и другие. Моя команда разрабатывает мультимодальную модель OmniFusion, которая сейчас показывает очень высокие показатели по ряду метрик, обгоняя другие решения, даже преобладающие по числу параметров.
В докладе хочется сконцентрироваться на технологиях и методах добавления новых модальностей, способах обучения таких механизмов и рассказать наш опыт в решении downstream задач, которые возникают на стыке нескольких модальностей.
Team-lead, data-scientist, ml-engineer.
Advanced.
Презентация (на Я.Диске)
К.т.н., директор лаборатории FusionBrain в AIRI
Многолетний опыт руководства исследованиями в области компьютерного зрения, мультимодальных и мультиагентных архитектур (OmniFusion, RUDOLPH и GHOST, семейство генеративных моделей Kandinsky, и др.). Автор 70+ публикаций в Scopus/WoS, включая журналы Q1 и конференции Core A/A*. Спикер крупных международных научных и научно-популярных конференций в области AI.