МОСКВА, 22 ноя — ПРАЙМ. Сбербанк представил Kandinsky Video — первую в России нейросеть для генерации полноценного видео, говорится в пресс-релизе.
"Сбер" представил нейросеть Kandinsky Video — первую в России генеративную модель для создания полноценных видеороликов по текстовому описанию. Модель генерирует видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду", — говорится в сообщении.
В релизе уточняется, что архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. В основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.
Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Как пишет пресс-служба "Сбера", нейросеть создает видеоролики с разрешением 512х512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тысяч пар "текст — видео". Генерация видео занимает до трех минут.
"Сбер" напоминает, что ранее у активных пользователей Kandinsky 2.2 в тестовом режиме появилась возможность создания анимационных видеороликов. По одному запросу можно создать видео длиной в четыре секунды с выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640х640 пикселей. Пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации.