Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2022-10-06 11:45:14

Google представила генератор видео по тексту на базе Imagen

Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду. https://twitter.com/hojonathanho/status/1577712621037445121 Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма». Изображения, сгенерированные Imagen. Данные: Google. Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения. В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS. Первый этап генерации видео Imagen Video. Данные: Google. Промежуточный этап генерации видео Imagen Video. Данные: Google. Готовое видео, сгенерированное Imagen Video. Данные: Google. Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов. Видео, сгенерированное Imagen Video. Данные: Google. Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном. Видео, сгенерированное Imagen Video. Данные: Google. Также система умеет правильно отображать текст.  «В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта. По словам ИИ-исследователя из Университета Альберты Мэтью Гуздиала, проблема преобразования текста в видео до сих пор не решена. «Мы вряд ли скоро достигнем чего-то вроде DALL-E 2 или Midjourney по качеству [создания роликов]», — заявил он. Чтобы убрать дрожание в видео и избавится от искажений, команда Imagen Video планирует объединить усилия с разработчиками Phenaki. Это еще один генератор от Google, превращающий длинные подробные подсказки в двухминутные ролики низкого качества. В Google также отмечают, что используемые для обучения данные содержали неприемлемый контент, из-за чего Imagen Video иногда создает клипы с изображением насилия или сексуального характера. Поэтому компания не планирует выпускать модель или ее исходный код до исправления проблемы. Напомним, в сентябре энтузиаст разработал генератор анимации по тексту Stable Diffusion Video. В августе TikTok представил инструмент создания фонов для видео по словесным запросам. В июне китайские исследователи разработали трансформер CogVideo с 9 млрд параметров для преобразования текста в анимацию. Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!

Read the Disclaimer : All content provided herein our website, hyperlinked sites, associated applications, forums, blogs, social media accounts and other platforms (“Site”) is for your general information only, procured from third party sources. We make no warranties of any kind in relation to our content, including but not limited to accuracy and updatedness. No part of the content that we provide constitutes financial advice, legal advice or any other form of advice meant for your specific reliance for any purpose. Any use or reliance on our content is solely at your own risk and discretion. You should conduct your own research, review, analyse and verify our content before relying on them. Trading is a highly risky activity that can lead to major losses, please therefore consult your financial advisor before making any decision. No content on our Site is meant to be a solicitation or offer.