Мона Лиза заговорила впервые за 500 лет: ИИ превратил изображение в живое лицо
Новая разработка в области искусственного интеллекта удивила даже скептиков. Всего одно изображение теперь может стать основой для создания реалистичного говорящего аватара. Исследователи использовали технологию на известных портретах, включая "Мону Лизу" Леонардо да Винчи, и получили впечатляющие результаты, несмотря на небольшие визуальные сбои. Об этом сообщает исследовательский центр Samsung в Москве.
Новое поколение искусственного интеллекта
Создание правдоподобных "говорящих голов" долгое время считалось одной из самых сложных задач в сфере нейронных сетей. Ранее подобные технологии требовали больших наборов изображений одного человека, чтобы алгоритм смог корректно воспроизводить мимику и движение губ. Однако новая модель от Samsung смогла радикально упростить процесс: теперь для генерации реалистичного видеоклипа достаточно всего одной фотографии.
Инженеры добились этого благодаря трёхуровневой архитектуре нейросети. В процессе обучения модель создает три независимые сети, которые взаимодействуют между собой. Первая отвечает за построение ориентиров лица, связывая их с векторами движений. Вторая — за генерацию кадров, сопоставляя ориентиры с визуальными данными. Третья — дискриминатор, оценивает реалистичность движений и поз. Развитие подобных подходов идёт параллельно с тем, как ИИ отследил движение атомов в сверхтонком кристалле, расширяя границы применения технологий.
Как работает система
Чтобы добиться естественности мимики, исследователи использовали тысячи видео с YouTube, где люди разговаривают в разных условиях. Это позволило алгоритму изучить богатый диапазон выражений лица, поворотов головы и жестов. После обучения результаты работы новой модели сравнили с другими существующими нейросетями, и именно она показала наиболее реалистичные результаты.
"Мы добились того, что одна фотография может быть преобразована в динамичный видеоролик, который почти невозможно отличить от реального", — отмечают разработчики Samsung.
Благодаря этому подходу ИИ способен синтезировать речь и движения губ даже при поворотах головы, что ранее было большой проблемой для подобных систем.
Применение и возможности
Модель уже продемонстрировала свои способности на портретах знаменитостей и исторических личностей. Так, зрители смогли увидеть, как "оживает" Мона Лиза — её лицо двигается, а губы складываются в знаменитую загадочную улыбку. Аналогичные эксперименты были проведены с изображениями Леонардо да Винчи и Альберта Эйнштейна.
"Результаты превосходят всё, что мы видели ранее, хотя в некоторых случаях остаются мелкие артефакты", — говорится в отчёте команды исследователей.
При этом качество работы модели заметно повышается, если использовать не одно, а несколько изображений — например, 32 кадра, что позволяет достичь идеального сходства и естественной пластики движений. Развитие подобных систем идёт в русле новых инструментов генеративных технологий, например, того, как разработан браузер с созданием приложений в реальном времени, что подтверждает глобальный тренд на визуализацию контента через ИИ.
Потенциал и риски
Возможности технологии выходят далеко за рамки экспериментов с портретами. Говорящие аватары могут найти применение в индустрии развлечений, телеприсутствии, онлайн-образовании, видеоконференциях и многопользовательских играх. В сфере кинопроизводства такие инструменты помогут создавать спецэффекты и цифровых дублеров актёров с минимальными затратами.
Однако эксперты предупреждают, что столь стремительное развитие технологий синтеза изображения несёт и риски. Реалистичные "глубокие подделки" (deepfakes) могут использоваться для дезинформации, фальсификации и мошенничества, особенно в условиях быстрого распространения контента в сети. Поэтому вопрос этического и правового регулирования таких систем становится всё более актуальным.
Завершая исследование, специалисты подчёркивают: несмотря на отдельные технические недочёты, новая модель Samsung демонстрирует качественный скачок в развитии искусственного интеллекта. Её способность создавать реалистичные говорящие аватары из одного изображения открывает путь к новым форматам коммуникации и визуального контента, приближающим цифровой мир к грани реальности.
Подписывайтесь на Экосевер