«Искусственное» видео: новые возможности нейросетей - Автор: Анна Багрова. Иллюстратор: Гела Чепелева

Нейросети продолжают стремительно развиваться. То, что казалось невозможным год назад, уже реальность. Сегодня искусственный интеллект способен создавать текст, копировать голос, генерировать картинку и видео. Чему он еще научится в 2024 году?

Материал предназначен для лиц старше 18 лет.

Искусственный интеллект — неоднозначная тема. Фильмы, будь то «Я, робот» или «Терминатор», всегда представляли «восстание машин» как нечто, чего стоит бояться в будущем. С таким отношением был поначалу встречен и Chat GPT. В первую волну популярности этого ИИ пользователи Интернета высказывали свою обеспокоенность. Слишком умная машина ассоциировалась с известными фантастическими фильмами. Как оказалось, зря. Или все-таки нет?

Самая распространенная потребность в использовании искусственного интеллекта — учеба. Школьники, студенты, а иногда и преподаватели пишут тексты и решают задачи, используя Chat GPT. В Интернете же ИИ используют в основном для развлечений. С помощью нейросети генерируют картинки и видео, создают каверы известных песен разными голосами и др. Из-за подобного безобидного использования искусственного интеллекта люди стали сомневаться в опасности этих машин, которую некогда пропагандировали фэнтезийные фильмы. Так было до инцидента с американской певицей Тейлор Свифт. В Microsoft этот случай назвали тревожным.

25 января 2024 года в Интернете разместили изображения эротического характера с Тейлор Свифт, сгенерированные искусственным интеллектом. Их опубликовали в социальной сети X (ранее Twitter, заблокирована в России). Один из постов собрал более 45 млн просмотров, прежде чем аккаунт был заблокирован. Но, как известно, то, что однажды попало в Интернет, оттуда уже не исчезнет. Сгенерированные изображения с Тейлор Свифт до сих пор находятся в открытом доступе.

Что такое Sora?

С появлением дипфейков (сгенерированные ИИ изображения или видео — прим. ред.) люди снова обеспокоились стремительным развитием искусственного интеллекта. Угроза, которую раньше видели в появлении собственной воли у машины, теперь исходит от человека. ИИ сам по себе не опасен, но как инструмент в недобросовестных руках он разрушителен.

Это подтверждает и последнее обновление, которым похвастались в американской научно-исследовательской организации OpenAI. Создание искусственного интеллекта, способного генерировать реалистичные видео, было вопросом времени. 15 февраля 2024 года OpenAI выпустила несколько фрагментов видеороликов высокой четкости, сделанных ее новой нейросетью.

Sora — модель искусственного интеллекта, которая генерирует реалистичные видео на основе текстовых инструкций пользователей. Названа японским словом, означающим небо, — это символизирует ее безграничные возможности. В инструкции для Sora пользователи могут задать различные стили, образы и даже описания реальных «сценариев».

^{Видео, сгенерированное SoraAI. Источник:}^YouTube

Sora получила множество положительных отзывов от пользователей за способность генерировать видеоролики с высоким уровнем детализации, включая сложные движения камеры и широкий диапазон эмоций персонажей. Кроме того, модель может расширить уже существующие короткие видео за счет добавления нового контента, который плавно вводится спереди или после оригинального клипа.

Как Интернет встретил новую нейросеть?

Если раньше сгенерированный нейросетью контент можно было распознать по странной «картинке» (например, неадекватное количество пальцев у человека или его «ломаные» движения), то теперь Sora создает видео, неотличимые от реальности. В связи с этим в социальных сетях появился новый поток мемов и трендов. Особо показателен тренд в TikTok «ИИ или реальность», где зрителям дается время, чтобы определить настоящее видео из двух предложенных. Отличить их настолько сложно, что это невольно заставляет задуматься о будущем человечества в условиях стремительного развития искусственного интеллекта.

Еще один показательный случай — ситуация с Уиллом Смитом. Одно из первых видео, сгенерированных Sora, было именно с этим американским актером. Выглядело оно по-настоящему жутким и далеким от реальности: у Смита, поедавшего спагетти, руки «смешались» с пастой и прочими деталями. В ответ на дипфейк актер записал шуточное видео, в котором воспроизвел сюжет сгенерированного видео.

Многие пользователи в Интернете были удивлены тому, насколько улучшились способности Sora. Большинство из них не поняли, что второе видео с участием актера было настоящим, а не сгенерированным. Другие пользователи Сети предположили, что в ближайшее время ИИ научится создавать видеоклипы с таким же уровнем реалистичности. И действительно, уже сегодня Sora демонстрирует невероятные результаты.

Скриншоты из сгенерированного и реального видео с Уиллом Смитом. Источник: Hi-Tech Mail.ru

В чем состоит угроза?

Стремительным развитием нейросетей встревожены девушки по всему миру. Уязвимость женщин в сети — известная и больная тема. Создание дипфейков с использованием лица девушки может привести к ужасным последствиям.

18 сентября 2023 года в испанской газете «Паис» поднималась проблема созданных при помощи ИИ снимков обнаженных 14-летних девочек, из-за которых те подверглись буллингу. Можно вообразить масштаб социальной катастрофы, если подобные фейки появятся в видео формате. В результате в OpenAI заявили, что будут помечать видео метаданными стандарта C2PA, позволяющими распознать сгенерированный контент, и запретят создание роликов насильственного и сексуального характера. Однако нельзя с уверенностью сказать о том, что это гарант безопасности.

Общественность активно продвигает развитие искусственного интеллекта. Эротический журнал Playboy на свою мексиканскую обложку уже поместил девушку, сгенерированную нейросетью, а Levi’s с 2023 года активно использует «виртуальных моделей» на своем сайте. Так ИИ повлиял еще и на моделлинг, поставив вопрос о необходимости существования этой профессиональной сферы.

Обложка журнала Playboy с ИИ-моделью. Источник: Hi-Tech Mail.ru

Как создать видео через нейросеть

Sora еще находится в разработке, но в публичный доступ модель должна выйти уже в этом году. Пока что генерировать менее красочные, но персонализированные видео помогают другие искусственные интеллекты. Например, Pictory создает набор логичных картинок, затем Synthesia разрабатывает видео и голос, а Veed комбинирует конечный результат. Так можно «заставить» реалистичного Моргана Фримана говорить за тебя.

^{Дипфейк с Морганом Фриманом. Источник:}^YouTube

Видео, сгенерированное для L!Media. Источник: Synthesia

Несмотря на бытующее мнение о том, что искусственный интеллект не несет опасности, люди все еще мало знают о нем. Однако не стоит опасаться, что человечество поработят машины. Возможно, ИИ способен навредить иначе.