Топ нейросетей для работы с графикой, видео и звуком

Топ нейросетей для работы с графикой, видео и звуком

В мире современных технологий нейросети играют важную роль в обработке различных типов медиа-контента, таких как графика, видео и звук. Эти мощные алгоритмы искусственного интеллекта стали незаменимыми инструментами для обработки и анализа такого разнообразного контента. С их помощью становится возможным создавать уникальные эффекты, реалистичные визуальные изображения и даже синтезировать звуки. Давайте рассмотрим некоторые из ключевых нейросетей, специализирующихся на работе с графикой, видео и звуком, и узнаем, как они меняют понимание о том, что можно достичь в мире медийных технологий.

 

Графика:

 

Automatic1111 — интерфейс к Stable Diffusion

версия в колабе

ComfyUI — интерфейс к Stable Diffusion для составных генераций

ControlNet — дополнительный контроль над генерациями

SAM — дополнительный контроль сегментацией

StableSR — апскейл картинок с помощью Stable Diffusion

multidiffusion — Tiled VAE для больших апскейлов

adetailer — автоматический детализатор

OpenOutpaint — интерфейс для outpaint

kohya_ss — скрипты для дообучения Stable Diffusion

версия в колабе

гуи версия для компа

recognize-anything — разметка картинок

DeepDanbooru — разметка аниме-картинок

photobear* — удаление фона. не опенсорс, но легко слямзить картинку через код страницы

 

Видео:

 

flowframes — интерполяция кадров

roop — быстрые дипфейки

DeepFaceLab — медленные дипфейки

SadTalker — оживляет лицо

SD-CN-Animation — video2video через Stable Diffusion

text2video — text2video через potat1

nerfstudio — 3d сцена из видео

 

Звук:

 

RVC — копирует тембр голоса

Ultimate Vocal Remover — отделяет голос от инструментала в песнях

MusicGen — text2music

whisperX — расшифровка речи

tortoise — text2speech

bark — text2speech