В мире современных технологий нейросети играют важную роль в обработке различных типов медиа-контента, таких как графика, видео и звук. Эти мощные алгоритмы искусственного интеллекта стали незаменимыми инструментами для обработки и анализа такого разнообразного контента. С их помощью становится возможным создавать уникальные эффекты, реалистичные визуальные изображения и даже синтезировать звуки. Давайте рассмотрим некоторые из ключевых нейросетей, специализирующихся на работе с графикой, видео и звуком, и узнаем, как они меняют понимание о том, что можно достичь в мире медийных технологий.
Графика:
Automatic1111 — интерфейс к Stable Diffusion
ComfyUI — интерфейс к Stable Diffusion для составных генераций
ControlNet — дополнительный контроль над генерациями
SAM — дополнительный контроль сегментацией
StableSR — апскейл картинок с помощью Stable Diffusion
multidiffusion — Tiled VAE для больших апскейлов
adetailer — автоматический детализатор
OpenOutpaint — интерфейс для outpaint
kohya_ss — скрипты для дообучения Stable Diffusion
recognize-anything — разметка картинок
DeepDanbooru — разметка аниме-картинок
photobear* — удаление фона. не опенсорс, но легко слямзить картинку через код страницы
Видео:
flowframes — интерполяция кадров
roop — быстрые дипфейки
DeepFaceLab — медленные дипфейки
SadTalker — оживляет лицо
SD-CN-Animation — video2video через Stable Diffusion
text2video — text2video через potat1
nerfstudio — 3d сцена из видео
Звук:
RVC — копирует тембр голоса
Ultimate Vocal Remover — отделяет голос от инструментала в песнях
MusicGen — text2music
whisperX — расшифровка речи
tortoise — text2speech
bark — text2speech