RU‐Wiki

Как пользоваться:

Интерфейс имеет сорок один подраздел (некоторые с собственными подразделами) в семи основных разделах (Текст, Изображение, Видео, 3D, Аудио, Дополнительно и Интерфейс): LLM, TTS-STT, MMS, SeamlessM4Tv2, LibreTranslate, StableDiffusion, Kandinsky, Flux, HunyuanDiT, Lumina-T2X, Kolors, AuraFlow, Würstchen, DeepFloydIF, PixArt, CogView3-Plus, PlaygroundV2.5, Wav2Lip, LivePortrait, ModelScope, ZeroScope 2, CogVideoX, Latte, StableFast3D, Shap-E, Zero123Plus, StableAudio, AudioCraft, AudioLDM 2, SunoBark, RVC, UVR, Demucs, Upscale (Real-ESRGAN), FaceSwap, MetaData-Info, Wiki, Gallery, ModelDownloader, Settings и System. Выберите нужный и следуйте инструкциям ниже

Текст:

LLM:

Сначала загрузите ваши модели в папку: inputs/text/llm_models
Выберите вашу модель из выпадающего списка
Выберите тип модели
Настройте модель согласно нужным вам параметрам
Напечатайте (или произнесите) ваш запрос
Нажмите кнопку Submit, чтобы получить сгенерированный текстовый и аудио ответ

Дополнительно: вы можете включить режим `TTS`, выбрать нужный `голос` и `язык`, чтобы получить аудио ответ. Вы можете включить `multimodal` и загрузите изображение, видео и аудио файлы, чтобы получить их описание. Вы можете включить `websearch` для доступа в Интернет. Вы можете включить `libretranslate` для получения перевода. Вы можете включить `OpenParse` для работы с pdf файлами. Также вы можете выбрать модель `LORA` для улучшения генерации

Образцы голосов = inputs/audio/voices

LORA = inputs/text/llm_models/lora

Голос должен быть предварительно обработан (22050 кГц, моно, WAV)

Аватары LLM вы меняете в папке avatars

TTS-STT:

Введите текст для преобразования текста в речь
Введите аудио для преобразования речи в текст
Нажмите кнопку Submit, чтобы получить сгенерированный текстовый и аудио ответ

Образцы голосов = inputs/audio/voices

Голос должен быть предварительно обработан (22050 кГц, моно, WAV)

MMS (текст в речь и речь в текст):

Введите текст для преобразования текста в речь
Введите аудио для преобразования речи в текст
Нажмите кнопку Submit, чтобы получить сгенерированный текстовый или аудио ответ

SeamlessM4Tv2:

Напечатайте (или произнесите) ваш запрос
Выберите исходный, целевой языки и язык набора данных
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить перевод

LibreTranslate:

Сначала вам нужно установить и запустить LibreTranslate

Выберите исходный и целевой языки
Нажмите кнопку Submit, чтобы получить перевод

Дополнительно: вы можете сохранить историю переводов, включив соответствующую кнопку

Изображение:

StableDiffusion - имеет двадцать четыре подраздела:

txt2img:

Сначала загрузите ваши модели в папку: inputs/image/sd_models
Выберите вашу модель из выпадающего списка
Выберите тип модели (SD, SD2 или SDXL)
Настройте модель согласно нужным вам параметрам
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

Дополнительно: Вы можете выбрать ваши модели `vae`, `embedding` и `lora`, а также включить `MagicPrompt` для улучшения метода генерации

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

img2img:

Сначала загрузите ваши модели в папку: inputs/image/sd_models
Выберите вашу модель из выпадающего списка
Выберите тип модели (SD, SD2 или SDXL)
Настройте модель согласно нужным вам параметрам
Загрузите исходное изображение, с которым будет происходить генерация
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

Дополнительно: Вы можете выбрать ваши модели `vae`, `embedding` и `lora`, а также включить `MagicPrompt` для улучшения метода генерации

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

depth2img:

Загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

marigold:

Загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированные изображения глубины

pix2pix:

Загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

controlnet:

Сначала загрузите ваши модели stable diffusion в папку: inputs/image/sd_models
Загрузите исходное изображение
Выберите ваши модели stable diffusion и controlnet из выпадающих списков
Настройте модели согласно нужным вам параметрам
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

upscale (latent):

Загрузите исходное изображение
Выберите вашу модель
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить увеличенное изображение

refiner (SDXL):

Загрузите исходное изображение
Нажмите кнопку Submit, чтобы получить улучшенное изображение

inpaint:

Сначала загрузите ваши модели в папку: inputs/image/sd_models/inpaint
Выберите вашу модель из выпадающего списка
Выберите тип модели (SD, SD2 или SDXL)
Настройте модель согласно нужным вам параметрам
Загрузите изображение, с которым будет происходить генерация, в initial image и mask image
В mask image выберите кисть, затем палитру и измените цвет на #FFFFFF
Нарисуйте место для генерации и введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить изображение с внутренней заливкой

Дополнительно: Вы можете выбрать вашу модель `vae` для улучшения метода генерации

vae = inputs/image/sd_models/vae

outpaint:

Сначала загрузите ваши модели в папку: inputs/image/sd_models/inpaint
Выберите вашу модель из выпадающего списка
Выберите тип модели (SD, SD2 или SDXL)
Настройте модель согласно нужным вам параметрам
Загрузите изображение, с которым будет происходить генерация, в initial image
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить изображение с внешней заливкой

gligen:

Сначала загрузите ваши модели в папку: inputs/image/sd_models
Выберите вашу модель из выпадающего списка
Выберите тип модели (SD, SD2 или SDXL)
Настройте модель согласно нужным вам параметрам
Введите ваш запрос для промпта (+ и - для взвешивания промпта) и фразы GLIGEN (в "" для бокса)
Введите боксы GLIGEN (Например, [0.1387, 0.2051, 0.4277, 0.7090] для бокса)
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

diffedit:

Введите ваш Исходный Промпт и Исходный Негативный Промпт для маскирования изображения
Введите ваш Целевой Промпт и Целевой Негативный Промпт для дифф-редактирования изображения
Загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

blip-diffusion:

Введите ваш Промпт
Загрузите исходное изображение
Введите ваши Условия и Целевые Объекты
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

animatediff:

Сначала загрузите ваши модели в папку: inputs/image/sd_models
Выберите вашу модель из выпадающего списка
Настройте модель согласно нужным вам параметрам
Введите ваш запрос (+ и - для взвешивания промпта)
Нажмите кнопку Submit, чтобы получить сгенерированную анимацию изображения

Дополнительно: вы можете выбрать motion LORA для управления вашей генерацией

hotshot-xl

Введите ваш запрос
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное GIF-изображение

video:

Загрузите исходное изображение
Выберите вашу модель
Введите ваш запрос (для IV2Gen-XL)
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить видео из изображения

ldm3d:

Введите ваш запрос
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированные изображения

sd3 (txt2img, img2img, controlnet, inpaint):

Введите ваш запрос
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

Опционально: Вы можете выбрать свои модели `lora` для улучшения метода генерации. Вы также можете использовать квантизированные модели, нажав кнопку `Enable quantize`, если у вас низкое количество видеопамяти. Однако вам нужно самостоятельно скачать модель: CLIP-L, CLIP-G и T5XXL

lora = inputs/image/sd_models/lora

Квантованные модели = inputs/image/sd_models

cascade:

Введите ваш запрос
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное изображение

t2i-ip-adapter:

Загрузите исходное изображение
Выберите нужные вам опции
Нажмите кнопку Submit, чтобы получить модифицированное изображение

ip-adapter-faceid:

Загрузите исходное изображение
Выберите нужные вам опции
Нажмите кнопку Submit, чтобы получить модифицированное изображение

riffusion (текст-в-изображение, изображение-в-аудио, аудио-в-изображение):

текст-в-изображение:
- 1. Введите ваш запрос
  2. Настройте модель согласно нужным вам параметрам
  3. Нажмите кнопку Submit, чтобы получить сгенерированное изображение
изображение-в-аудио:
- 1. Загрузите исходное изображение
  2. Выберите нужные вам опции
  3. Нажмите кнопку Submit, чтобы получить аудио из изображения
аудио-в-изображение:
- 1. Загрузите исходное аудио
  2. Выберите нужные вам опции
  3. Нажмите кнопку Submit, чтобы получить изображение из аудио

Kandinsky (txt2img, img2img, inpaint):

Введите ваш промпт
Выберите модель из выпадающего списка
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Flux (txt2img, img2img, inpaint, controlnet):

Введите ваш промпт
Выберите вашу модель
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Дополнительно: Вы можете выбрать ваши модели `lora` для улучшения метода генерации. Вы также можете использовать квантованные модели, нажав на кнопку `Enable quantize`, если у вас мало видеопамяти, но вам нужно самостоятельно скачать модель: FLUX.1-dev или FLUX.1-schnell, а также VAE, CLIP и T5XXL

lora = inputs/image/flux-lora

Квантованные модели = inputs/image/quantize-flux

HunyuanDiT (txt2img, controlnet):

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Lumina-T2X:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Kolors (txt2img, img2img, ip-adapter-plus):

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Дополнительно: Вы можете выбрать ваши модели `lora` для улучшения метода генерации

lora = inputs/image/kolors-lora

AuraFlow:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Дополнительно: Вы можете выбрать ваши модели `lora` и включить `AuraSR` для улучшения метода генерации

lora = inputs/image/auraflow-lora

Würstchen:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

DeepFloydIF (txt2img, img2img, inpaint):

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

PixArt:

Введите ваш промпт
Выберите вашу модель
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

CogView3-Plus:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

PlaygroundV2.5:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное изображение

Видео:

Wav2Lip:

Загрузите исходное изображение лица
Загрузите исходное аудио голоса
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить синхронизацию губ

LivePortrait:

Загрузите исходное изображение лица
Загрузите исходное видео движения лица
Нажмите кнопку Submit, чтобы получить анимированное изображение лица

ModelScope:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное видео

ZeroScope 2:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное видео

CogVideoX (text2video, image2video, video2video):

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное видео

Latte:

Введите ваш промпт
Настройте модель согласно нужным вам параметрам
Нажмите Submit, чтобы получить сгенерированное видео

3D:

StableFast3D:

Загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированный 3D объект

Shap-E:

Введите ваш запрос или загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированный 3D объект

Zero123Plus:

Загрузите исходное изображение
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное 3D вращение изображения

Аудио:

StableAudio:

Настройте модель согласно нужным вам параметрам
Введите ваш запрос
Нажмите кнопку Submit, чтобы получить сгенерированное аудио

AudioCraft:

Выберите модель из выпадающего списка
Выберите тип модели (musicgen, audiogen или magnet)
Настройте модель согласно нужным вам параметрам
Введите ваш запрос
(Дополнительно) загрузите исходное аудио, если вы используете модель melody
Нажмите кнопку Submit, чтобы получить сгенерированное аудио

Дополнительно: Вы можете включить `multiband diffusion` для улучшения сгенерированного аудио

AudioLDM 2:

Выберите модель из выпадающего списка
Настройте модель согласно нужным вам параметрам
Введите ваш запрос
Нажмите кнопку Submit, чтобы получить сгенерированное аудио

SunoBark:

Введите ваш запрос
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированный аудио ответ

RVC:

Сначала загрузите ваши модели в папку: inputs/audio/rvc_models
Загрузите исходное аудио
Выберите вашу модель из выпадающего списка
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить сгенерированное клонирование голоса

UVR:

Загрузите исходное аудио для разделения
Нажмите кнопку Submit, чтобы получить разделенное аудио

Demucs:

Загрузите исходное аудио для разделения
Нажмите кнопку Submit, чтобы получить разделенное аудио

Дополнительно (Изображение, Видео, Аудио):

Загрузите исходный файл
Выберите нужные вам опции
Нажмите кнопку Submit, чтобы получить модифицированный файл

Увеличение масштаба (Real-ESRGAN):

Загрузите исходное изображение
Выберите вашу модель
Настройте модель согласно нужным вам параметрам
Нажмите кнопку Submit, чтобы получить увеличенное изображение

FaceSwap:

Загрузите исходное изображение лица
Загрузите целевое изображение или видео лица
Выберите нужные вам опции
Нажмите кнопку Submit, чтобы получить изображение с замененным лицом

Дополнительно: вы можете включить FaceRestore для увеличения масштаба и восстановления вашего изображения/видео лица

MetaData-Info:

Загрузите сгенерированный файл
Нажмите кнопку Submit, чтобы получить информацию о метаданных файла

Интерфейс:

Wiki:

Здесь вы можете просмотреть онлайн или офлайн вики проекта

Gallery:

Здесь вы можете просмотреть файлы из директории outputs

ModelDownloader:

Здесь вы можете скачать модели

Settings:

Здесь вы можете изменить настройки приложения

System:

Здесь вы можете увидеть показатели датчиков вашего компьютера

Дополнительная информация:

Все генерации сохраняются в папке outputs. Вы можете открыть папку outputs с помощью кнопки Outputs
Вы можете выключить приложение с помощью кнопки Close terminal и перезагрузить выпадающие списки моделей с помощью кнопки Reload interface

Где я могу получить модели и голоса?

Модели LLM можно взять с HuggingFace или из ModelDownloader внутри интерфейса
Модели StableDiffusion, vae, inpaint, embedding и lora можно взять с CivitAI или из ModelDownloader внутри интерфейса
Модели RVC можно взять с VoiceModels или из ModelDownloader внутри интерфейса
Модели StableAudio, AudioCraft, AudioLDM 2, TTS, Whisper, MMS, SeamlessM4Tv2, Wav2Lip, LivePortrait, SunoBark, MoonDream2, Upscalers (Latent и Real-ESRGAN), Refiner, GLIGEN, DiffEdit, BLIP-Diffusion, Depth, Marigold, Pix2Pix, Controlnet, AnimateDiff, HotShot-XL, Videos, LDM3D, SD3, Cascade, T2I-IP-ADAPTER, IP-Adapter-FaceID, Riffusion, Rembg, Roop, CodeFormer, DDColor, PixelOE, Real-ESRGAN, StableFast3D, Shap-E, Zero123Plus, UVR, Demucs, Kandinsky, Flux, HunyuanDiT, Lumina-T2X, Kolors, AuraFlow, AuraSR, Würstchen, DeepFloydIF, PixArt, CogView3-Plus, PlaygroundV2.5, ModelScope, ZeroScope 2, CogVideoX, MagicPrompt, Latte и Multiband diffusion загружаются автоматически в папку inputs при их использовании
Голоса вы можете взять где угодно. Запишите свой или возьмите запись из Интернета. Или просто используйте те, которые уже есть в проекте. Главное, чтобы они были предварительно обработаны!

Дорожная карта и багтрекер:

DiscussionLink

RU‐Wiki

Как пользоваться:

Текст:

LLM:

Образцы голосов = inputs/audio/voices

LORA = inputs/text/llm_models/lora

Голос должен быть предварительно обработан (22050 кГц, моно, WAV)

Аватары LLM вы меняете в папке avatars

TTS-STT:

Образцы голосов = inputs/audio/voices

Голос должен быть предварительно обработан (22050 кГц, моно, WAV)

MMS (текст в речь и речь в текст):

SeamlessM4Tv2:

LibreTranslate:

Дополнительно: вы можете сохранить историю переводов, включив соответствующую кнопку

Изображение:

StableDiffusion - имеет двадцать четыре подраздела:

txt2img:

Дополнительно: Вы можете выбрать ваши модели vae, embedding и lora, а также включить MagicPrompt для улучшения метода генерации

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

img2img:

Дополнительно: Вы можете выбрать ваши модели vae, embedding и lora, а также включить MagicPrompt для улучшения метода генерации

vae = inputs/image/sd_models/vae

lora = inputs/image/sd_models/lora

embedding = inputs/image/sd_models/embedding

depth2img:

marigold:

pix2pix:

controlnet:

upscale (latent):

refiner (SDXL):

inpaint:

Дополнительно: Вы можете выбрать вашу модель vae для улучшения метода генерации

vae = inputs/image/sd_models/vae

outpaint:

gligen:

diffedit:

blip-diffusion:

animatediff:

Дополнительно: вы можете выбрать motion LORA для управления вашей генерацией

hotshot-xl

video:

ldm3d:

sd3 (txt2img, img2img, controlnet, inpaint):

lora = inputs/image/sd_models/lora

Квантованные модели = inputs/image/sd_models

cascade:

t2i-ip-adapter:

ip-adapter-faceid:

riffusion (текст-в-изображение, изображение-в-аудио, аудио-в-изображение):

Kandinsky (txt2img, img2img, inpaint):

Flux (txt2img, img2img, inpaint, controlnet):

lora = inputs/image/flux-lora

Квантованные модели = inputs/image/quantize-flux

HunyuanDiT (txt2img, controlnet):

Lumina-T2X:

Kolors (txt2img, img2img, ip-adapter-plus):

Дополнительно: Вы можете выбрать ваши модели lora для улучшения метода генерации

lora = inputs/image/kolors-lora

AuraFlow:

Дополнительно: Вы можете выбрать ваши модели lora и включить AuraSR для улучшения метода генерации

lora = inputs/image/auraflow-lora

Würstchen:

DeepFloydIF (txt2img, img2img, inpaint):

PixArt:

CogView3-Plus:

PlaygroundV2.5:

Видео:

Wav2Lip:

LivePortrait:

ModelScope:

ZeroScope 2:

CogVideoX (text2video, image2video, video2video):

Latte:

3D:

StableFast3D:

Shap-E:

Zero123Plus:

Дополнительно: Вы можете выбрать ваши модели `vae`, `embedding` и `lora`, а также включить `MagicPrompt` для улучшения метода генерации

Дополнительно: Вы можете выбрать ваши модели `vae`, `embedding` и `lora`, а также включить `MagicPrompt` для улучшения метода генерации

Дополнительно: Вы можете выбрать вашу модель `vae` для улучшения метода генерации

Дополнительно: Вы можете выбрать ваши модели `lora` для улучшения метода генерации

Дополнительно: Вы можете выбрать ваши модели `lora` и включить `AuraSR` для улучшения метода генерации

Дополнительно: Вы можете включить `multiband diffusion` для улучшения сгенерированного аудио