**Si os animáis a probar y tenéis problemas, postead y os ayudo yo u otros shures que puedan. No tengáis miedo a probar! El proceso de instalación (el largo al menos) es un proceso que se hace todos los días con miles de repositorios para poder usar una aplicación o software que otra persona está creando o creó. Es un procedimiento "normal", y una vez que lo haces ya es lo mismo siempre.**
Obviamente este tipo de herramientas no se deben de usar para hacer nada que sea ilegal. Este tutorial es simplemente para demostrar la potencia que tienen estas herramientas al crear imágenes de cualquier tipo, poder cambiar objetos como una chaqueta que no te gustaba, crear un Clio en llamas, etc.
EL OP SE IRÁ ACTUALIZANDO CON MEJORES EXPLICACIONES Y EJEMPLOSVer el archivo adjunto 68861
INTRODUCCIÓN
Lo primero decir que crear imágenes con inteligencia artificial es fácil, pero puede ser muy complicado también. Depende de lo que quieras, del nivel de detalle, de la consistencia entre imágenes, etc... Pero empezar a hacer cosas guapas se puede hacer fácilmente.
Hay varias formas de hacer esto
GRATIS, desde tu PC de forma local, y
SIN LÍMITES. Esto es algo que usa muchísima gente, es legal, y es ilimitado.
Yo he probado otras pero comfyUI es mi paquete favorito. Igual es que al ser picateclas pues me gusta tener muchas opciones para trastear. Pero vamos, con lo básico se pueden hacer cosas guapas. También se puede usar automatic1111, pero a mi me gustan más los resultados con comfyUI y la posibilidad de hacer muchas más cosas que no puedo hacer en automatic1111, o al menos no de la forma que quiero. Si a alguien le parece muy complicado esto, puede mirar en Google automatic1111 que seguramente habrá tutoriales en español.
Igual hay cosas que he puesto mal, me he equivocado, o quizá se me ha pasado poner algo. Intentaré ir actualizando el OP.
Obviamente hay otros programas parecidos que hacen lo mismo o de forma parecida, pero a mi me parece que la versatilidad, optimización, y UI de comfyUI está muy bien.
Palabros que iremos viendo:
- Checkpoint (o models) son los archivos más tochos. Es el modelo que ha sido entrenado y sabe lo que es una mesa, lo que es una persona, etc...dependiendo de las fotos en las que haya sido entrenada. Unos son muy buenos con edificios, otros con personas, otros con tías desnudas, otros con anime, etc....
- LoRA es como una extensión, de mucho menos tamaño, que añade cosas extra al modelo: mesas más detalladas, caras de personas con más variedad, mejores manos, etc... Es como un pequeño paquete que añade extra al checkpoint. Esto hace que no haya que entrenar otra vez todo el checkpoint o que se puedan ir añadiendo cosas más adelante dependiendo de las imágenes que queremos generar.
- VAE hace algo así como "guiar" al modelo para que las diferentes imágenes y partes que va generando (al intentar crear una imagen) tienen sentido y siguen un patrón. El concepto de VAE es bastante complejo y su función es algo así como codificar y decodificar la información que va a generarse. Es lo que hace que con un modelo se puedan generar imágenes totalmente nuevas y diferentes. Pero vamos, que puedo estar totalmente equivocado. Como dije antes, es un término bastante complejo de explicar y de entender así con lenguaje simple y en pocas palabras jaja
Y de dónde me bajo yo eso o miro si quiero bajarme alguno más? Webs de confianza donde bajarse modelos, LoRAs, VAEs, etc... son
https://huggingface.co y
https://civitai.com.
QUÉ NECESITAMOS?
- Un backend y UI (comfyUI)
- Modelos/checkpoints: son "weights" de Stable Diffusion previamente entrenados para generar un estilo particular de imágenes
- VAE: ayuda a mejorar la calidad del resultado final (aunque no es necesario. Habrá ejemplos sin VAE, pero está bien tenerlo en cuenta)
- Comfyui manager (opcional)
- Loras (opcional)
INSTALACIÓN
Dos formas de instalarlo:
- Corta: Solo para CPU o tarjetas Nvidia (windows)
- Larga: Para CPU, Nvidia (windows, linux, Mac) y AMD (windows)
Yo elijo la larga porque me gusta saber lo que instalo, porque ya tengo instalado python y se como instalar paquetes y tal. Y bueno, tampoco es tan difícil.
Toda la información está en inglés en la página GIT de comfyUI ->
https://github.com/comfyanonymous/ComfyUI
Toda la instalación ocupa:
- 15GB con los dos modelos/checkpoints + VAE
- Menos de 10GB con solamente el modelo/checkpoint "sexy" (epiCPhotoGasm) + VAE
Instalación corta [CPU o tarjetas Nvidia (windows)]
Instalación larga [AMD(windows, linux), NVIDA(windows, linux, Mac)] (Mi opción preferida, pero algo más complicada)
- Descargamos e installamos Python (3.10 es el aconsejable)
https://www.python.org/downloads/release/python-3100/
Importante añadir python al path del sistema cuando se está instalando, si no hay que hacerlo después manualmente
- Descargamos e instalamos GIT (GIT se usa para descargar repositorios, algo que se hace día a día cuando programas y quieres guardar tu progreso en la nube o compartir tu trabajo, etc...)
https://git-scm.com/downloads
- Clonar el repositorio de comfyUI de Github
- Creamos una carpeta donde vamos a "installar" comfyUI
- Abrimos GitBash dandole a click derecho en el ratón y GitBash desde la carpeta que queremos instalar
- Pegar esto en la línea de comando y dar enter:
git clone https://github.com/comfyanonymous/ComfyUI.git
- Instalar pytorch (el comando se pone en la misma ventana de GitBash donde pusimos el comando anterior):
- Para AMD (linux):
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm6.0
- Para AMD (windows):
pip install torch-directml
- Para Nvidia (windows, linux, mac):
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu121
- Instalar dependencias para que funcione comfyUI. Esto es un proceso totalmente normal. Cuando se crea un programa en python, hay muchas funcionalidades que vienen de paquetes externos (el comando se pone en la misma ventana de GitBash donde pusimos el comando anterior):
pip install -r requirements.txt
- Descargamos estos dos modelos/checkpoints: epiCPhotoGasm y Stable Diffusion v1-5 Model Card
https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned.safetensors?download=true
https://civitai.com/api/download/models/223670?type=Model&format=SafeTensor&size=pruned&fp=fp16
y los ponemos dentro de la carpeta ComfyUI\models\checkpoints
- Empezar el programa poniendo este comando (--preview-method auto hace que mientras la foto se va generando podamos ver una preview) :
python main.py --preview-method auto
Si has instalado el programa en Windows con una tarjeta AMD, tendrás que usar:
python main.py --directml --preview-method auto
- Pegar esta dirección en vuestro navegador (esa dirección quiere decir que estáis lanzando el programa de forma local. Esa dirección es el localhost de vuestro PC):
http://127.0.0.1:8188
Y esto es lo que aparece cuando lanzas el programa:
Felicidades! Ahora a empezar a crear
INSTALACIÓN OPCIONAL (pero recomendada)
Recomiendo muchísimo instalar comfyui manager. Simplemente añade un menu extra con muchas opciones que facilitan cosas como instalar nuevos modulos para poder hacer muchas más cosas. Por ejemplo, si abrimos una foto de otra persona y nos sale su workflow, seguramente habrán nodos que no tenemos instalados pero tenemos que instalar. Pues con comfyui manager simplemente tenemos que darle a "Install missing nodes" y ya está.También podemos instalar nodos que queramos buscando en "Install Custom Nodes".
Si eso no es suficiente, también se puede usar para actualizar comfyui cuando tenga una actualización nueva, para asegurarse de que todos los nodos están actualizados a la última versión y muchas más cosas.
Link para ver el repositorio de GIT ->
https://github.com/ltdrdata/ComfyUI-Manager
Para instalarlo:
Ahora tenéis un menú extra (manager) con el que podéis instalar nodos nuevos, más opciones, etc... Con esto es MUCHÍSIMO más fácil instalar cosas nuevas
TRUCOS Y CONSEJOS
El primer consejo es que no os desaniméis. Aunque es fácil crear imágenes con IA, puede parecer muy complicado. Pero no lo es. Aunque sí que puede complicarse muchísimo dependiendo de las cosas que queramos hacer, del nivel de control sobre la creación de las imágenes, etc.
Pero ehtio,
no tengo ni puta idea de que poner en el prompt. Hay una página (o varias) donde pones una imagen y te dice el
prompt, así puedes crear imágenes similares
https://imagetoprompt.com
Luego otro consejo...las imágenes que se generan tienen información sobre como se han generado, incluyendo el prompt, valores, etc...Así que muchas veces podéis simplemente arrastrar la imagen en el workflow (ventana de comfyui) y se carga todo exactamente como estaba cuando se generó la imagen. Muchas de las imágenes que yo he puesto aquí se pueden descargar y arrastrar en vuestro comfyui y os saldrá exactemente todo lo que usé cuando hice la imagen, así que podéis recrearla o generar nuevas. Por desgracia imgur quita los meta datos, así que solo alguna de las imágenes (que subí a otro lado) mantiene los meta datos. Intentaré subir las nuevas imágees a otro servidor para que se mantengan los meta datos y podáis usarlas como ejemplo si quereis.
Pero vamos, para empezar a crear imágenes no necesitáis más que instalar comfyui y descargar unos modelos/checkpoints.
En cuanto a los valores que hay que pner para poder a empezar a generar imágenes, os doy unos consejos.
- Steps: ponedlo entre 20 o 25. Podéis poner más, está claro, pero normalmente entre 20 y 25 es un buen balance.
- CFG: ponedlo entre 2 y 2.5. Si lo ponéis más, el prompt tendrá más peso y seguramente saldrán imágenes más parecidas a lo que queréis, pero la calidad suele ser peor (cosas que no tienen sentido, o que no están bien integradas entre ellas)
- sample_name:dpmpp_sde.
- schedule: aunque muchas veces lo he dejado en normal, Karras es el que mejor funciona en mi opinion.
Interesante lectura sobre los diferentes samplers (inglés):
https://stable-diffusion-art.com/samplers
EMPEZAR A CREAR
TEXTO A IMAGEN
En este ejemplo voy a usar el workflow que sale por defecto (o si le dais a "Load default").Todas las imágenes creadas que postearé en esta sección se podrán arrastrar a vuestra ventana de comfyui y os saldrá exactamente todo como yo lo usé. Podréis recrear exactamente la misma imagen.
- Elegimos un checkpoint, en este caso: epicphotogasm_lastUnicorn.safetensors
- Escribimos el prompt positivo (lo que queremos que tenga en cuenta). En este caso: A beautiful woman eating a way too big sandwich in a church, blond hair, massive sandwich, sandwich big.
- Añadimos el prompt negativo (lo que no queremos que tenga en cuenta).En este caso: text, watermark, ugly
- Elegimos:
- Steps: 20
- CFG : 2
- sample_name: dpmpp_sde
- scheduler: karras
- Le dais a "Queue Prompt" y a esperar
- Resultado:
- Podéis descargaros esta imagen y arrastrarla a vuestra ventana de comfyui para ver todas las opciones con más detalle.
Imagen del workflow:
Pero ehtio, porque el tamaño tan pequeño? Dos razones. Porque si haces imágenes 2048x2048 va a tardar bastante bastante mas, pero eres libre de hacerlo.
Pero ehtio, si ahora uso la misma seed (semilla), pero cambio el tamaño a 2048x2048, me saldrá la misma imagen pero más grande, no? No, no es así como funciona. Al ser ser una superficie más grande, al generar la imagen saldrá una imagen diferente.
Pero entonces...que hacemos si nos gusta la imagen pero la queremos más grande? Entonces usamos un upscaler.
El upscaler que uso yo se llama 4xUltrasharp_4xUltrasharpV10 y se puede descargar aquí
https://civitai.com/api/download/models/125843
Luego lo ponéis en la carpeta ComfyUI\models\upscale_models y ya lo podéis usar (tenéis que refrescar la página para que os salga).
El nodo que necesitamos para hace rel upscale se llama Ultimate SD Upscale. Si habéis instalado comfyui manager es muy fácil de descargar
Este es el resultado (Podéis descargaros esta imagen y arrastrarla a vuestra ventana de comfyui para ver todas las opciones con más detalle):
La imágen es bastante tocha, así que tengo que poner el link en vez de insertarla
https://iili.io/JwljQMF.png
Imagen del workflow:
Si usáis el segundo workflow (con upscale) podéis seleccionar el nodos que hace upscale (Ultimate SD Upscale) y darle ctrl+M. Eso lo desactiva así que no va a estar haciendo upscale mientras generáis imágenes. Si os gusta una de las imágenes, simplemente seleccionar el nodo otra vez, dadle a ctrl+M, y cuando le déis a "Queue Prompt" otra vez hará el upscale de la foto que acabáis de generar.
Esto es lo básico. Luego hay muchas cosas más con las que experimentar, diferentes modelos/checkpoints, opciones, etc...
CAMBIAR ALGO DE LA IMAGEN
Usando el ejemplo anterior, vamos a cambiarle la cara a esta mujer usando inpainting.Para esto necesitamos añadir dos nodos más (ya vienen con comfyui): Load Image y VAE Encoding (for inpainting).
- Cargamos la imagen (512x512)
- Botón derecho en la imagen, y "Open in MaskEditor"
- Aplicamos máscara a la zona que queremos cambiar (cuanto más grande sea la imagen inicial y más zona sea la máscara, más va a tardar en generar la imagen final)
- Cambiamos el prompt positivo. En mi caso a: holding a comic, holding a book, book about cars, reading
- Resultado:
Otro ejemplo:
- Imagen original creada:
- Pero ahora queremos que enseñe las tetas, o hacérselas mas grandes (ejem, ejem):
Con la misma técnica, se pueden añadir muebles a una habitación vacía, por ejemplo:
- He creado una habitación vacía, pero podéis usar una imagen real:
- Ponéis la máscara donde queráis que aparezca el objecto:
- Y empezais a generar hasta que encontráis una que os guste:
- Etc, etc...
EJEMPLOS DE LO QUE SE PUEDE HACER: