El nuevo modelo Z-Image funciona con 6GB de VRAM—el hardware Flux2 ni siquiera se le puede acercar.
Z-Image ya cuenta con más de 200 recursos comunitarios y más de mil reseñas positivas frente a las 157 reseñas de Flux2.
Se clasifica como el mejor modelo de código abierto hasta la fecha.
El centro de arte, moda y entretenimiento de Decrypt.
Descubre SCENE
El Z-Image Turbo de Tongyi Lab de Alibaba, un modelo de generación de imágenes de 6 mil millones de parámetros, se lanzó la semana pasada con una promesa simple: calidad de última generación en el hardware que realmente posees.
Esa promesa está aterrizando con fuerza. A los pocos días de su lanzamiento, los desarrolladores ya estaban produciendo LoRAs—adaptaciones personalizadas ajustadas—a un ritmo que ya está superando a Flux2, el muy promocionado sucesor de Black Forest Labs del modelo Flux, que fue un gran éxito.
El truco de fiesta de Z-Image es la eficiencia. Mientras que competidores como Flux2 exigen un mínimo de 24GB de VRAM ( y hasta 90GB para el modelo completo ), Z-Image funciona en configuraciones cuantizadas con tan solo 6GB.
Eso es territorio de RTX 2060—básicamente hardware de 2019. Dependiendo de la resolución, los usuarios pueden generar imágenes en tan solo 30 segundos.
Para los aficionados y creadores independientes, esta es una puerta que antes estaba cerrada.
La comunidad de arte AI fue rápida en alabar el modelo.
“Esto es lo que se suponía que debía ser SD3,” escribió el usuario Saruhey en CivitAI, el repositorio más grande del mundo de herramientas de arte AI de código abierto. “La adherencia al prompt es bastante exquisita… un modelo que puede hacer texto de inmediato es un cambio de juego. Este tiene el mismo, si no mejor, poder que Flux, que es magia negra por sí sola. Los chinos están muy por delante en el juego de la IA.”
Z-Image Turbo ha estado disponible en Civitais desde el jueves pasado y ya ha recibido más de 1,200 reseñas positivas. Para contexto, Flux2—lanzado unos días antes que Z-Image—tiene 157.
El modelo está completamente sin censura desde cero. Celebridades, personajes ficticios y sí, contenido explícito están todos sobre la mesa.
A partir de hoy, hay alrededor de 200 recursos (finetunes, LoRAs, workflows) para el modelo solo en Civitai, muchos de los cuales son NSFW.
En Reddit, el usuario Regular-Forever5876 puso a prueba los límites del modelo con prompts de gore y quedó atónito: “¡Santo cielo! ¡Esta cosa entiende el gore como nadie! Lo genera a la perfección,” escribieron.
El secreto técnico detrás de Z-Image Turbo es su arquitectura S3-DiT: un transformador de flujo único que procesa datos de texto e imagen juntos desde el principio, en lugar de fusionarlos más tarde. Esta integración estrecha, combinada con técnicas de destilación agresivas, permite que el modelo cumpla con los estándares de calidad que normalmente requieren modelos cinco veces su tamaño.
Probando el modelo
Hicimos pruebas exhaustivas a Z-Image Turbo en múltiples dimensiones. Esto es lo que encontramos.
Velocidad: SDXL Ritmo, Calidad de Próxima Generación
En nueve pasos, Z-Image Turbo genera imágenes a aproximadamente la misma velocidad que SDXL, con los habituales 30 pasos—un modelo que se lanzó en 2023.
La diferencia es que la calidad de salida de Z-Image iguala o supera a la de Flux. En un portátil con una GPU RTX 2060 con 6GB de VRAM, una imagen tardó 34 segundos.
Flux2, en comparación, tarda aproximadamente diez veces más en generar una imagen comparable.
Realismo: El nuevo estándar
Z-Image Turbo es el modelo de código abierto más fotorrealista disponible en este momento para hardware de consumo. Supera a Flux2 de manera contundente, y el modelo base destilado supera a las afinaciones de realismo dedicadas de Flux.
La textura de la piel y el cabello se ve detallada y natural. La infame “barbilla Flux” y la “piel plástica” casi han desaparecido. Las proporciones del cuerpo son consistentemente sólidas, y los LoRAs que mejoran aún más el realismo ya están circulando.
Generación de texto: Finalmente, palabras que funcionan
Aquí es donde Z-Image realmente brilla. Es el mejor modelo de código abierto para la generación de texto en imágenes, funcionando a la par con Nanobanana y Seedream de Google, modelos que establecen el estándar actual.
Para los hablantes de mandarín, Z-Image es la opción obvia. Entiende el chino de forma nativa y representa los caracteres correctamente.
Consejo profesional: Algunos usuarios han informado que hacer preguntas en mandarín realmente ayuda al modelo a producir mejores resultados, y los desarrolladores incluso publicaron un “mejorador de prompts” en mandarín.
El texto en inglés es igualmente sólido, con una excepción: palabras largas poco comunes como “descentralizado” pueden complicarlo—una limitación que también comparte Nanobanana.
Conciencia espacial y adherencia a los plazos: Excepcional
La adherencia a las indicaciones de Z-Image es excepcional. Comprende el estilo, las relaciones espaciales, las posiciones y las proporciones con una precisión notable.
Por ejemplo, toma este aviso:
Un perro con un sombrero rojo de pie sobre un televisor que muestra las palabras “Decrypt 是世界上最好的加密货币与人工智能媒体网站” en la pantalla. A la izquierda, hay una mujer rubia en un traje de negocios sosteniendo una moneda; a la derecha, hay un robot de pie sobre una caja de primeros auxilios, y una pirámide verde se encuentra detrás de la caja. El paisaje general es surrealista. Un gato está de pie boca abajo sobre un balón de fútbol blanco, al lado del perro. Un astronauta de la NASA sostiene un letrero que dice “Emerge” y está colocado junto al robot.
Como es notable, solo tenía un error tipográfico, probablemente debido a la mezcla de idiomas, pero aparte de eso, todos los elementos están representados con precisión.
El sangrado de indicaciones es mínimo, y las escenas complejas con múltiples sujetos se mantienen coherentes. Supera a Flux en este aspecto y se mantiene a la par con Nanobanana.
¿Qué sigue?
Alibaba planea lanzar dos variantes más: Z-Image-Base para ajuste fino, y Z-Image-Edit para modificaciones basadas en instrucciones. Si llegan con el mismo pulido que Turbo, el panorama de código abierto está a punto de cambiar drásticamente.
Por ahora, el veredicto de la comunidad es claro: Z-Image ha tomado la corona de Flux, al igual que Flux una vez destronó a Stable Diffusion.
El verdadero ganador será quien atraiga a más desarrolladores para construir sobre ello.
Pero si nos preguntas, sí, Z-Image es nuestro modelo de código abierto orientado al hogar favorito en este momento.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
La Z-Image de China destrona a Flux como el rey del arte de IA—y tu PC de patata puede ejecutarlo
En resumen
El centro de arte, moda y entretenimiento de Decrypt.
Descubre SCENE
El Z-Image Turbo de Tongyi Lab de Alibaba, un modelo de generación de imágenes de 6 mil millones de parámetros, se lanzó la semana pasada con una promesa simple: calidad de última generación en el hardware que realmente posees.
Esa promesa está aterrizando con fuerza. A los pocos días de su lanzamiento, los desarrolladores ya estaban produciendo LoRAs—adaptaciones personalizadas ajustadas—a un ritmo que ya está superando a Flux2, el muy promocionado sucesor de Black Forest Labs del modelo Flux, que fue un gran éxito.
El truco de fiesta de Z-Image es la eficiencia. Mientras que competidores como Flux2 exigen un mínimo de 24GB de VRAM ( y hasta 90GB para el modelo completo ), Z-Image funciona en configuraciones cuantizadas con tan solo 6GB.
Eso es territorio de RTX 2060—básicamente hardware de 2019. Dependiendo de la resolución, los usuarios pueden generar imágenes en tan solo 30 segundos.
Para los aficionados y creadores independientes, esta es una puerta que antes estaba cerrada.
La comunidad de arte AI fue rápida en alabar el modelo.
“Esto es lo que se suponía que debía ser SD3,” escribió el usuario Saruhey en CivitAI, el repositorio más grande del mundo de herramientas de arte AI de código abierto. “La adherencia al prompt es bastante exquisita… un modelo que puede hacer texto de inmediato es un cambio de juego. Este tiene el mismo, si no mejor, poder que Flux, que es magia negra por sí sola. Los chinos están muy por delante en el juego de la IA.”
Z-Image Turbo ha estado disponible en Civitais desde el jueves pasado y ya ha recibido más de 1,200 reseñas positivas. Para contexto, Flux2—lanzado unos días antes que Z-Image—tiene 157.
El modelo está completamente sin censura desde cero. Celebridades, personajes ficticios y sí, contenido explícito están todos sobre la mesa.
A partir de hoy, hay alrededor de 200 recursos (finetunes, LoRAs, workflows) para el modelo solo en Civitai, muchos de los cuales son NSFW.
En Reddit, el usuario Regular-Forever5876 puso a prueba los límites del modelo con prompts de gore y quedó atónito: “¡Santo cielo! ¡Esta cosa entiende el gore como nadie! Lo genera a la perfección,” escribieron.
El secreto técnico detrás de Z-Image Turbo es su arquitectura S3-DiT: un transformador de flujo único que procesa datos de texto e imagen juntos desde el principio, en lugar de fusionarlos más tarde. Esta integración estrecha, combinada con técnicas de destilación agresivas, permite que el modelo cumpla con los estándares de calidad que normalmente requieren modelos cinco veces su tamaño.
Probando el modelo
Hicimos pruebas exhaustivas a Z-Image Turbo en múltiples dimensiones. Esto es lo que encontramos.
Velocidad: SDXL Ritmo, Calidad de Próxima Generación
En nueve pasos, Z-Image Turbo genera imágenes a aproximadamente la misma velocidad que SDXL, con los habituales 30 pasos—un modelo que se lanzó en 2023.
La diferencia es que la calidad de salida de Z-Image iguala o supera a la de Flux. En un portátil con una GPU RTX 2060 con 6GB de VRAM, una imagen tardó 34 segundos.
Flux2, en comparación, tarda aproximadamente diez veces más en generar una imagen comparable.
Realismo: El nuevo estándar
Z-Image Turbo es el modelo de código abierto más fotorrealista disponible en este momento para hardware de consumo. Supera a Flux2 de manera contundente, y el modelo base destilado supera a las afinaciones de realismo dedicadas de Flux.
La textura de la piel y el cabello se ve detallada y natural. La infame “barbilla Flux” y la “piel plástica” casi han desaparecido. Las proporciones del cuerpo son consistentemente sólidas, y los LoRAs que mejoran aún más el realismo ya están circulando.
Generación de texto: Finalmente, palabras que funcionan
Aquí es donde Z-Image realmente brilla. Es el mejor modelo de código abierto para la generación de texto en imágenes, funcionando a la par con Nanobanana y Seedream de Google, modelos que establecen el estándar actual.
Para los hablantes de mandarín, Z-Image es la opción obvia. Entiende el chino de forma nativa y representa los caracteres correctamente.
Consejo profesional: Algunos usuarios han informado que hacer preguntas en mandarín realmente ayuda al modelo a producir mejores resultados, y los desarrolladores incluso publicaron un “mejorador de prompts” en mandarín.
El texto en inglés es igualmente sólido, con una excepción: palabras largas poco comunes como “descentralizado” pueden complicarlo—una limitación que también comparte Nanobanana.
Conciencia espacial y adherencia a los plazos: Excepcional
La adherencia a las indicaciones de Z-Image es excepcional. Comprende el estilo, las relaciones espaciales, las posiciones y las proporciones con una precisión notable.
Por ejemplo, toma este aviso:
Un perro con un sombrero rojo de pie sobre un televisor que muestra las palabras “Decrypt 是世界上最好的加密货币与人工智能媒体网站” en la pantalla. A la izquierda, hay una mujer rubia en un traje de negocios sosteniendo una moneda; a la derecha, hay un robot de pie sobre una caja de primeros auxilios, y una pirámide verde se encuentra detrás de la caja. El paisaje general es surrealista. Un gato está de pie boca abajo sobre un balón de fútbol blanco, al lado del perro. Un astronauta de la NASA sostiene un letrero que dice “Emerge” y está colocado junto al robot.
Como es notable, solo tenía un error tipográfico, probablemente debido a la mezcla de idiomas, pero aparte de eso, todos los elementos están representados con precisión.
El sangrado de indicaciones es mínimo, y las escenas complejas con múltiples sujetos se mantienen coherentes. Supera a Flux en este aspecto y se mantiene a la par con Nanobanana.
¿Qué sigue?
Alibaba planea lanzar dos variantes más: Z-Image-Base para ajuste fino, y Z-Image-Edit para modificaciones basadas en instrucciones. Si llegan con el mismo pulido que Turbo, el panorama de código abierto está a punto de cambiar drásticamente.
Por ahora, el veredicto de la comunidad es claro: Z-Image ha tomado la corona de Flux, al igual que Flux una vez destronó a Stable Diffusion.
El verdadero ganador será quien atraiga a más desarrolladores para construir sobre ello.
Pero si nos preguntas, sí, Z-Image es nuestro modelo de código abierto orientado al hogar favorito en este momento.