Cuando se lanzaron DALL-E 2 y MidJourney, muchos ya nos quedamos con la boca abierta. Y, sin embargo, desde hace unos meses la generación de imágenes mediante IA ha alcanzado una calidad técnica asombrosa: manos coherentes, objetos bien proporcionados, inserción de tipografía precisas... Sin embargo, junto a todos estos logros (o, quizá, a causa de ellos) ha aparecido también un fenómeno incómodo y omnipresente: el "aspecto de IA".
Este estilo característico —piel cerosa, fondos borrosos con exceso de efecto bokeh, colores brillantes, pero poco naturales y composiciones planas— es lo bastante reconocible como para delatar que una imagen fue creada por una IA. El resultado es que, aunque las imágenes sean técnicamente correctas, carecen de la autenticidad y diversidad estética que buscamos en el arte o la fotografía real.
¿Qué provoca el "aspecto IA"?
No se trata de un simple capricho visual: es una consecuencia directa de cómo se entrenan y evalúan los modelos de imágenes. Básicamente, los sistemas están aprendiendo a generar imágenes correctas, no atractivas. Y eso deja una huella muy reconocible. Podemos resumir sus causas principales en cuatro puntos:
1. Excesiva obsesión con lo medible
Los investigadores se han centrado en resolver problemas que se pueden comprobar fácilmente:
- Que las manos tengan 5 dedos.
- Que el texto en la imagen sea legible.
- Que aparezca justo lo que se pidió en el prompt, en el lugar y cantidad correctos.
Para esto usan métricas muy técnicas como FID o CLIP Score, que valoran la precisión, pero no tienen en cuenta si la imagen se percibe como real o no. Así, aunque la foto sea "correcta", puede que tenga cierto brillo raro o una composición excesivamente rígida.

2. Filtros estéticos que imponen un mismo estilo
Para separar las buenas imágenes de las malas durante el entrenamiento, los modelos usan 'evaluadores' automáticos como LAION-Aesthetics o Pickscore. El problema es que estos evaluadores tienen sus propios gustos, y casi siempre prefieren:
- Retratos de mujeres jóvenes.
- Fondos bastante borrosos (el ya citado abuso del efecto 'bokeh').
- Pieles perfectamente suaves, carentes de imperfecciones.
- Escenas muy iluminadas y brillantes.
¿El resultado? Acaban entrenando a la IA para que repita siempre ese mismo tipo de imagen, aunque el usuario quiera algo diferente.
3. Mezclar estilos hasta hacer un puré
En la fase de ajuste fino, se usan opiniones humanas para guiar al modelo. Pero si esas opiniones vienen de gente con gustos muy diferentes (por ejemplo, amantes de la fotografía de moda y fans de los dibujos minimalistas), el modelo termina creando un estilo promedio (mediocre) que no emociona a nadie: es como pedirle a un grupo grande que diseñe una portada y que todos tengan que estar de acuerdo: el resultado suele ser correcto… pero soso.
4. Parchear el problema no siempre funciona
Algunos usuarios avanzados intentan huir del 'aspecto IA' con prompts larguísimos y muy detallados, o entrenando modelos pequeños para estilos concretos (LoRAs). Y esto funciona, sí… pero exige tiempo y conocimientos que la mayoría de gente no tiene. Así que la gran mayoría se queda con el estilo por defecto que trae el modelo, y ahí vuelve a aparecer el temido 'aspecto IA'.
El enfoque de FLUX.1-Krea: llegan los modelos "opinados"
Krea y Black Forest Labs (la compañía creadora de FLUX) decidieron enfrentarse al aspecto de marras con una idea sencilla y clara: no intentar gustar a todo el mundo. En vez de buscar un estilo genérico que sirva para cualquier cosa, crearon un modelo con un gusto estético muy definido, lo que ellos llaman un "modelo opinado".
Es como si en vez de pedirle a un chef que cocine "algo que guste a todos", le pides que cocine su plato estrella: puede que no sea para todos los paladares, pero a quien le guste, le encantará.
El plan de Krea tiene tres pasos clave:
1. Preentrenar para aprender de todo
Aquí aprende diferentes estilos (fotografía, pintura, ilustración…), diferentes tipos de elementos (objetos, paisajes, personas, animales), e incluso ejemplos de "malas imágenes" (borrosas, deformadas, etc.). ¿Por qué enseñarle esto último? Porque así, luego, cuando le digas "evita fondos borrosos" o "no hagas piel de plástico", sabrá exactamente de qué hablas.
2. Postentrenar para afinar el gusto
Aquí empieza el "entrenamiento con personalidad". Hay dos fases:
- Supervised Finetuning (SFT): Se le dan solo imágenes de altísima calidad que encajan con el estilo que busca Krea. Muchas son fotos reales, otras son imágenes generadas por versiones anteriores del modelo. Es como decirle: "Esto es lo que queremos, fíjate bien en cada detalle".
- RLHF (Reinforcement Learning from Human Feedback): Personas expertas revisan pares de imágenes y eligen cuál encaja mejor con la estética buscada. El modelo se va ajustando en función de esas elecciones, como si un profesor corrigiera su trabajo una y otra vez hasta que pille el estilo.

3. Apostar por un estilo claro y no mezclarlo con otros
Aquí está la clave: Krea no mezcla mil gustos diferentes en el mismo entrenamiento. Si lo hiciera, el resultado sería un estilo aguado, sin fuerza. En vez de eso, se centra en un tipo de estética muy definida, casi como si fuera la "firma" de un fotógrafo.
Esto tiene una ventaja enorme: incluso con prompts cortos o genéricos, el modelo ya produce imágenes con ese toque especial, sin necesidad de trucos, comandos complicados o retoques posteriores.
En resumen, el truco del modelo FLUX.1-Krea es entrenar con todo para aprender bien, pero afinar con un gusto concreto para evitar el "aspecto IA" y dar a las imágenes carácter propio. El resultado es un modelo que genera imágenes que se 'sienten' menos prediseñadas.
Comparando con GPT-4.1
En pruebas comparativas, GPT-4.1 y FLUX.1-Krea recibieron las mismas descripciones detalladas. Los resultados fueron reveladores:
- GPT-4.1 producía imágenes “correctas” pero con el brillo, suavidad y bokeh del "aspecto IA".
- FLUX.1-Krea, en cambio, generaba retratos más naturales, escenas urbanas más creíbles y composiciones con sensación de instantánea real.
Así, la tendencia que ejemplifica Krea apunta hacia una era de modelos de IA opinados: sistemas entrenados con una estética o identidad concreta, ya sea para un estudio de animación, una marca de moda o un fotógrafo.
Esto no solo aumentará la calidad visual, sino que devolverá a la IA generativa algo que había perdido: la diversidad creativa. Tal y como se prevé en el ámbito del texto y los chatbots, la especialización y la personalización serán claves para mejorar tareas cualitativas.
Vía | dbreunig.com
Imagen | Marcos Merino mediante IA
-
La noticia La IA ya crea imágenes perfectas. Ahora el reto es que sean realistas: así evita el nuevo modelo de Flux el 'look creado-con-IA' fue publicada originalmente en Genbeta por Marcos Merino .
☞ El artículo completo original de Marcos Merino lo puedes ver aquí
No hay comentarios.:
Publicar un comentario