Basándose en un modelo anterior llamado UniGen, un equipo de investigadores de Apple presenta UniGen 1.5, un sistema que gestiona la comprensión, generación y edición de imágenes en un solo modelo
UniGen-1.5 es un modelo de lenguaje grande multimodal (MLLM) unificado para la comprensión, generación y edición avanzada de imágenes.
Basándose en UniGen, el equipo de desarrollo mejoró integralmente la arquitectura del modelo y el proceso de entrenamiento para fortalecer las capacidades de comprensión y generación de imágenes, a la vez que desarrollaron una sólida capacidad de edición de imágenes.
Así lo define el equipo:
Proponemos una estrategia unificada de aprendizaje por refuerzo (AR) que mejora tanto la generación como la edición de imágenes de forma conjunta mediante modelos de recompensa compartidos. Para optimizar aún más el rendimiento de la edición de imágenes, proponemos una etapa ligera de alineación de instrucciones de edición que mejora significativamente la comprensión de las instrucciones de edición, esencial para el éxito del entrenamiento de AR.
Los resultados experimentales muestran que UniGen-1.5 demuestra un rendimiento competitivo en comprensión y generación. En concreto, UniGen-1.5 alcanza puntuaciones generales de 0,89 y 4,31 en GenEval e ImgEdit, superando a modelos de vanguardia como BAGEL y alcanzando un rendimiento comparable al de modelos propietarios como GPT-Image-1.
Para los que quieran más información, podéis leer el paper en arxiv.