UniGen 1.5: el modelo de IA de Apple que puede ver, crear y editar imágenes

Alfonso Sanchez Gutierrez
By
Alfonso Sanchez Gutierrez
Dí mi primer muerdo a una manzana con 10 años CEO de mecambioaMac
2 min de lectura

Basándose en un modelo anterior llamado UniGen, un equipo de investigadores de Apple presenta UniGen 1.5, un sistema que gestiona la comprensión, generación y edición de imágenes en un solo modelo

UniGen-1.5 es un modelo de lenguaje grande multimodal (MLLM) unificado para la comprensión, generación y edición avanzada de imágenes.

Basándose en UniGen, el equipo de desarrollo mejoró integralmente la arquitectura del modelo y el proceso de entrenamiento para fortalecer las capacidades de comprensión y generación de imágenes, a la vez que desarrollaron una sólida capacidad de edición de imágenes.

Así lo define el equipo:

Proponemos una estrategia unificada de aprendizaje por refuerzo (AR) que mejora tanto la generación como la edición de imágenes de forma conjunta mediante modelos de recompensa compartidos. Para optimizar aún más el rendimiento de la edición de imágenes, proponemos una etapa ligera de alineación de instrucciones de edición que mejora significativamente la comprensión de las instrucciones de edición, esencial para el éxito del entrenamiento de AR.

Los resultados experimentales muestran que UniGen-1.5 demuestra un rendimiento competitivo en comprensión y generación. En concreto, UniGen-1.5 alcanza puntuaciones generales de 0,89 y 4,31 en GenEval e ImgEdit, superando a modelos de vanguardia como BAGEL y alcanzando un rendimiento comparable al de modelos propietarios como GPT-Image-1.

Para los que quieran más información, podéis leer el paper en arxiv.

Dí mi primer muerdo a una manzana con 10 años CEO de mecambioaMac
No hay comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *