ReALM: el modelo de IA que trabaja Apple y supera a GPT-4

Inteligencia artificial

Los investigadores de Apple publicaron el viernes un artículo sobre su modelo de lenguaje grande ReALM y afirmaron que puede «superar sustancialmente» al GPT-4 de OpenAI en puntos de referencia particulares. Supuestamente, ReALM puede comprender y manejar diferentes contextos. En teoría, esto permitirá a los usuarios señalar algo en la pantalla o ejecutándose en segundo plano y consultar el modelo de lenguaje al respecto.

ReALM: Reference Resolution As Language Modeling

Sabemos que Apple está trabajando en una serie de anuncios de IA para la WWDC 2024 en junio, pero aún no sabemos exactamente qué implicarán. Mejorar Siri es una de las principales prioridades de Apple, ya que los usuarios de iPhone se quejan regularmente del asistente. Los investigadores de IA de Apple publicaron esta semana un artículo de investigación que puede arrojar nueva luz sobre los planes de IA de Apple para Siri, tal vez incluso a tiempo para la WWDC.

La resolución de referencias es un problema lingüístico de comprender a qué se refiere una expresión en particular. Por ejemplo, cuando hablamos, utilizamos referencias como «ellos» o «eso». Ahora bien, a qué se refieren estas palabras puede ser obvio para los humanos que pueden entenderlo según el contexto. Pero un chatbot como ChatGPT a veces puede tener dificultades para entender exactamente a qué se refiere.

Este último artículo de Apple es el tercero sobre IA que publica en los últimos meses. Si bien todavía es pronto para predecir algo, estos artículos podrían considerarse como un adelanto de las características que la compañía planea incluir en sus ofertas de software como iOS y macOS.

En el artículo, los investigadores escribieron que quieren utilizar ReALM para comprender e identificar tres tipos de entidades: entidades en pantalla, entidades conversacionales y entidades en segundo plano. Las entidades en pantalla son cosas que se muestran en la pantalla del usuario. Las entidades conversacionales son aquellas que son relevantes para la conversación. Por ejemplo, si dices «¿qué entrenamientos se supone que debo hacer hoy?» para un chatbot, debería poder determinar, a partir de conversaciones anteriores, que tienes un horario de entrenamiento de 3 días y cuál es el horario del día.

Demostramos grandes mejoras con respecto a un sistema existente con funcionalidad similar en diferentes tipos de referencias, y nuestro modelo más pequeño obtuvo ganancias absolutas de más del 5 por ciento para las referencias en pantalla. También comparamos GPT-3.5 y GPT-4: nuestro modelo más pequeño logra un rendimiento comparable al de GPT-4, y nuestros modelos más grandes lo superan sustancialmente”, escribieron los investigadores en el artículo.

El documento enumera cuatro tamaños del modelo ReALM: ReALM-80M, ReALM-250M, ReALM-1B y ReALM-3B. La «M» y la «B» indican el número de parámetros en millones y miles de millones, respectivamente. GPT-3.5 tiene 175 mil millones de parámetros, mientras que GPT-4 cuenta con alrededor de 1,5 billones de parámetros.

Tenga en cuenta que nuestra formulación de mensaje ChatGPT y mensaje+imagen son, hasta donde sabemos, novedosas en sí mismas. Si bien creemos que podría ser posible mejorar aún más resultados, por ejemplo, al muestrear expresiones semánticamente similares hasta alcanzar la longitud del mensaje, este enfoque más complejo merece una exploración más profunda y dedicada, y lo dejamos para trabajos futuros”, agregaron los investigadores en el artículo.

Entonces, si bien ReALM funciona mejor que GPT-4 en este punto de referencia en particular, estaría lejos de ser exacto decir que el primero es un mejor modelo que el segundo. Es solo que ReALM superó a GPT en un punto de referencia para el que fue diseñado específicamente para ser bueno. Tampoco está claro de inmediato cuándo o cómo Apple planea integrar ReALM en sus productos.

| ReALM

Salir de la versión móvil