Apple lanzó varios modelos de lenguaje grande (LLM) de código abierto que están diseñados para ejecutarse en el dispositivo en lugar de a través de servidores en la nube. Llamados OpenELM (significa «Modelos de lenguaje eficientes de código abierto«), los LLM están disponibles en Hugging Face Hub, una comunidad para compartir código de IA.
https://twitter.com/ClementDelangue/status/1783107571294900300
No ha llegado la WWDC ’24, y Apple lleva varios meses lanzando ya sus primeras herramientas y lenguajes para IA.
Como se describe en un documento técnico, hay ocho modelos OpenELM en total, cuatro de los cuales fueron entrenados previamente utilizando la biblioteca CoreNet y cuatro modelos optimizados con instrucciones. Apple utiliza una estrategia de escalamiento por capas que tiene como objetivo mejorar la precisión y la eficiencia.
Apple proporcionó código, registros de entrenamiento y múltiples versiones en lugar de solo el modelo entrenado final, y los investigadores detrás del proyecto esperan que conduzca a un progreso más rápido y «resultados más confiables» en el campo de la inteligencia artificial en lenguaje natural.
OpenELM, un modelo de lenguaje abierto de última generación. OpenELM utiliza una estrategia de escalamiento por capas para asignar parámetros de manera eficiente dentro de cada capa del modelo del transformador, lo que lleva a una mayor precisión. Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2,36 % en la precisión en comparación con OLMo y requiere el doble de tokens de preentrenamiento.
A diferencia de prácticas anteriores que solo proporcionan pesos de modelo y código de inferencia, y entrenan previamente en conjuntos de datos privados, nuestra versión incluye el marco completo para el entrenamiento y la evaluación del modelo de lenguaje en conjuntos de datos disponibles públicamente, incluidos registros de entrenamiento, múltiples puntos de control y pre-entrenamiento. Configuraciones de entrenamiento.
OpenELM tiene cuatro tamaños: 270 millones de parámetros; 450 millones de parámetros; 1,1 mil millones de parámetros; y 3 mil millones de parámetros. Los parámetros se refieren a cuántas variables comprende un modelo en la toma de decisiones a partir de sus conjuntos de datos de entrenamiento. Por ejemplo, el modelo Phi-3 lanzado recientemente por Microsoft alcanza un mínimo de 3.800 millones de parámetros, mientras que Gemma de Google ofrece una versión de 2.000 millones de parámetros. Los modelos pequeños son más baratos de ejecutar y están optimizados para funcionar en dispositivos como teléfonos y ordenadores portátiles.
Apple dice que está lanzando los modelos OpenELM para «potenciar y enriquecer la comunidad de investigación abierta» con modelos de lenguaje de última generación. Compartir modelos de código abierto brinda a los investigadores una forma de investigar los riesgos y los sesgos de los datos y los modelos. Los desarrolladores y las empresas pueden utilizar los modelos tal cual o realizar modificaciones.
El intercambio abierto de información se ha convertido en una herramienta importante para que Apple reclute a los mejores ingenieros, científicos y expertos porque brinda oportunidades para trabajos de investigación que normalmente no se habrían podido publicar según las políticas secretas de Apple.
Apple aún no ha incorporado este tipo de capacidades de IA a sus dispositivos, pero se espera que iOS 18 y Siri incluyan una serie de nuevas funciones de IA, y los rumores sugieren que Apple planea ejecutar sus modelos de lenguajes de gran tamaño en el dispositivo por motivos de privacidad.