Alex Cheema, cofundador de Exo Labs, ha pensado que el nuevo chip de Apple M4, disponible en los nuevos modelos Mac Mini y Macbook Pro, es un hardware excelente para ejecutar los modelos de lenguajes grandes (LLMs) básicos open-source más potentes lanzados hasta ahora, incluidos Llama-3.1 405B de Meta ,Nemotron 70B de Nvidia y Qwen 2.5 Coder-32B de Alibaba Cloud.
Para realizar este clúster, conectó cuatro Mac Mini M4 (valor minorista de $599,00), un Macbook Pro M4 Max (valor minorista de $1,599,00) con el software de código abierto de Exo para ejecutar LLM Qwen 2.5 Coder-32B.
Así publicaba hace unos días Alex Cheema una foto en X:
Exo Labs, es una startup fundada en marzo de 2024 con sede en el Reino Unido para (según sus palabras) “democratizar el acceso a la IA” a través de clústeres informáticos multidispositivo de código abierto. Está publicando una serie de hilos en X con las pruebas que está realizando.
De la curiosidad al desarrollo de un proyecto
Según una entrevista que dio Alex Cheema a VentureBeat:
Al principio, empezó como una simple curiosidad. Estaba investigando sobre aprendizaje automático y quería acelerar mi investigación. Me estaba tomando mucho tiempo ejecutar cosas en mi vieja MacBook, así que pensé: «Está bien, tengo algunos otros dispositivos por ahí». Tal vez dispositivos antiguos de algunos amigos aquí… ¿hay alguna manera de que pueda usar sus dispositivos? Y en lugar de que se necesite un día para ejecutarlo, lo ideal sería que se necesitaran algunas horas. Entonces, eso se convirtió en este sistema más general que le permite distribuir cualquier carga de trabajo de IA en varias máquinas. Por lo general, ejecutarías básicamente algo en un solo dispositivo, pero si quieres aumentar la velocidad y entregar más tokens por segundo desde tu modelo, o quieres acelerar tu carrera de entrenamiento, entonces la única opción que realmente tienes que hacer eso es salir a más dispositivos”.
Tanto él y su cofundador Mohamed “Mo” Baioumy desarrollaron una nueva herramienta de software, Exo, que distribuye cargas de trabajo de IA en múltiples dispositivos para aquellos que carecen de GPU Nvidia y, finalmente, la abrieron en GitHub en julio a través de GNU General. Licencia pública que incluye uso comercial o pago, siempre que el usuario conserve y ponga a disposición una copia del código fuente.
Así definen el software en GitHub:
Ejecute su propio grupo de IA en casa con dispositivos cotidianos
Desde entonces, Exo ha visto su popularidad aumentar constantemente en Github, y la compañía ha recaudado una cantidad no revelada en financiación de inversores privados.
La privacidad, el control y la descentralización como base de su software
“Personalmente, quería usar IA en mis propios mensajes para hacer cosas como preguntar: ‘¿Tengo algún mensaje urgente hoy?’ Eso no es algo que quiera enviar a un servicio como GPT”, señaló Alex Cheema a VentureBeat.
Esta demostración muestra cómo las cargas de trabajo de inferencia y entrenamiento de IA se pueden manejar de manera eficiente sin depender de la infraestructura de la nube, haciendo que la IA sea más accesible tanto para los consumidores como para las empresas que se preocupan por la privacidad y los costos.
Exo espera permitir que “las personas sean dueñas de sus modelos y controlen lo que están haciendo. Si los modelos sólo se ejecutan en servidores de centros de datos masivos, se pierde transparencia y control sobre lo que sucede”.
De hecho, como ejemplo, señaló que ingresó sus propios mensajes directos y privados a un LLM local para poder hacerle preguntas sobre esas conversaciones, sin temor a que se filtraran a la web abierta.
¿Pasaría el filtro de la Ley de la IA de la UE? Los propios fundadores Alex Cheema y Mohamed Baioumy, reflexionan sobre la Ley SB 1047 (conocida como ‘Ley de Innovación Segura y Protegida para Modelos de Inteligencia Artificial de Frontera’), que contempla una serie de mecanismos y requisitos similares a la Ley de la IA de la UE:
El cártel de la IA está gastando billones de dólares en grupos de IA para escalar el entrenamiento mientras impulsa regulaciones como la SB 1047 bajo el pretexto de la seguridad de la IA para asegurar su ventaja. Las barreras para implementar modelos de frontera están aumentando. Los modelos son cada vez más grandes y con modelos de razonamiento como o1, se utiliza más computación en el momento de la inferencia. La administración Biden ha tomado medidas activas para controlar toda la cadena de suministro de GPU utilizadas para entrenar modelos de frontera.
Por qué usó los equipos con chip M3 o M4 de Apple
Según Alex Cheema, la velocidad y el bajo consumo de energía del M4 en beneficio de la IA fueron los elegidos.
Según Alex Cheema, en las cifras compartidas en X, el clúster Mac Mini M4 de Exo Labs opera Qwen 2.5 Coder 32B a 18 tokens por segundo y Nemotron-70B a 8 tokens por segundo . (Los tokens son representaciones numéricas de cadenas de letras, palabras y números: el idioma nativo de la IA). Exo también tuvo éxito utilizando hardware Mac anterior, conectando dos Macbook Pro M3 para ejecutar el modelo Llama 3.1-405B a más de 5 tok/segundo .
Preparing to run the new Llama 3.3 70B on my mac cluster.
Downloading model shards onto 3 x M4 Pro Mac Mini and 1 x M3 Max MacBook Pro.
AI cluster is connected by Gigabit ethernet switch with @exolabs pic.twitter.com/m77J9qb9mV
— Alex Cheema – e/acc (@alexocheema) December 7, 2024
Qué es Llama 3.3 70B de Meta
Mark Zuckerberg lo definió como «un nuevo modelo de texto con parámetros que tiene un rendimiento similar al de nuestro modelo de 405 mil millones de parámetros, pero ahora es más fácil y eficiente de ejecutar.»
Este modelo cuenta con 70 mil millones de parámetros, lo que significa que puede procesar y analizar datos de manera precisa. Está diseñado para tareas basadas en texto, como el chat multilingüe, la ayuda a la codificación y la generación de datos sintéticos. Llama 3.3 se centra únicamente en las entradas y salidas de texto: no está diseñado para manejar imágenes o audio.
Este modelo de código abierto (LLM) está diseñado para usarse en proyectos comerciales y de investigación en varios idiomas de ahí que fuera uno de los elegidos por Alex Cheema ya que está diseñado para ejecutarse localmente en estaciones de trabajo comunes de desarrolladores.
Conociendo Nemotron 70B de NVIDIA
NVIDIA ha entrado con fuerza en la carrera de modelos de lenguaje avanzados, posicionándose como una alternativa competitiva a gigantes como GPT-4 de OpenAI y Claude 3.5 de Anthropic.
Al igual que Llama, Nemotron 70B es un modelo de lenguaje de código abierto lanzado por NVIDIA que cuenta con 70 mil millones de parámetros. Su nombre hace referencia a su tamaño y a su configuración optimizada, lo que le permite ofrecer un alto rendimiento en tareas de lenguaje general.
Según algunos medios, está causando sensación en el sector de la inteligencia artificial al superar a modelos como el GPT-4 de OpenAI y el Sonnet Claude 3.5 de Anthropic.
Qué es Qwen 2.5 Coder-32B
Los nuevos modelos de lenguaje de la serie Qwen2.5 desarrollados por el equipo de desarrollo de Alibaba Cloud. Cuenta con 32,5 mil millones de parámetros.
Qwen2.5-32B demuestra capacidades excepcionales, superando con frecuencia a modelos más grandes de tamaños comparables. Supera significativamente a su predecesor, Qwen 1.5-32B, particularmente en áreas exigentes como matemáticas y codificación, logrando puntuaciones impresionantes de 57,7 en MATH y 84,5 en MBPP (Mostly Basic Python Programming).
Qwen2.5-Coder-32B se ha convertido en el código abierto de última generación actual. -código fuenteLLM, con capacidades de codificación que coinciden con las de GPT-4o.