Apple colaboró ​​con NVIDIA para integrar ReDrafter en NVIDIA TensorRT-LLM

Machine Learning Research at Apple

En la publicación «Acelerar la inferencia LLM en GPU NVIDIA con ReDrafter» del blog de Apple Maching Learning Research, los ingenieros de Apple compartieron nuevos detalles sobre una colaboración con NVIDIA para implementar un rendimiento de generación de texto más rápido con modelos de lenguaje grandes.

Accelerating LLM Inference on NVIDIA GPUs with ReDrafter

Apple publicó y abrió su técnica Recurrent Drafter (ReDrafter) a principios de este año. Representa un nuevo método para generar texto con LLM que es significativamente más rápido y «logra un rendimiento de vanguardia«. Combina dos técnicas: búsqueda de haz (para explorar múltiples posibilidades) y atención dinámica de árbol (para manejar opciones de manera eficiente).

Si bien su investigación demostró resultados sólidos, Apple colaboró ​​con NVIDIA para aplicar ReDrafter en producción. Como parte de esta colaboración, ReDrafter se integró en NVIDIA TensorRT-LLM, una herramienta que ayuda a ejecutar LLM más rápido en las GPU NVIDIA.

Aquí están los resultados:

Para permitir la integración de ReDrafter, NVIDIA agregó nuevos operadores o expuso los existentes, lo que mejoró considerablemente la capacidad de TensorRT-LLM para adaptarse a modelos y métodos de decodificación sofisticados. Los desarrolladores de aprendizaje automático que utilizan GPU NVIDIA ahora pueden beneficiarse fácilmente de la generación acelerada de tokens de ReDrafter para sus aplicaciones LLM de producción con TensorRT-LLM.

Al comparar un modelo de producción de parámetros de decenas de miles de millones en GPU NVIDIA, utilizando el marco de aceleración de inferencia NVIDIA TensorRT-LLM con ReDrafter, hemos visto una aceleración de 2,7 veces en los tokens generados por segundo para la decodificación codiciosa. Estos resultados de referencia indican que esta tecnología podría reducir significativamente la latencia que pueden experimentar los usuarios, al mismo tiempo que utiliza menos GPU y consume menos energía.

«Los LLMs se utilizan cada vez más para impulsar aplicaciones de producción, y mejorar la eficiencia de la inferencia puede impactar los costos computacionales y reducir la latencia para los usuarios«, concluyen los investigadores de Maching Learning de Apple. «Con el novedoso enfoque de ReDrafter para la decodificación especulativa integrado en el marco NVIDIA TensorRT-LLM, los desarrolladores ahora pueden beneficiarse de una generación de tokens más rápida en las GPU NVIDIA para sus aplicaciones LLM de producción«.

Para obtener más detalles, podéis consultar más datos en el blog para desarrolladores de NVIDIA

Nvidia: el aliado tecnológico que está en su prime y ha entrado en la ronda de financiación de OpenAI  de 2024

Nvidia entró recientemente en el capital de OpenAI en una ronda de financiación de 6.600 millones de dólares donde Apple estuvo dudando en entrar o no. Al final, decidió no entrar.

La ronda de financiación fue liderada por Thrive Capital, la empresa de capital riesgo dirigida por Josh Kushner, pero en ella han participado también Khosla Ventures, Microsoft y el ya mencionado gigante de los microprocesadores Nvidia, que entra en su capital, según indicó Reuters. Altimeter Capital, Fidelity, SoftBank, la firma MGX, respaldada por Abu Dabi, también han invertido.

Salir de la versión móvil