Así es MAGI-1, la IA china que deja en ridículo a Sora y Gemini

El dominio de OpenAI y Google vuelve a ser disputado por una IA de China. Sand AI ha presentado MAGI-1, un modelo de difusión autorregresivo diseñado específicamente para generar video. Esta IA de código abierto es capaz de crear videos de duración ilimitada a partir de una imagen de entrada.

De acuerdo con Sand AI, MAGI-1 es un modelo de código abierto con 24.000 millones de parámetros que genera videos por bloques. A diferencia de otros modelos de difusión, MAGI-1 utiliza una estrategia autorregresiva que asegura consistencia temporal de izquierda a derecha entre segmentos consecutivos. Esta técnica mejora su eficiencia y aplicación en contextos de tiempo real.

MAGI-1 aprovecha la arquitectura del transformador de difusión, mejorada con varias optimizaciones de entrenamiento e inferencia. El modelo también introduce una programación progresiva de ruido a lo largo del tiempo durante el entrenamiento, aumentando los niveles de manera monótona. Esta estructura entrena a MAGI-1 para manejar la causalidad y mantener la continuidad entre cuadros de forma más efectiva.

Cada video se divide en fragmentos de longitud fija de 24 fotogramas, y el modelo elimina el ruido de cada fragmento antes de pasar al siguiente. Este enfoque permite procesar múltiples fragmentos de manera concurrente, aumentando el rendimiento sin sacrificar la coherencia visual. Como resultado, MAGI-1 permite una síntesis de video escalable y adecuada para streaming, con alta fidelidad temporal y transiciones suaves.

El sistema de indicaciones por fragmentos proporciona control sobre la composición y la progresión de la escena. Esta función permite al usuario definir elementos narrativos distintos dentro de diferentes segmentos de un video sin sacrificar la coherencia visual. Además, MAGI-1 admite transiciones de escena suaves y ediciones detalladas basadas en texto en tiempo real.

MAGI-1 supera a Sora y otras IA que generan video

En términos de rendimiento, MAGI-1 supera significativamente a otras IA en calidad de movimiento, adherencia a instrucciones y consistencia semántica. Entre los modelos de código abierto, MAGI-1 superó a Wan-2.1 y HunyuanVideo en casi todas las categorías de evaluación. También rivalizó con modelos comerciales de código cerrado como Hailuo (i2v-01), Kling y Sora, destacándose en la síntesis de movimiento realista y el control detallado.

Por otro lado, en el benchmark Physics-IQ, MAGI-1 demuestra un modelado preciso del comportamiento físico a través de tareas de continuación de video. Esta capacidad es fundamental para aplicaciones que requieren realismo físico y consistencia en formatos largos.

Sand AI ha lanzado MAGI-1 como código abierto en GitHub, junto con la base de código de inferencia completa y los modelos previamente entrenados. De acuerdo con TechCrunch, el nuevo modelo chino está ganando el reconocimiento de varias personalidades de la industria, como el director de Microsoft Research Asia, Kai-Fu Lee. Al igual que ocurrió con DeepSeek, MAGI-1 podría establecer un nuevo punto de referencia para la generación de video por IA.

Source link