Baidu Impresiona con ERNIE-4.5-VL: Desafiando a los Gigantes de la IA

Baidu ERNIE-4.5 Imagen de bitcoinworld.co.in

Baidu presenta ERNIE-4.5-VL, un modelo multimodal de 3 mil millones de parámetros que supera a GPT-5 y Gemini 2.5 Pro en pruebas de razonamiento visual.

Baidu Desafía a Gigantes de la IA con ERNIE-4.5-VL

En un movimiento que sacude el panorama de la inteligencia artificial, Baidu ha presentado ERNIE-4.5-VL-28B-A3B-Thinking, un modelo multimodal que, según la compañía, supera a GPT-5 de OpenAI y Gemini 2.5 Pro en diversas pruebas de razonamiento visual. Lo más sorprendente es que este logro se consigue con tan solo 3 mil millones de parámetros, una fracción del tamaño de sus competidores.

ERNIE-4.5-VL, cuyo nombre Baidu ironiza aludiendo a los problemas de nomenclatura de OpenAI, se distingue por su capacidad para integrar texto e imágenes de manera efectiva. El modelo ha sido entrenado con una gran cantidad de datos de razonamiento visual-lenguaje de alta calidad, lo que le permite realizar tareas complejas como análisis de gráficos, razonamiento causal y resolución de problemas STEM a partir de imágenes. Fuente: huggingface.co

Un Avance en Razonamiento Visual

La arquitectura de ERNIE-4.5-VL incorpora técnicas avanzadas de aprendizaje por refuerzo multimodal, incluyendo GSPO (Gradient Scaling for Parallel Optimization) e IcePop, para estabilizar el entrenamiento y optimizar el rendimiento. Además, el modelo es capaz de utilizar "tool-calling", una funcionalidad que le permite realizar búsquedas de imágenes y acceder a información externa para complementar su razonamiento. Esta capacidad es particularmente útil para analizar detalles finos y comprender conocimientos visuales menos comunes.

"Estamos muy orgullosos de lo que hemos logrado con ERNIE-4.5-VL," declaró un portavoz de Baidu. "Nuestro objetivo era crear un modelo que fuera a la vez potente y eficiente, y creemos que hemos alcanzado ese objetivo."

Más Allá del Texto: Análisis de Video y Adaptabilidad

La versatilidad de ERNIE-4.5-VL no se limita al análisis de imágenes estáticas. El modelo también demuestra una notable capacidad para comprender y analizar contenido de video, identificando cambios temporales y localizando eventos específicos. Baidu ha proporcionado ERNIEKit, un conjunto de herramientas para facilitar el ajuste fino del modelo para tareas específicas, como el entrenamiento por instrucciones (SFT) y el entrenamiento de alineación (DPO).

La disponibilidad del modelo a través de Hugging Face Spaces y su compatibilidad con herramientas de inferencia como vLLM y FastDeploy, facilitan su adopción por parte de desarrolladores e investigadores. La compañía ha publicado un informe técnico detallado que describe las capacidades y los términos de licencia del modelo.

Implicaciones para el Futuro de la IA

La presentación de ERNIE-4.5-VL subraya el rápido avance de la inteligencia artificial en China y plantea interrogantes sobre el futuro de la competencia en este campo. Con su enfoque en la eficiencia y la versatilidad, ERNIE-4.5-VL podría convertirse en una herramienta valiosa para una amplia gama de aplicaciones, desde la educación y la investigación hasta la industria y el entretenimiento.

Baidu Desafía a Gigantes de la IA con ERNIE-4.5-VL

Un Avance en Razonamiento Visual

Más Allá del Texto: Análisis de Video y Adaptabilidad

Implicaciones para el Futuro de la IA

Artículos relacionados