Baidu Impresiona con ERNIE-4.5-VL: Desafiando a los Gigantes de la IA
Imagen de bitcoinworld.co.in
Baidu presenta ERNIE-4.5-VL, un modelo multimodal de 3 mil millones de parámetros que supera a GPT-5 y Gemini 2.5 Pro en pruebas de razonamiento visual.
Baidu Desafía a Gigantes de la IA con ERNIE-4.5-VL
En un movimiento que sacude el panorama de la inteligencia artificial, Baidu ha presentado ERNIE-4.5-VL-28B-A3B-Thinking, un modelo multimodal que, según la compañía, supera a GPT-5 de OpenAI y Gemini 2.5 Pro en diversas pruebas de razonamiento visual. Lo más sorprendente es que este logro se consigue con tan solo 3 mil millones de parámetros, una fracción del tamaño de sus competidores.
ERNIE-4.5-VL, cuyo nombre Baidu ironiza aludiendo a los problemas de nomenclatura de OpenAI, se distingue por su capacidad para integrar texto e imágenes de manera efectiva. El modelo ha sido entrenado con una gran cantidad de datos de razonamiento visual-lenguaje de alta calidad, lo que le permite realizar tareas complejas como análisis de gráficos, razonamiento causal y resolución de problemas STEM a partir de imágenes. Fuente: huggingface.co
Un Avance en Razonamiento Visual
La arquitectura de ERNIE-4.5-VL incorpora técnicas avanzadas de aprendizaje por refuerzo multimodal, incluyendo GSPO (Gradient Scaling for Parallel Optimization) e IcePop, para estabilizar el entrenamiento y optimizar el rendimiento. Además, el modelo es capaz de utilizar "tool-calling", una funcionalidad que le permite realizar búsquedas de imágenes y acceder a información externa para complementar su razonamiento. Esta capacidad es particularmente útil para analizar detalles finos y comprender conocimientos visuales menos comunes.
"Estamos muy orgullosos de lo que hemos logrado con ERNIE-4.5-VL," declaró un portavoz de Baidu. "Nuestro objetivo era crear un modelo que fuera a la vez potente y eficiente, y creemos que hemos alcanzado ese objetivo."
Más Allá del Texto: Análisis de Video y Adaptabilidad
La versatilidad de ERNIE-4.5-VL no se limita al análisis de imágenes estáticas. El modelo también demuestra una notable capacidad para comprender y analizar contenido de video, identificando cambios temporales y localizando eventos específicos. Baidu ha proporcionado ERNIEKit, un conjunto de herramientas para facilitar el ajuste fino del modelo para tareas específicas, como el entrenamiento por instrucciones (SFT) y el entrenamiento de alineación (DPO).
La disponibilidad del modelo a través de Hugging Face Spaces y su compatibilidad con herramientas de inferencia como vLLM y FastDeploy, facilitan su adopción por parte de desarrolladores e investigadores. La compañía ha publicado un informe técnico detallado que describe las capacidades y los términos de licencia del modelo.
Implicaciones para el Futuro de la IA
La presentación de ERNIE-4.5-VL subraya el rápido avance de la inteligencia artificial en China y plantea interrogantes sobre el futuro de la competencia en este campo. Con su enfoque en la eficiencia y la versatilidad, ERNIE-4.5-VL podría convertirse en una herramienta valiosa para una amplia gama de aplicaciones, desde la educación y la investigación hasta la industria y el entretenimiento.
Foto de
Foto de
Foto de