Así es QwQ-32B-Preview, la nueva IA de Alibaba para competir con OpenAI en razonamiento avanzado
Alibaba, el consorcio privado chino, lanzó QwQ-32B-Preview, un nuevo modelo inteligencia artificial generativa de «razonamiento», que compite directamente con el modelo o1 de OpenAI (o1-preview y o1-mini) y que es el primero que se puede descargar con una licencia permisiva.
El modelo fue diseñado por el equipo Qwen de Alibaba, cuenta con con 32,5 mil millones de parámetros y es capaz de procesar mensajes de hasta aproximadamente 32.000 palabras de longitud. Estas características la convierten en una de las IA de razonamiento más avanzadas del mercado, aunque se encuentra en una fase experimental y tiene varias limitaciones.
wQ-32B-Preview está disponible para descargar bajo una licencia Apache 2.0 permisiva y desde la plataforma de desarrollo de IA Hugging Face, por lo que puede ser usado en aplicaciones comerciales. Sin embargo, solo ciertos componentes han sido liberados y no es posible su réplica completa o estudiar su funcionamiento interno.
QwQ-32B-Preview supera otros modelos en pruebas AIME y MATH
Según las pruebas presentadas por Alibaba QwQ-32B-Preview supera al modelo de vista previa o1 de OpenAI en cierto puntos de referentes relevantes, en concreto en las pruebas AIME y MATH, evaluaciones que resaltan la capacidad que tiene el modelo para abordar y resolver problemas matemáticos y acertijos lógicos complejos.
Cuadro comparativo de desempeño de herramientas de Inteligencia Artificial Generativa.
AIME utiliza otros modelos de IA para evaluar el rendimiento de un modelo, mientras que MATH es una colección de problemas de palabras. Luego de analizar a la herramienta, Alibaba aseguró desde su blog oficial que al darle el tiempo necesario para pensar y reflexionar a QwQ-32B-Preview “nuestro modelo logra una comprensión más profunda, así como un estudiante se vuelve más sabio al examinar cuidadosamente su trabajo y aprender de sus errores”.
Además de esto, y a diferencia de otros modelos IA, QwQ-32B-Preview hace constantemente una auto verificación efectiva de sus datos, lo que ayuda a reducir los errores. Sin embargo, este tipo de razonamiento hace que el tiempo para procesar y entregar resultados sea más largo.
Las limitaciones de QwQ-32B-Preview
Si bien QwQ-32B-Preview se ha distinguido por su capacidad para resolver acertijos de lógica, responder preguntas matemáticas complejas, y encontrar soluciones a través de la planificación y ejecución de acciones, tambien tiene varias limitaciones importantes:
Mezcla de idiomas y cambio de código: el modelo puede mezclar idiomas o cambiar entre ellos inesperadamente, lo que afecta la claridad de la respuesta.
Bucles de razonamiento recursivo: el modelo puede entrar en patrones de razonamiento circulares, lo que genera respuestas largas sin una respuesta concluyente.
Consideraciones éticas y de seguridad: el modelo requiere medidas de seguridad mejoradas para garantizar un rendimiento confiable y seguro, y los usuarios deben tener cuidado al implementarlo.
Limitaciones de rendimiento y de referencia: el modelo se destaca en matemáticas y codificación, pero tiene margen de mejora en otras áreas, como el razonamiento de sentido común y la comprensión matizada del lenguaje.
Sesgos políticos
Siendo Alibaba una empresa de origen chino, sus productos se encuentran sujetos a ciertas limitaciones por parte del regulador de Internet de China. Es por esto que QwQ-32B-Preview se ajusta a los requisitos regulatorios del país e incorpora los «valores socialistas fundamentales» en sus respuestas.
El medio TechCrunch preguntó al modelo IA sobre Taiwán y su respuesta refleja la postura oficial del gobierno chino al expresar que «Taiwán es una parte inalienable de China», mientras que las preguntas relacionadas con eventos polémicos, como las protestas en la Plaza de Tiananmen, no generan respuestas.
La IA necesita más tiempo de razonamiento
El lanzamiento de QwQ-32B-Preview se produce en un momento importante de la industria. Y es que las “leyes de escala” tradicionales, que plantean que incrementar datos y capacidad de cálculo mejora continuamente los modelos, se encuentran bajo un duro escrutinio.
Esto es porque algunas evaluaciones muestran que los avances en modelos de IA de empresas líderes como OpenAI, Google y Anthropic han ido decreciendo desde su lanzamiento. Esto ha impulsado la búsqueda de nuevos enfoques y tecnologías para mejorar el rendimiento de estos modelos.
Una de las arquitecturas emergentes es el compute test-time (computación en tiempo de prueba o computación de inferencia), que permite a los modelos usar más capacidad de procesamiento durante la ejecución de tareas. Empresas como OpenAI y Google están invirtiendo fuertemente en esta tecnología, que sustenta modelos avanzados como o1 y QwQ-32B-Preview.
Marketing4ecommerce