TLDR;
- Qwen3-Max-Thinking de Alibaba logró puntuaciones perfectas en AIME y HMMT, lo que supone el primer rendimiento matemático impecable de IA de China.
- El GPT-5 Pro de OpenAI también informó resultados perfectos, estableciendo una nueva rivalidad Este-Oeste en el razonamiento de la IA.
- Las preocupaciones sobre la verificación persisten, ya que los resultados de Alibaba carecen de validación de terceros o evidencia de pruebas a libro cerrado.
- El acceso a API abre puertas para desarrolladores e inversores, con posibles ventajas de costo-rendimiento en los mercados de Asia y el Pacífico.
La división de inteligencia artificial de Alibaba ha presentado Qwen3-Max-Thinking, un modelo de razonamiento avanzado que sorprendió a los observadores al obtener una puntuación perfecta del 100% en dos de las competiciones de matemáticas más duras del mundo, el American Invitational Mathematics Examination (AIME) y el Harvard-MIT Mathematics Tournament (HMMT).
Esto marca un hito importante para la industria de la IA de China. Se dice que es la primera vez que un modelo desarrollado en China iguala o supera los puntos de referencia occidentales en pruebas académicas con mucho razonamiento.
El anuncio coloca los esfuerzos de IA de Alibaba hombro con hombro con el GPT-5 Pro de OpenAI, que también informó resultados impecables en los mismos concursos a principios de este año.
Un salto para las ambiciones de IA de China
Según Alibaba, Qwen3-Max-Thinking está construido sobre Qwen3-Max, el modelo de IA más grande de la compañía que cuenta con más de un billón de parámetros. Lanzada a finales de septiembre, la arquitectura Qwen3-Max representa el paso más audaz de Alibaba hacia la creación de modelos de razonamiento de propósito general que puedan competir globalmente en tareas complejas de resolución de problemas.
Las victorias matemáticas son tanto simbólicas como técnicas. Durante años, competiciones de élite como AIME y HMMT se han utilizado como puntos de referencia no oficiales para evaluar la profundidad del razonamiento y la capacidad de pensamiento abstracto de los modelos de lenguajes grandes (LLM). La precisión perfecta en tales eventos indica que Qwen3-Max-Thinking está cerrando la brecha de rendimiento con los sistemas desarrollados en Occidente.
Sin embargo, quedan dudas sobre la transparencia y la verificación. Las afirmaciones de Alibaba, aunque acaparan los titulares, carecen de confirmación por parte de terceros. Ni la AIME ni el HMMT mantienen tablas de clasificación públicas para los modelos de IA, y ninguna auditoría independiente ha verificado aún si los resultados se lograron en condiciones de libro cerrado y sin Internet, un factor crucial para determinar la autenticidad.
Las lagunas en la verificación generan escepticismo
A pesar de la celebración, los expertos han pedido precaución. La ausencia de verificación pública significa que no está claro si Qwen3-Max-Thinking realmente logró el 100% de precisión en condiciones estandarizadas.
Los resultados no verificados se han convertido en un problema recurrente en la evaluación comparativa de la IA, a medida que las empresas compiten por reclamar superioridad en dominios como el razonamiento, la codificación y las matemáticas.
Para complicar aún más el panorama, los detalles siguen siendo confusos sobre si se utilizaron las versiones de 2025 de los problemas del concurso o si la IA estuvo expuesta previamente a datos similares durante el entrenamiento. Sin controles de contaminación, salvaguardias que garanticen que el modelo no haya visto datos de prueba antes, las puntuaciones perfectas son difíciles de validar.
Si bien el anuncio de Alibaba ha generado entusiasmo, los críticos advierten que sin reproducibilidad, la victoria podría seguir siendo más simbólica que científica.
Desarrolladores e inversores observan el potencial de las API
Más allá de los derechos de fanfarronería de referencia, la estrategia de IA de Alibaba tiene implicaciones comerciales reales. La compañía abrió recientemente el acceso API a Qwen3-Max-Thinking, invitando a los desarrolladores a probar sus capacidades de razonamiento en aplicaciones del mundo real.
Para los equipos de software y datos, esto introduce nuevas posibilidades de enrutamiento de costo-rendimiento, eligiendo dinámicamente entre proveedores de IA en función del precio, la precisión o la latencia. Los desarrolladores de la región de Asia y el Pacífico, en particular aquellos que buscan opciones de infraestructura de IA local, pueden encontrar atractivo el ecosistema de Qwen si ofrece precios competitivos y soporte regional confiable más allá de Singapur.
Los inversores también están observando de cerca. Si Qwen3-Max-Thinking puede manejar tareas complejas de razonamiento manteniendo la asequibilidad, Alibaba podría hacerse un hueco entre los desarrolladores empresariales y las nuevas empresas de inteligencia artificial que buscan alternativas a los proveedores estadounidenses. El éxito de tales modelos podría indicar un nuevo equilibrio en la infraestructura global de IA, donde los modelos chinos rivalizan o incluso superan a los occidentales en tareas específicas.

