El martes, Google lanzará un torneo de ajedrez que se enfrenta a los modelos de IA líder entre sí, en una prueba directa del razonamiento de la máquina.
Sigue el lunes las afirmaciones de Elon Musk que su chatbot, Grok, exhibe habilidades de “razonamiento sobresaliente”.
El evento comienza como parte del nuevo Kaggle Gaming Arena, una plataforma para probar agentes de IA de uso general en entornos competitivos en vivo.
El primer torneo contará con partidos diarios de ajedrez entre versiones de seis modelos de idiomas líderes: ChatGPT, Géminis, Claude, Grok, Deepseek y Kimi.
A diferencia de las pruebas de referencia estándar, el formato pone la estrategia de IA en la visualización pública al evaluar cómo los modelos piensan, se adaptan y se recuperan bajo presión, dijo Google en un comunicado.
Google dice que espera que la competencia resalte las diferencias en las capacidades de razonamiento que otros puntos de referencia no pueden detectar. La competencia sigue a otros puntos de referencia de juegos utilizados por Google para probar el razonamiento de IA, incluidos los juegos de Atari, Alphago y Alphastar.
Hoy anunciamos el @Kaggle Game Arena, una nueva plataforma de evaluación comparativa donde los modelos y agentes de IA pueden competir cara a cara en juegos estratégicos, comenzando con el ajedrez ♟️.
¿Por qué juegos, preguntas? 🤔 Los juegos son perfectos para la evaluación de la IA porque nos ayudan a comprender cómo se enfrentan los modelos … Pic.twitter.com/xozak6haou
– Google AI (@googleai) 4 de agosto de 2025
“Las presentaciones se clasifican utilizando un sistema de clasificación de habilidades bayesianas que se actualiza regularmente, lo que permite una evaluación rigurosa a largo plazo”, dijo Google.
Un sistema bayesiano utiliza la probabilidad de actualizar la calificación de habilidad de un jugador con el tiempo en función del rendimiento contra otros competidores.
Los partidos inaugurales de ajedrez estarán entre O4 Mini y Deepseek-R1 de OpenAi, Gemini 2.5 Pro y Claude Opus 4, Kimi K2 K2 Instrucc de Moonshot Ai y Openi’s O3, y Grok 4 vs Gemini 2.5 Flash.
📢 La arena del juego Kaggle que incluye: una nueva plataforma de referencia abierta donde los principales modelos de IA compiten en juegos complejos y estratégicos en enfrentamientos transmitidos. Estamos trazando nuevas fronteras para una evaluación de IA confiable y comienza con el ajedrez, un campo de pruebas clásico para la inteligencia del sistema. pic.twitter.com/ohbwbnnqtn
– Kaggle (@kaggle) 4 de agosto de 2025
El ajedrez ha servido durante mucho tiempo como campo de pruebas para la IA.
En un partido histórico en 1997, el Blue Deep de IBM derrotó al Gran Maestro de ajedrez ruso y al ex campeón mundial de ajedrez Garry Kasparov. El nuevo torneo de Google se basa en esa tradición, pero ahora con modelos de idiomas.
Los partidos se transmitirán en vivo en YouTube. Cada ronda presenta una serie de los mejores de cuatro años, con ganadores que avanzan a través de un soporte de eliminación única. Los dos principales modelos se enfrentarán en un partido final de medalla de oro.
“Los juegos son perfectos para la evaluación de la IA porque nos ayudan a comprender cómo los modelos abordan tareas de razonamiento complejas”, escribió Google en X. “Muchos juegos son un proxy para las habilidades del mundo real y pueden probar la capacidad de un modelo en áreas como la planificación estratégica, la adaptación y la memoria”.
Los espectadores podrán ver el razonamiento de cada modelo detrás de cada movimiento. Según Google, esa transparencia es crítica para evaluar si los modelos realmente están pensando en los problemas o simplemente imitan los datos de capacitación.
Aún así, en el tablero de discusión de Kaggle Game Arena, quedan preguntas sobre cómo se comportarán los LLM una vez que comiencen los juegos.
“¿Qué sucede exactamente si el modelo continúa sugiriendo movimientos ilegales después de que se agoten todos los repensaciones permitidas?” Preguntó un usuario. “¿Pierde el juego de inmediato, omite el giro o está descalificado de alguna manera?”
“Realmente me hace preguntarme, ¿estamos viendo un verdadero razonamiento aquí, o simplemente adivinanzas basadas en patrones?” Otro preguntó.
Google dijo que planea expandir la arena de juegos de Kaggle más allá del ajedrez en eventos futuros. Por ahora, este torneo inicial servirá como una prueba de estrés público para qué tan bien los modelos más avanzados de hoy pueden manejar la toma de decisiones estratégicas en tiempo real.
“Los juegos siempre han sido un campo de pruebas útil para la IA, incluido nuestro propio trabajo en Alphago y Alphazero”, escribió el cofundador y CEO de Google Deepmind, Demis Hassabis.
Google no respondió de inmediato a Descifrar Solicitud de comentarios.
