Google para enfrentar los modelos de IA en el torneo de ajedrez en vivo en vivo -

El martes, Google lanzará un torneo de ajedrez que se enfrenta a los modelos de IA líder entre sí, en una prueba directa del razonamiento de la máquina.

Sigue el lunes las afirmaciones de Elon Musk que su chatbot, Grok, exhibe habilidades de “razonamiento sobresaliente”.

El evento comienza como parte del nuevo Kaggle Gaming Arena, una plataforma para probar agentes de IA de uso general en entornos competitivos en vivo.

El primer torneo contará con partidos diarios de ajedrez entre versiones de seis modelos de idiomas líderes: ChatGPT, Géminis, Claude, Grok, Deepseek y Kimi.

A diferencia de las pruebas de referencia estándar, el formato pone la estrategia de IA en la visualización pública al evaluar cómo los modelos piensan, se adaptan y se recuperan bajo presión, dijo Google en un comunicado.

Google dice que espera que la competencia resalte las diferencias en las capacidades de razonamiento que otros puntos de referencia no pueden detectar. La competencia sigue a otros puntos de referencia de juegos utilizados por Google para probar el razonamiento de IA, incluidos los juegos de Atari, Alphago y Alphastar.

Hoy anunciamos el @Kaggle Game Arena, una nueva plataforma de evaluación comparativa donde los modelos y agentes de IA pueden competir cara a cara en juegos estratégicos, comenzando con el ajedrez ♟️.
¿Por qué juegos, preguntas? 🤔 Los juegos son perfectos para la evaluación de la IA porque nos ayudan a comprender cómo se enfrentan los modelos … Pic.twitter.com/xozak6haou
– Google AI (@googleai) 4 de agosto de 2025

“Las presentaciones se clasifican utilizando un sistema de clasificación de habilidades bayesianas que se actualiza regularmente, lo que permite una evaluación rigurosa a largo plazo”, dijo Google.

Un sistema bayesiano utiliza la probabilidad de actualizar la calificación de habilidad de un jugador con el tiempo en función del rendimiento contra otros competidores.

Los partidos inaugurales de ajedrez estarán entre O4 Mini y Deepseek-R1 de OpenAi, Gemini 2.5 Pro y Claude Opus 4, Kimi K2 K2 Instrucc de Moonshot Ai y Openi’s O3, y Grok 4 vs Gemini 2.5 Flash.

📢 La arena del juego Kaggle que incluye: una nueva plataforma de referencia abierta donde los principales modelos de IA compiten en juegos complejos y estratégicos en enfrentamientos transmitidos. Estamos trazando nuevas fronteras para una evaluación de IA confiable y comienza con el ajedrez, un campo de pruebas clásico para la inteligencia del sistema. pic.twitter.com/ohbwbnnqtn
– Kaggle (@kaggle) 4 de agosto de 2025

El ajedrez ha servido durante mucho tiempo como campo de pruebas para la IA.

En un partido histórico en 1997, el Blue Deep de IBM derrotó al Gran Maestro de ajedrez ruso y al ex campeón mundial de ajedrez Garry Kasparov. El nuevo torneo de Google se basa en esa tradición, pero ahora con modelos de idiomas.

Los partidos se transmitirán en vivo en YouTube. Cada ronda presenta una serie de los mejores de cuatro años, con ganadores que avanzan a través de un soporte de eliminación única. Los dos principales modelos se enfrentarán en un partido final de medalla de oro.

“Los juegos son perfectos para la evaluación de la IA porque nos ayudan a comprender cómo los modelos abordan tareas de razonamiento complejas”, escribió Google en X. “Muchos juegos son un proxy para las habilidades del mundo real y pueden probar la capacidad de un modelo en áreas como la planificación estratégica, la adaptación y la memoria”.

Los espectadores podrán ver el razonamiento de cada modelo detrás de cada movimiento. Según Google, esa transparencia es crítica para evaluar si los modelos realmente están pensando en los problemas o simplemente imitan los datos de capacitación.

Aún así, en el tablero de discusión de Kaggle Game Arena, quedan preguntas sobre cómo se comportarán los LLM una vez que comiencen los juegos.

“¿Qué sucede exactamente si el modelo continúa sugiriendo movimientos ilegales después de que se agoten todos los repensaciones permitidas?” Preguntó un usuario. “¿Pierde el juego de inmediato, omite el giro o está descalificado de alguna manera?”

“Realmente me hace preguntarme, ¿estamos viendo un verdadero razonamiento aquí, o simplemente adivinanzas basadas en patrones?” Otro preguntó.

Google dijo que planea expandir la arena de juegos de Kaggle más allá del ajedrez en eventos futuros. Por ahora, este torneo inicial servirá como una prueba de estrés público para qué tan bien los modelos más avanzados de hoy pueden manejar la toma de decisiones estratégicas en tiempo real.

“Los juegos siempre han sido un campo de pruebas útil para la IA, incluido nuestro propio trabajo en Alphago y Alphazero”, escribió el cofundador y CEO de Google Deepmind, Demis Hassabis.

Google no respondió de inmediato a Descifrar Solicitud de comentarios.

Source link

Que calor

Conferencia OMP Miami 2025: Transformar la visión de la cadena de suministro en un impacto REAL con la sinergia entre humanos y IA

La implementación del impuesto a las criptomonedas en Corea del Sur podría sufrir otro retraso, advierten los expertos

Prediction Market Myriad se asocia con la capa de almacenamiento de datos descentralizado Walrus

Google para enfrentar los modelos de IA en el torneo de ajedrez en vivo en vivo

La implementación del impuesto a las criptomonedas en Corea del Sur podría sufrir otro retraso, advierten los expertos

Cómo los alcistas de Bitcoin ganan dinero durante las recesiones y por qué BTC podría alcanzar los $85,000 pronto

Bitcoin extiende pérdidas por debajo de $89,000 mientras las minutas de la Fed describen riesgos bilaterales, no hay un camino preestablecido para recortes de tasas

Stobix se asocia con Funton.ai para impulsar el crecimiento de los juegos Web3

Conferencia OMP Miami 2025: Transformar la visión de la cadena de suministro en un impacto REAL con la sinergia entre humanos y IA

La implementación del impuesto a las criptomonedas en Corea del Sur podría sufrir otro retraso, advierten los expertos

Prediction Market Myriad se asocia con la capa de almacenamiento de datos descentralizado Walrus

Principales perspectivas

Conferencia OMP Miami 2025: Transformar la visión de la cadena de suministro en un impacto REAL con la sinergia entre humanos y IA

La implementación del impuesto a las criptomonedas en Corea del Sur podría sufrir otro retraso, advierten los expertos

Prediction Market Myriad se asocia con la capa de almacenamiento de datos descentralizado Walrus

Que calor

Google para enfrentar los modelos de IA en el torneo de ajedrez en vivo en vivo

ARTÍCULOS RELACIONADOS

Suscríbete a las actualizaciones