Google I/O 2025 nunca se trató de sutileza. Este año, la compañía abandonó el incrementalismo, entregando una cascada de actualizaciones generativas de IA que tienen como objetivo redibujar el mapa para la búsqueda, el video y la creatividad digital.
The Linchpin: Gemini, la familia de modelos de próxima generación de Google, ahora está impulsando todo, desde los resultados de búsqueda hasta la síntesis de video y la creación de imágenes de alta resolución, obteniendo un nuevo territorio en una carrera cada vez más definido por cuán rápido y cuán nativamente, la IA puede generar.
El ShowStopper es Veo 3, el primer generador de video AI de Google que crea no solo imágenes, sino también sonorras completas (ruido ambiental, efectos, incluso diálogo, sincronizados directamente con el metraje. Las indicaciones de texto y la imagen entran, y sale un video 4K completamente producido.
Esto marca el primer modelo de video a gran escala capaz de generar audio y visuales simultáneamente, una tendencia que comenzó con Showrunner Alpha, un modelo inédito, pero VEO3 ofrece mucha más versatilidad, generando varios estilos más allá de las simples animaciones de dibujos animados 2D.
“Estamos entrando en una nueva era de creación con generación combinada de audio y video”, dijo el vicepresidente de Google Labs Josh Woodward durante el lanzamiento. Es un desafío directo para los líderes actuales de la generación de videos (kling, hunyuan, luma, wan y sora de Openai, posicionan VEO como una solución todo en uno en lugar de requerir múltiples herramientas.
Junto con VEO3, Imagen 4, la última iteración de Google de su modelo de generador de imágenes, se dirige con fotorrealismo mejorado, resolución de 2K y quizás lo más importante, la representación de texto que realmente funciona para señalización, productos y maquetas digitales.
Para cualquier persona que haya sufrido a través del texto de Gibberish creado por modelos de imagen de IA anteriores, Imagen 4 representa una mejora significativa.
Estas herramientas no existen de forma aislada. Flow AI, una nueva función de suscripción para usuarios profesionales, combina las capacidades de lenguaje VEO, Imagen y Gemini en un entorno unificado de cine y edición de escenas. Pero esta integración tiene un precio: $ 125 por mes para acceder al conjunto de herramientas completo como parte de un período promocional hasta que el precio total de $ 250 comience a cargarse.

Imagen: Google
Géminis: búsqueda de búsqueda y “difusión de texto”
La IA generativa no es solo para los creadores de contenido. Gemini 2.5 ahora forma la columna vertebral del motor de búsqueda rediseñado de la compañía, que Google quiere evolucionar de un agregador de enlaces a una interfaz dinámica y conversacional que maneja consultas complejas y ofrece respuestas sintetizadas de múltiples salas.
Descripción general de la IA: donde Google Gemini intenta proporcionar respuestas completas a las consultas sin requerir que los usuarios hagan clic en otros sitios, ahora se sienta en la parte superior de las páginas de búsqueda, y Google informa más de 1.500 millones de usuarios mensuales.

Imagen: Google a través de YouTube
Otro desarrollo interesante es la “difusión de Géminis”, construida con tecnología pionera por Inception Labs hace meses. Hasta hace poco, la comunidad de IA generalmente acordaba que la tecnología autorregresiva funcionaba mejor para la generación de texto, mientras que la tecnología de difusión se destacó por las imágenes.
Los modelos autorregresivos generan cada nuevo token después de leer todas las generaciones anteriores para determinar el mejor token siguiente: ideal para elaborar respuestas de texto coherentes revisando constantemente la salida rápida y anterior.
La tecnología de difusión funciona de manera diferente, comenzando con llenando todo el contexto con información aleatoria y refinación (difundir) la salida cada paso para que el producto final coincida con el aviso, perfecto para imágenes con lienzos fijos y estética.
Operai primero aplicó con éxito la generación autorregresiva a los modelos de imagen, y ahora Google se ha convertido en la primera compañía importante en aplicar la generación de difusión al texto. Esto significa que el modelo comienza con tonterías y refina la salida completa con cada iteración, produciendo miles de tokens por segundo mientras se mantiene la precisión; para el contexto, Groq (no el Grok de Xai), que es uno de los proveedores de inferencia más rápidos del mundo, genera cerca de 275 tokens por segundo y los proveedores tradicionales como Openi o antthópica no pueden acercarse a esas velocidades.

Sin embargo, el modelo aún no está disponible públicamente, los usuarios interesados deben unirse a una lista de espera, pero los primeros usuarios han compartido resultados impresionantes que muestran la velocidad y la precisión del modelo.
La difusión de Google Géminis es una locura
La sensación a mano de las respuestas de 2 segundos es la astrena
Debes probarlo
Video en tiempo real: pic.twitter.com/f06cosxv2v
– KickIniteasy (@KickIniteasy) 21 de mayo de 2025
Práctico con las herramientas de IA de Google
Tenemos nuestras manos en varias de las nuevas funciones de IA de Google, con resultados mixtos dependiendo del nivel.
La investigación profunda es particularmente poderosa, incluso superar la alternativa de Chatgpt. Este agente de investigación integral evalúa cientos de fuentes y ofrece información confiable con errores mínimos.
Lo que le da una ventaja sobre el agente de investigación de OpenAI es la capacidad de generar infografías. Después de producir un texto de investigación completo, puede condensar esa información en diapositivas visualmente atractivas. Alimentamos el modelo todo sobre el último anuncio de Google, y presentó información precisa a través de cuadros, esquemas, gráficos y mapas mental.

VEO 3 sigue siendo exclusivo de los usuarios de Gemini Ultra, aunque algunos proveedores de terceros como Freepik y Fal.Ai ya ofrecen acceso a través de API. El flujo no está disponible para probar a menos que salga para el plan Ultra.
El flujo demuestra ser un editor de video intuitivo con los modelos de VEO en su núcleo, lo que permite a los usuarios editar, cortar, extender, extender y modificar escenas de IA utilizando indicaciones de texto simples.
Sin embargo, incluso VEO2 recibió un poco de amor, lo que facilita la vida de los usuarios profesionales. Las generaciones con el VeO2 ahora accesible son significativamente más rápidas: creamos 8 segundos de video en aproximadamente 30 segundos. Si bien VEO2 carece de sonido y actualmente solo admite texto a video (con imagen a video próximamente), entendió nuestras indicaciones e incluso generó texto coherente.
VEO2 ya se realiza comparablemente con Kling 2.0, considerado con el punto de referencia de calidad en la industria de videos generativos. Las nuevas generaciones con VEO3 parecen ser aún más realistas, coherentes, con buen fondo de fondo y diálogo realista y voces.
DE NINGUNA MANERA. Lo hizo. Y, ¿fue eso realmente divertido?
Inmediato:
> Un hombre que hace una comedia de pie en un lugar pequeño cuenta una broma (incluye la broma en el diálogo) https://t.co/gfvpassehx pic.twitter.com/lrcivap1bl– FOFR (@fofrai) 20 de mayo de 2025
Para Imagen, es difícil determinar a primera vista si Google incorpora la versión 4 o todavía usa la versión 3 en su interfaz Gemini Chatbot, aunque los usuarios pueden confirmar esto a través de Whisk. Nuestras pruebas iniciales sugieren que Imagen 4 prioriza el realismo a menos que se especifique lo contrario, con una mejor adherencia rápida y visuales que superan a su predecesor.
Generamos una imagen con diferentes elementos que generalmente no encajan en la misma escena. Nuestro aviso fue “Foto de una mujer con una piel hecha de vidrio, rodeada de miles de piezas brillantes y etéreas en una habitación barroca con la palabra ‘descifrar’ escrita en neón, realista”.
A pesar de que tanto Imagen 3 como Imagen 4 entendieron el concepto y los elementos, Imagen 3 no pudo capturar el estilo realista, lo que Imagen 4 lo hizo fácilmente. En general, Imagen 4 es comparable a los generadores de imágenes SOTA, especialmente teniendo en cuenta lo fácil que es indicar.

Las descripciones de audio también han mejorado, y los modelos ahora proporcionan fácilmente más de 20 minutos de debates completos en Gemini en lugar de obligar a los usuarios a cambiar a NotebookLM. Esto hace que Gemini sea una interfaz más completa, reduciendo la fragmentación que anteriormente requería que los usuarios saltaran entre diferentes sitios para diversos servicios.
La calidad es comparable a la de NotebookLM, con salidas ligeramente más largas en promedio. Sin embargo, la característica clave no es que el modelo sea mejor, sino que ahora está integrado en la interfaz de usuario de chatbot de Gemini.

AI premium a un precio premium
Google no ocultó su estrategia de monetización. El plan “Ultra” de la compañía cuesta $ 250 mensualmente, agrupando el acceso prioritario a los modelos más poderosos, herramientas de IA de flujo y 30 terabytes de almacenamiento, dirigidos claramente a los cineastas, creadores serios y negocios. El nivel “AI Pro” de $ 20 desbloquea el modelo VEO2 anterior de Google, junto con las características de imagen y productividad para una base de usuarios más amplia. Herramientas generativas básicas, como la creación de imágenes y la creación de imágenes de Gemini Simple, libres, pero con limitaciones como un token Cap y solo 10 investigaciones por mes.
Este enfoque escalonado refleja la tendencia más amplia del mercado de IA: impulse la adopción de masas con regalos y luego bloquea a los profesionales con características demasiado útiles para dejarlo pasar. La apuesta de Google es que la acción real (y el margen) se encuentran en trabajos creativos de alta gama y flujos de trabajo empresariales automatizados, no solo las indicaciones informales y la generación de memes.
Editado por Andrew Hayward