Google anunció mejoras para Gemini y nuevas funciones de inteligencia artificial

La firma tecnológica mostró nuevas incorporaciones para su buscador y explicó las mejoras que implementaron en su modelo grande de lenguaje, que compite con ChatGPT. Los detalles

El evento Google I/O 2024, en el que la compañía tecnológica detrás del buscador más utilizado del mundo hizo una serie de anuncios relacionados con sus desarrollos en materia de Inteligencia Artificial (IA), se desarrolló este martes en el Anfiteatro Shoreline de Mountain View, California, en donde la firma compartió detalles de sus nuevos modelos inteligentes y la mejora de sus diferentes productos.

Entre los diferentes anuncios se destacaron un nuevo formato para los resultados de búsquedas, capacidades mejoradas para el modelo Gemini y un asistente digital capaz de comprender y responder al mundo “tal y como lo hacen las personas”.

Resultados generados por IA en las búsquedas

Google mostró el funcionamiento de “AI Overviews”, una herramienta antes conocida como “Search Generative Experience” que ofrece a los usuarios respuestas que sintetizan la información más relevante sobre el tema consultado e incorporan enlaces a sitios relacionados con la consulta. De momento, esta función solo estará disponible en Estados Unidos.

Además, el motor de búsquedas online de la empresa también pasará a ser compatible con consultas sobre videos. Para esto, el usuario tendrá que incorporar un contenido audiovisual en la barra de búsqueda y añadir una breve descripción que indique la información que espera recibir. En este caso se trata de una herramienta que estará “disponible pronto” en inglés para los usuarios de Search Labs en Estados Unidos.

 

Gemini 1.5 Pro

La variante Gemini 1.5 Pro del modelo grande de lenguaje (LLM) de Google fue anunciada a principios de este año con una ventana de contexto de un millón de tokens. Y este martes, se anunció que la capacidad de procesamiento de información del algoritmo se duplicó hasta los dos millones de tokens.

El sistema de IA mejoró sus capacidades para responder a solicitudes más complejas con matices en formato y estilo, y los usuarios tendrán la posibilidad de ajustar el comportamiento y personalidad de los asistentes digitales basados en el modelo. Las mejoras aplicadas se traducen en una mejora considerable en la comprensión del lenguaje natural, la entrega de resultados más relevantes basadas en contexto y una mayor fluidez en las conversaciones entre el modelo y los usuarios.

La capacidad de procesamiento de información de Gemini se duplicó hasta los dos millones de tokens.

La capacidad de comprensión de audio e imagen también fue optimizada en Gemini 1.5 Pro, que además comenzó a integrarse en los productos y aplicaciones productivas de Google, incluidas YouTube, Maps y Gmail. Los usuarios de pago de la aplicación podrán utilizarlo para hacer consultas generales a través de los distintos productos de la firma desde el próximo mes.

Esta integración permitirá, por ejemplo, incluir información tomada de un documento en el que se está trabajando directamente en un email, o establecer un recordatorio para responder a un correo, entre otras tareas.

Al mismo tiempo, Google presentó Gemini 1.5 Flash, una versión más ligera, rápida y eficiente del mismo modelo que está optimizado para realizar tareas a gran volumen y de alta frecuencia a escala. Está disponible en una versión preliminar pública en Google AI Studio y Vertex AI con una ventana de un millón de tokens.

Gemini Nano, la variante del modelo habilitada para operar en dispositivos móviles, ganó soporte multimodal, lo que implica que su algoritmo puede procesar contenidos en audio, imagen y texto.

Image 3 y Veo

Google también anunció dos nuevos modelos de IA pensados para acelerar y optimizar los flujos de trabajo en las tareas de producción audiovisual. En el caso de Veo se trata de un sistema de generación de video que, mediante indicaciones de texto, puede producir materiales de más de un minuto con una resolución de 1080 píxeles, de manera similar a Sora, de OpenAI.

 

Image 3, en tanto, es ahora el sistema de texto a imagen más robusto de Google. Es capaz de comprender la intención de cada indicación de texto que recibe y extraer detalles de las interacciones pasadas con el usuario, características que le permiten crear imágenes más realistas y con menos elementos innecesarios en comparación con sus antecesores.

Project Astra

Otro de los anuncios destacados del Google I/O fue un asistente digital basado en IA que, según lo describieron, es capaz de comprender y responder al mundo “tal y como lo hacen las personas”.

“Hemos trabajado para mejorar la forma en que nuestros modelos perciben, razonan y conversan y en optimizar el ritmo y calidad de las interacciones para hacerlas más naturales”, comentó acerca de Project Astra Demis Hassabis, CEO de Google DeepMind. El siguiente paso, agregó, es mejorar los tiempos de respuesta, conseguir que los algoritmos “recuerden” lo que ven y escuchan y mejorar su comprensión del contexto.

 

Durante la presentación los ingenieros de la empresa californiana mostraron un avance de sus desarrollos para este asistente, y se espera que se integren en algunos de los productos de Google a finales de este año.

Más anuncios del Google I/O

Junto con todos los anuncios ya mencionados, Google también mostró desarrollos como chatbots personalizados según fines específicos llamados Gems, un mecanismo para identificación de contenidos generados por IA y una herramienta para detectar posibles estafas telefónicas, entre otras novedades.

En lo que respecta a Gems, se trata de la versión de Google de los ya conocidos GPT’s de OpenAI. Son modelos a los cuales se les pueden brindar instrucciones específicas dependiendo del rol que se está buscando, como por ejemplo un entrenador de running que brinde motivaciones diarias y rutinas.

Por otro lado, con “SynthID” Google ofrece una solución para incluir marcas de agua en los contenidos generados a través de sus nuevas herramientas Image 3 y Veo. Además, el mismo sistema fue entrenado para identificar videos generados por IA.

 

La detección de posibles estafas telefónicas, en tanto, usa las capacidades de Gemini Nano en teléfonos Android para identificar señales de alerta como patrones en las conversaciones que coincidan con aquellos típicamente utilizados por ciberdelincuentes. En caso de un diagnóstico positivo, se emitirá un mensaje de alerta en la pantalla para advertir al usuario.

El CEO de Google, Sundar Pichai, se encargó de mostrar la herramienta de preguntas en Google Fotos, que los usuarios podrán usar no solo para búsquedas avanzadas en su biblioteca de imágenes, sino para consultas específicas sobre el contenido de las mismas. Para ejemplificarlo, Pichai hizo una demostración con una pregunta para que la IA le dijera cuál es el número de patente en su vehículo.