OpenAI anuncia el lanzamiento de GPT-4: Ahora puede comprender texto e imágenes

El producto está disponible para usuarios de ChatGPT Plus y a través de la API de OpenAI, aunque en este último caso deben inscribirse en la lista de espera correspondiente.


La compañía desarrolladora del chatbot que emplea inteligencia artificial (IA), OpenAI, anunció el día de hoy la llegada de GPT-4, su nuevo producto que mejora lo que ofrecía ya ChatGPT e integra sistemas para la comprensión de imágenes.

La información fue compartida por el equipo de OpenAI a través de sus canales oficiales, donde informan que GPT-4 está disponible desde el día de hoy para usuarios de ChatGPT Plus (versión paga del servicio) y a través de la API de la compañía, aunque en este caso hay que inscribirse en una lista de espera para poder acceder.

Con respecto a GPT-4, en el blog oficial de OpenAI se lee:

“Hemos creado GPT-4, el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales”.

En cuanto a las bondades de GPT-4, OpenAI detalló que el programa puede aceptar entradas de imágenes y texto, lo cual consituye una mejora con respecto a lo que podía procesar GPT-3,5, el cual solo procesaba contenido escrito. Esto implicó alrededor de seis meses de trabajo puliendo aspectos para hacer la IA más precisa y centrada en cuanto a las respuestas generadas, especialmente ahora que admite imágenes. Sobre su rendimiento, OpenAI indica:

“En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil. La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5”.

Ahora integra interpretación de imágenes

En cuanto a al procesamiento de imágenes, ahora GPT-4 puede subtitular e interpretar ilustraciones que tengan cierta complejidad, llegando incluso a identificar elementos allí presentes:

“GPT-4 puede aceptar una indicación de texto e imágenes que, en paralelo a la configuración de solo texto, permite al usuario especificar cualquier tarea de visión o idioma. En concreto, genera salidas de texto (lenguaje natural, código, etc.) dadas las entradas que consisten en texto e imágenes intercaladas. En una variedad de dominios, incluidos documentos con texto y fotografías, diagramas o capturas de pantalla, GPT-4 exhibe capacidades similares a las de las entradas de solo texto. Además, se puede aumentar con técnicas de tiempo de prueba que se desarrollaron para modelos de lenguaje de solo texto”.

Sobre este aspecto, el equipo de la empresa Be My Eyes está trabajando para pulir lo que es la capacidad de comprensión de imágenes. En cuanto a su funcionamiento, estos últimos indican:

“Por ejemplo, si un usuario envía una foto del interior de su refrigerador, el bot virtual no solo podrá identificar correctamente lo que contiene, sino también extrapolar y analizar qué se puede preparar con esos ingredientes. La herramienta también puede ofrecer una serie de recetas para esos ingredientes y enviar una guía paso a paso sobre cómo prepararlos”.

Aún hay ciertas limitaciones

Si bien GPT-4 contempla mejoras con respecto a sus predecesores, los desarrolladores aclaran que aún experimenta ciertas limitaciones y que no es completamente confiable, por lo que invita a los usuarios a tomar esto en cuenta al momento de utilizarlo.

Entre los aspectos más destacables, indican que aún podrían persistir ciertos sesgos en sus resultados. La herramienta solo cuenta con conocimiento de eventos anteriores a septiembre de 2021, por lo que solicitudes que involucren información reciente podrían no ser exactas en cuanto a las devoluciones que de la herramienta.

También advierten que puede haber errores de razonamiento, podría ofrecer información no 100% verificada, e incluso presentar resultados equívocos si se hacen solicitudes demasiado difíciles de comprender, de la misma forma que pasaría con un ser humano. También advierten no tomar de forma fiable las predicciones que pueda presentar.

Fuente: DiarioBitcoin