Ya disponible el modelo de IA GPT-4 Turbo de OpenAI, con capacidades de visión para analizar imágenes
OpenAI ha lanzado su modelo de Inteligencia Artificial (IA) mejorado GPT-4 Turbo con Vision, que ya está disponible para los desarrolladores a través de la interfaz de programación de aplicaciones (API) y que permite analizar imágenes y responder preguntas sobre ellas.
Por dpa/EP
La compañía liderada por Sam Altman presentó su modelo de IA GPT-4 Turbo en el marco del evento de desarrolladores que celebró la compañía en noviembre de 2023, cuando lo definió como un modelo «más capaz» y «más económico» que su predecesor, GPT-4.
Esto se debe a que GPT-4 Turbo incluye una ventana de contexto mejorada -esto es, las instrucciones o ‘prompts’ que insertan los usuarios-, pasando de los 32K de GPT-4 a 128k, lo que equivale a «más de 300 páginas de texto en un solo mensaje». Además, GPT-4 Turbo está actualizado con información nueva hasta abril de 2023.
Ahora, OpenAI ha anunciado que GPT-4 Turbo ya está disponible para los desarrolladores a través de la API con las capacidades de Vision, tal y como ha compartido a través de una publicación de la cuenta de desarrolladores en X (antigua Twitter).
En concreto, GPT-4 Turbo con Vision es un modelo multimodal grande (LMM, por sus siglas en inglés) que puede analizar imágenes y proporcionar respuestas textuales a preguntas sobre ellas. Esto se debe a que incorpora tanto el procesamiento del lenguaje natural como la comprensión visual.
Según explica OpenAI en su guía sobre como utilizar GPT-4 con Vision, el modelo responde a preguntas generales sobre lo que está presente en las imágenes. Por ejemplo, este modelo es capaz de ofrecer ideas para una cena en base a una fotografía de los alimentos que hay en la nevera, ya que es capaz de comprender qué elementos aparecen en la imagen y ofrecer información relacionada con ello.
Asimismo, la compañía también ha detallado a través de su página de actualizaciones que, ahora, las solicitudes para utilizar las capacidades de análisis y reconocimiento de Vision del modelo se pueden llevar a cabo a través del formato de intercambio de datos JSON -basado en el lenguaje de programación JavaScript- y la llamada de función.
Con esta mejora implementada en el modelo, los desarrolladores pueden disponer de un flujo de trabajo mejorado, así como crear aplicaciones con el modelo de forma más eficiente.
Igualmente, OpenAI también ha compartido algunas aplicaciones de las capacidades de GPT-4 Turbo en casos reales de desarrolladores. En este sentido, según ha detallado la compañía, la aplicación fitness Healthify utiliza GPT-4 Turbo con Vision para, a partir de fotografías de las comidas de los usuarios, ofrecer información nutricional.
Siguiendo esta línea, la aplicación Make It Real de Tldraw, utiliza GPT-4 Turbo con Vision para generar un sitio web impulsado por código real, a partir de dibujos de interfaz creados por los usuarios.
Con todo ello, los desarrolladores ya pueden comenzar a implementar las capacidades de GPT-4 Turbo con Vision a través de la API, igualmente, OpenAI ha señalado que el modelo también se está desplegando a través del ‘chatbot’ ChatGPT.