Por jon
Publicado el 14 mayo, 2024
OpenAI ha presentado un nuevo modelo de inteligencia artificial que revolucionará la manera en la que los usuarios interactúan con ChatGPT. Ahora, el chatbot podrá responder a las peticiones de los usuarios mediante voz, además de comprender contenido en video y texto.
Un Modelo Más Rápido y Versátil
La CTO de OpenAI, Mira Murati, anunció que esta actualización, denominada GPT-4o, es significativamente más rápida y mejora las capacidades en texto, visión y audio. Durante el evento de lanzamiento, se mostró cómo esta actualización estará disponible de forma gratuita para todos los usuarios, con beneficios adicionales para los usuarios de pago, quienes tendrán límites de capacidad hasta cinco veces mayores.
La Voz de ChatGPT
Una de las características más destacadas de GPT-4o es su capacidad “nativamente multimodal”. Esto significa que el modelo puede generar contenido y comprender comandos en voz, texto e imágenes, lo que abre un abanico de posibilidades en la interacción entre humanos e inteligencia artificial.
Antes del lanzamiento de GPT-4o, hubo especulaciones sobre los planes de OpenAI, incluyendo la creación de un motor de búsqueda de IA para competir con Google y la introducción de un asistente de voz. Sin embargo, OpenAI se centró en mejorar la experiencia del usuario, ofreciendo las mismas capacidades que la versión tradicional, pero con el añadido de la interacción por voz.
Interacción Natural e Intuitiva
Anteriormente, la interacción con ChatGPT se limitaba al texto, pero con la introducción de la voz, los usuarios ahora pueden comunicarse con el sistema de manera más intuitiva y natural. GPT-4o puede procesar y generar respuestas en tiempo real, captando incluso la emoción en la voz del usuario y reproduciéndola en diferentes estilos.
Más Allá del Texto: Análisis de Imágenes y Comandos de Voz
Además de la voz, GPT-4o también mejora las capacidades de ChatGPT en el ámbito de la visión. El sistema puede analizar imágenes o capturas de pantalla y proporcionar información relevante o respuestas a consultas específicas.
Los desarrolladores también se beneficiarán de GPT-4o a través de la API de OpenAI, que ofrece acceso al modelo a mitad de precio y el doble de rapidez que GPT-4 Turbo. Esto permitirá integrar la capacidad de voz en sus propias aplicaciones y sistemas, abriendo nuevas posibilidades en el desarrollo de aplicaciones de IA.
Ejemplos de Uso de ChatGPT con Voz
Para ilustrar las capacidades de este nuevo modelo, OpenAI presentó varios ejemplos prácticos:
- Charla casual: ChatGPT puede mantener conversaciones fluidas, respondiendo en tiempo real con un tono amigable y cercano.
- Traducción: El asistente puede interpretar y traducir conversaciones en tiempo real entre diferentes idiomas, como inglés e italiano.
- Análisis de imágenes: Usando la cámara del usuario, ChatGPT puede resolver problemas matemáticos, identificar objetos o jugar a piedra, papel o tijera.
- Análisis de códigos y gráficos: ChatGPT comprende códigos de programación y puede proporcionar respuestas por voz, además de analizar imágenes de la computadora para generar contenido.
Con estas nuevas capacidades, ChatGPT se convierte en una herramienta aún más versátil y poderosa, mejorando significativamente la experiencia del usuario y ampliando las posibilidades de interacción con la inteligencia artificial.