¡Nuevo hito en la IA! El lunes 13 de mayo, OpenAI presentó al mundo su nuevo modelo nativo, GPT-4o, capaz de establecer una relación humano-máquina sumamente natural y deja claro el concepto de “omni” como un modelo multimodal capaz de realizar todo tipo de generación💯
🔎Explora los aspectos más destacados de la “OpenIA Spring Update” en este artículo⬇️⬇️⬇️
NXTEP es una comunidad de expertos en Growth y Product que busca cerrar la brecha de oportunidades en LatAm dentro de la industria business-tech.
Únete y lleva tu carrera al siguiente nivel.
Comencemos resolviendo una de las dudas que quizás tengas sobre GPT-4o.
¿Puedo interactuar con el modo de voz como en la presentación de OpenIA?🤔
Todavía no. Según Sam Altman, CEO de OpenAI, el modo de voz se actualizará de manera progresiva en las próximas semanas, comenzando con los usuarios de pago. Actualmente, esta función todavía no está activa.
Es decir, si has visto a usuarios interactuar con el modo de voz, se trata del modelo anterior, GPT-4.
Si aún no has visto la presentación de la demo de GPT-4o, te dejamos el siguiente video: OpenAI Spring Update.
Versión Gratuita
Lo primero que debes saber es que GPT-4o cuenta con una versión gratuita disponible a nivel mundial, que proporciona un nivel de inteligencia similar al de GPT-4.
¿Qué ofrece esta versión gratuita?
Experiencia de IA al nivel de GPT-4.
Capacidad de conectarse a internet para proporcionar respuestas.
Carga de archivos para resumir, redactar o analizar.
Uso de GPTs de la GPT Store creados por otros usuarios.
Acceso a la memoria de conversaciones pasadas.
Además, podrás usar ChatGPT como una aplicación desktop, permitiendo compartir la información visualizada en diferentes aplicaciones del computador.
El uso de esta herramienta proporciona apoyo constante al usuario, haciéndola más accesible para el uso diario.
Mejoras del modelo
En palabras de OpenAI, el nuevo modelo GPT-4o puede razonar utilizando audio, visión y texto en tiempo real, interactuando con el mundo de manera similar a los humanos.
Esto es posible gracias a las siguientes mejoras:
Reducción del Tiempo de Latencia
En GPT-4, el tiempo de respuesta promedio es de 5.2 segundos. El nuevo modelo GPT-4o reduce este tiempo a un promedio de 0.32 segundos, ofreciendo respuestas casi en tiempo real durante una conversación humana.
Eficiencia de modelo
En versiones anteriores, el modo de voz de GPT utilizaba tres modelos de IA diferentes para responder al usuario: 1) Conversión de voz a texto, 2) Generación de respuesta escrita, 3) Conversión de texto a voz. Esto resultaba en un alto tiempo de latencia. La nueva tecnología unifica estos tres procesos en un único modelo nativo, permitiendo ofrecer tanto una versión gratuita como una de pago a bajo costo.
Nivel de expresión
En los videos demostrativos de OpenAI, se puede observar cómo la IA simula emociones como sarcasmo, nerviosismo y sorpresa. Esto es posible gracias al nuevo modelo de IA GPT-4o, que representa un avance sin precedentes.
Otras mejoras relevantes incluyen:
Mejora en la coherencia narrativa de imágenes y personajes.
Capacidad de renderizado 3D.
Mejora en la creación de resúmenes de video.
Para conocer más mejoras, visita la sección "Explorations of capabilities" en el sitio web de OpenAI.
¿Cuánto ha mejorado GPT-4o?
GPT-4o es un modelo notablemente más coherente en sus respuestas que sus predecesores, según la percepción de los usuarios en la clasificación de LMSys.
En el gráfico compartido por William Fedus, Product Research de OpenAI, la mejora es de 57 puntos, comparable al salto entre GPT-3.5 y GPT-4.
LMSys: Herramienta diseñada para medir capacidades de modelos de IA
Uno de los principales factores en esta mejora es la capacidad de GPT-4o para recordar eventos pasados.
En la prueba "needle in a needlestack", GPT-4o obtuvo una puntuación casi perfecta, mientras que su versión anterior solo puede mantener el contexto en un 60%.
needle in a needlestack: Prueba que mide la retención del contexto de una IA.
¿Her?
Finalmente, el día de la presentación, Sam Altman publicó en sus redes sociales la palabra "her". Esta es una clara referencia a la película "Her", estrenada en 2013, donde el protagonista desarrolla una relación sentimental con una inteligencia artificial capaz de simular la interacción humana.
Comentario personal
OpenAI ha democratizado el acceso a la inteligencia artificial de alta calidad con GPT-4o, lo cual es increíble. Sin embargo, esto puede llevar a que algunas personas desarrollen apego o sentimientos hacia el nuevo modo de voz, como en la película "Her" de 2013. Hasta lo mostrado en la demo de GPT-4o, la IA no ha mostrado emociones de rechazo o disgusto, lo que podría facilitar este apego en personas con menos habilidades sociales o que no disfrutan socializar, al no enfrentar rechazo.
Es crucial ser conscientes de estas implicaciones emocionales y éticas mientras disfrutamos de los avances tecnológicos. Reflexionar sobre cómo interactuamos con estas IA avanzadas es esencial para nuestro bienestar emocional y social.