ChatGPT estrena nuevo modo de voz integrado en el chat

  • El nuevo modo de voz de ChatGPT se integra directamente en la ventana de chat, sin cambiar a una pantalla aparte.
  • Los usuarios pueden hablar, leer la transcripción en tiempo real y ver imágenes, mapas u otros elementos visuales a la vez.
  • La función está disponible en web, Android e iOS, con opción de volver al anterior "Modo separado" desde los ajustes.
  • El modo avanzado de voz mejora la naturalidad, reduce la latencia y ofrece voces más personales apoyadas en modelos como GPT-5.1.

Modo de voz de ChatGPT en el chat

La forma de hablar con ChatGPT acaba de cambiar de manera importante. OpenAI ha decidido simplificar el acceso a una de sus funciones más utilizadas, el modo de voz, que ahora se integra directamente en la misma pantalla de chat de siempre, sin necesidad de saltar a otra vista ni abrir interfaces paralelas.

Con esta actualización, el asistente de OpenAI combina en una sola experiencia la conversación por texto y por voz. Los usuarios pueden hablar con la IA mientras ven en la pantalla la transcripción en tiempo real, además de mapas, imágenes u otros elementos visuales que el sistema va mostrando según el contexto de la consulta. Todo ocurre dentro del mismo hilo, de manera más fluida y natural.

Qué cambia con el nuevo modo de voz integrado

Nuevo modo de voz integrado en ChatGPT

Hasta ahora, para usar la voz con ChatGPT en el móvil o en la web había que pasar a una interfaz independiente. Al pulsar el icono correspondiente, la aplicación nos llevaba a una pantalla dominada por el clásico orbe azul, centrada solo en el audio. Era inmersiva, pero obligaba a cambiar de entorno cada vez que queríamos revisar mensajes anteriores o consultar algo visual.

Ese funcionamiento queda atrás. Con la nueva versión, al tocar el icono con forma de onda situado junto a la barra de escritura, ChatGPT activa el modo de voz dentro del propio chat. El usuario puede seguir viendo todo el historial de mensajes, y a la vez iniciar una charla hablada con el asistente sin abandonar la ventana principal.

Mientras dura la conversación, el sistema muestra en pantalla una transcripción en vivo de lo que dice el usuario y de las respuestas de la IA. La idea es que la experiencia se parezca más a una charla cara a cara, pero con el añadido de contar con el rastro escrito y poder volver sobre cualquier punto sin esfuerzo.

Además de texto, la interfaz puede ir incorporando contenido visual en tiempo real, como imágenes generadas por la IA, capturas, fragmentos de páginas web o mapas, según lo que se vaya preguntando. De esta manera, no hace falta salir del modo de voz para ver información gráfica relevante mientras se sigue hablando con el asistente.

Otro detalle práctico es que se puede alternar entre escribir y hablar en cualquier momento. Incluso aunque el modo de voz esté activo, si el usuario teclea una pregunta, la respuesta puede llegar igualmente en formato de voz, manteniendo la continuidad de la conversación.

Modo avanzado de voz: más natural, rápido y personal

Voces avanzadas de ChatGPT

La integración en la interfaz no llega sola. OpenAI ha aprovechado para introducir mejoras en el modo avanzado de voz, su opción más sofisticada para mantener conversaciones habladas en tiempo real. Este modo ofrece voces que suenan más naturales, con entonaciones más cercanas a una persona y cierta capacidad para transmitir matices emocionales.

Según la compañía, se han ajustado los modelos de IA para disminuir la latencia y hacer que la conversación sea más fluida. El asistente puede responder en cuestión de apenas unos cientos de milisegundos, acercándose bastante al ritmo de una charla entre dos personas. El objetivo es reducir la sensación de estar interactuando con una máquina y rebajar la fricción en el día a día.

OpenAI también ha incorporado en este contexto soporte en modelos más recientes, como GPT-5.1, lo que permite controlar mejor el tono de voz, adaptar el estilo de respuesta y gestionar diálogos algo más complejos sin que se rompa el hilo de la conversación. Para quien usa ChatGPT como acompañante de trabajo, estudio o asistencia personal, esta mejora puede marcar la diferencia.

En la práctica, esto se traduce en que las voces disponibles resultan menos robóticas y más agradables de escuchar durante largos periodos. Aunque este enfoque de «humanizar» la IA ha recibido críticas en algunos círculos especializados, OpenAI defiende que ayuda a que las personas se sientan más cómodas y que la interacción sea menos fría.

Es importante tener en cuenta que existen dos niveles de experiencia de voz. Por un lado, el modo estándar, gratuito, que ya permite charlas habladas y está disponible para todos. Por otro, el modo avanzado, con capacidades de audio más potentes y voces adicionales, al que tienen acceso quienes cuentan con planes de pago como ChatGPT Plus, Pro o Teams. En ambos casos, la integración en el chat se aplica por igual.

Cómo activar o desactivar el nuevo modo de voz en ChatGPT

El acceso al nuevo funcionamiento es bastante sencillo. En la aplicación de ChatGPT, tanto en Android como en iOS y en la versión web, basta con asegurarse de tener la app actualizada. Una vez hecho, en la parte derecha de la barra donde se escribe el mensaje aparece el icono con forma de onda o de burbuja de voz.

Al pulsarlo, se activa inmediatamente la conversación por voz dentro del propio chat. El usuario puede empezar a hablar y ver cómo la IA va mostrando sus respuestas en tiempo real, en forma de texto y, cuando corresponde, con imágenes, mapas u otros recursos visuales. No hay que aceptar pasos adicionales ni viajar a otro menú.

Si en algún momento se prefiere volver a escribir, se puede tocar de nuevo el mismo botón o simplemente empezar a teclear. Mientras el modo de voz esté encendido, aunque se envíen mensajes escritos, el asistente puede contestar igualmente en voz, manteniendo la experiencia «manos libres» si así se desea.

Para quienes no terminen de encajar con este cambio, OpenAI mantiene una opción de vuelta atrás. Dentro de los ajustes de la app, en la sección dedicada al Modo de voz, se puede activar la configuración llamada «Modo separado». Al hacerlo, la herramienta recupera el comportamiento anterior, en el que el usuario pasa a una interfaz exclusiva de audio cada vez que quiere hablar con ChatGPT.

Este «Modo separado» se puede activar y desactivar tantas veces como se quiera, sin límite. Es una forma de que cada persona elija si prefiere la experiencia más inmersiva, centrada solo en el audio, o la nueva interfaz unificada que combina texto, voz y elementos visuales.

Disponibilidad global y uso en España y Europa

OpenAI ha indicado que la integración del modo de voz dentro del chat se está desplegando a nivel global tanto en la versión web como en las aplicaciones móviles. En la práctica, en España y en el resto de Europa los usuarios solo necesitan actualizar la app desde la tienda oficial de su móvil o recargar la página web para empezar a ver el nuevo comportamiento.

La compañía señala que el acceso básico al asistente de voz sigue siendo gratuito, aunque en el caso de las cuentas sin suscripción puede haber límites de minutos de uso o de intensidad diaria, algo que se gestiona de forma dinámica según la carga del servicio. Quienes cuenten con planes de pago disponen de un margen mayor y funciones de voz prémium integradas directamente en la ventana principal de chat.

En el contexto europeo, esta actualización llega en un momento en el que la competencia entre asistentes de voz basados en IA se está intensificando, con propuestas como Gemini Live de Google o herramientas integradas en ecosistemas móviles y de escritorio. La integración total de voz y texto en ChatGPT coloca al servicio en una posición fuerte en esa carrera.

Para el usuario medio en España, esto se traduce en que puede consultar rutas en un mapa, pedir recomendaciones, revisar tareas o resolver dudas complejas hablando de forma natural, mientras ve al mismo tiempo la información organizada en la pantalla, sin cortes entre modos ni cambios bruscos de interfaz.

En el ámbito profesional y educativo, esta nueva forma de interacción puede facilitar generación de resúmenes por voz, reuniones asistidas por IA, corrección de textos dictados o apoyo en estudios de idiomas, aprovechando tanto la parte auditiva como la visual dentro de un mismo flujo.

Con este movimiento, ChatGPT avanza hacia una experiencia conversacional más unificada, en la que voz, texto y contenido visual conviven en una sola pantalla. La posibilidad de volver al antiguo «Modo separado» deja margen a los usuarios más tradicionales, pero la apuesta principal de OpenAI pasa claramente por un modelo de interacción continuo, más cercano a cómo hablamos y consultamos información en nuestro día a día, ya sea desde España, desde el resto de Europa o en cualquier otro punto del mapa.

Usar ChatGPT como asistente principal en Android-3
Artículo relacionado:
Guía Completa para Usar ChatGPT como Asistente de Voz en Android