OpenAI presenta una herramienta de audio que recrea voces humanas

Primero, OpenAI ofrecía una herramienta que permitía a las personas crear imágenes digitales simplemente describiendo lo que querían ver. Luego, creó una tecnología similar que generaba vídeos en movimiento completo como algo sacado de una película de Hollywood.

Ahora ha presentado una tecnología que puede recrear la voz de alguien.

La startup de IA de alto perfil dijo el viernes que un pequeño grupo de empresas estaba probando un nuevo sistema OpenAI, Voice Engine, que puede recrear la voz de una persona a partir de una grabación de 15 segundos. Si subes una grabación tuya y un párrafo de texto, podrás leer el texto usando una voz sintética que suene como la tuya.

El texto no tiene que estar en su idioma nativo. Si hablas inglés, por ejemplo, puede recrear tu voz en español, francés, chino o muchos otros idiomas.

OpenAI no comparte la tecnología más ampliamente porque todavía está tratando de comprender sus peligros potenciales. Al igual que los generadores de imágenes y vídeos, un generador de voz podría ayudar a difundir información errónea en las redes sociales. También podría permitir a los delincuentes hacerse pasar por personas en línea o durante llamadas telefónicas.

La compañía dijo que está particularmente preocupada de que este tipo de tecnología pueda usarse para descifrar autenticadores de voz que controlan el acceso a cuentas bancarias en línea y otras aplicaciones personales.

«Este es un tema delicado y es importante hacerlo bien», dijo en una entrevista Jeff Harris, gerente de producto de OpenAI.

La compañía está explorando formas de marcar con agua las voces sintéticas o agregar controles que impidan que las personas usen la tecnología con las voces de políticos u otras figuras prominentes.

El mes pasado, OpenAI adoptó un enfoque similar cuando presentó su generador de vídeo, Sora. Demostró la tecnología pero no la hizo pública.

OpenAI se encuentra entre muchas empresas que han desarrollado una nueva generación de tecnología de IA que puede generar voces sintéticas de forma rápida y sencilla. Incluyen gigantes tecnológicos como Google y nuevas empresas como ElevenLabs, con sede en Nueva York. (El New York Times está demandando a OpenAI y su socio, Microsoft, por acusaciones de infracción de derechos de autor que involucran sistemas de inteligencia artificial que generan texto).

Las empresas pueden utilizar estas tecnologías para generar audiolibros, dar voz a chatbots en línea o incluso crear una estación de radio con DJ automatizada. Desde el año pasado, OpenAI ha estado utilizando su tecnología para impulsar una versión de ChatGPT que habla. Y desde hace tiempo ofrece a las empresas un conjunto de voces que pueden usarse para aplicaciones similares. Todos fueron construidos a partir de clips proporcionados por actores de doblaje.

Pero la compañía aún no ha ofrecido una herramienta pública que permita a individuos y empresas recrear voces a partir de un clip corto como lo hace Voice Engine. La capacidad de recrear cualquier voz de esta manera, afirmó Harris, es lo que hace que la tecnología sea peligrosa. La tecnología podría ser especialmente peligrosa en un año electoral, afirmó.

En enero, los residentes de New Hampshire recibieron mensajes de llamadas automáticas que los disuadieron de votar en las primarias estatales en una voz que probablemente fue generada artificialmente para sonar como la del presidente Biden. Posteriormente, la Comisión Federal de Comunicaciones prohibió este tipo de llamadas.

Harris dijo que OpenAI no tiene planes inmediatos de beneficiarse de la tecnología. Dice que la herramienta podría ser particularmente útil para las personas que han perdido la voz debido a una enfermedad o un accidente.

Demostró cómo se había utilizado la tecnología para recrear la voz de una mujer después de que un cáncer cerebral la dañara. Ahora podía hablar, dijo, después de proporcionar una breve grabación de una presentación que había dado cuando era estudiante de secundaria.