Tecnología

Programa Inteligencia Artificial que recrea caras a partir de audios

Programa Inteligencia Artificial que recrea caras a partir de audios
Programa Inteligencia Artificial que recrea caras a partir de audios

La tecnología sigue creciendo a pasos agigantados, apoyándose de varias áreas para explorar nuevas capacidades y funciones. Una de ellas es poder “reconstruir” caras a través de un fragmento de voz.

El estudio Speech2Face presentado el 2019 en una conferencia de Visión y Patrones de reconocimiento mostró que una Inteligencia Artificial (AI) puede descifrar el aspecto de una persona a través de segmentos cortos de audio.

«La meta no es reconstruir de forma idéntica rostros de personas, sino hacer imagen con características físicas relacionadas con el audio analizado». Explican los investigadores Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman y Michael Rubinstein del Programa de Investigación y Ciencia del MIT.

Para lograrlo usaron, diseñaron y entrenaron una red neuronal profunda que analizó millones de videos tomados de YouTube en donde hay personas hablando.

Durante el entrenamiento el modelo aprendió a correlaciona voces con rostros, permitiéndole producir imágenes con atributos físicos similares a los hablantes, incluyendo la edad, género y etnicidad.

El entrenamiento fue realizado bajo supervisión y utilizando concurrencia de caras y voces de videos de Internet, sin necesidad de modelar características físicas detalladas de la cara.

“Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre rostros y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones Speech2Face a partir de audio se asemejan a las imágenes reales de los rostros de los hablantes”.

Detallaron además que debido a que este estudio podría tener aspectos sensibles por la etnicidad, así como por la privacidad, no se han añadido aspectos físicos específicos a la recreación de rostros.

No obstante, aseguran que este va mejorando con el tiempo, ya que en cada uso aumenta su biblioteca de conocimientos.

Si bien sus pruebas mostradas dejan ver que Speech2Face tiene un alto número de coincidencias de rostros con voces.

Fallas en el reconocimiento de caras

También tuvo algunas fallas, en donde no coincidió etnicidad, edad o género con la muestra de voz utilizada.

Ejemplos de errores. La primera foto corresponde a la cara de la persona del audio y la segunda a la recreada por el programa (Foto: Captura de pantalla/Speech2Face)Ejemplos de errores. La primera foto corresponde a la cara de la persona del audio y la segunda a la recreada por el programa.

El modelo está designado para presentar correlaciones estadísticas que existen entre las características faciales con la voz.

Cabe recordar que IA aprendió por videos de YouTube, los cuales no representan una muestra real de la población en el mundo.

Por ejemplo, en algunos idiomas muestra discrepancias con datos de entrenamiento.

En ese sentido, recomiendan al final de sus resultados, que quienes decidan explorar y modernizar el sistema, consideren una muestra más amplia de personas y voces.

El programa también pudo hacer la recreación de la voz en caricaturas, que también tienen un parecido con voces de audios analizados.

Debido a que podría ser usada para fines maliciosos, la recreación de la cara se mantiene lo más parecido y no da rostros completos.

Pues esto podría ser un problema para la privacidad de las personas. Aún así ha sorprendido lo que puede hacer la tecnología a partir de muestras de audio.

Más contenido por Redacción CDN

Más noticias