¡Esto asusta! Inteligencia Artificial de Google Aprende a leer los labios.

Por -

Investigadores de la División de Inteligencia Artificial de Reino Unido, DeepMind, han colaborado con científicos de la Universidad de Oxford para desarrollar el software de lectura labial más avanzado del mundo y probablemente lee mejor los labios que tu.

Para lograr esto, los investigadores alimentaron miles de horas de imágenes de televisión de la BBC a una red neuronal, entrenándola para anotar videos basados en análisis de movimiento bucal con una precisión de 46.8 por ciento.

Para el contexto, cuando se le encargó subtitular el mismo video, un lector de labios humano profesional demostró ser casi cuatro veces menos eficiente, con precisión adivinando la palabra correcta sólo el 12,4 por ciento del tiempo.

La investigación se basa en el trabajo publicado anteriormente por la Universidad de Oxford que utilizó técnicas similares para construir una aplicación de lectura labial llamada LipNet que podía leer grabaciones de video de voluntarios que hablaban en oraciones simples con una precisión de más del 90 por ciento.

Sin embargo, a diferencia del programa de Oxford, el software de DeepMind, llamado “Watch, Listen, Attend, and Spell”, fue entrenado y probado en imágenes mucho más difíciles.

En el proceso, la red neuronal de Google observó 5.000 horas de imágenes de programas de televisión populares como Newsnight, Question Time y The World Today. Los videos presentaron más de 110.000 oraciones diferentes y aproximadamente 17.500 palabras únicas. En comparación, LipNet leyó un total de 51 palabras únicas.

Así es como los investigadores de Google resumen el alcance y las metas de su estudio:

El objetivo de este trabajo es reconocer las frases y oraciones dichas por una persona, con o sin el audio. A diferencia de trabajos anteriores que se han centrado en el reconocimiento de un número limitado de palabras o frases, nos enfrentamos a la lectura de labios como un asunto que puede beneficiar a muchas personas.

En los videos  Deep Mind especula que además de ser útil para personas con problemas de audición, el nuevo software también podría soportar una amplia gama de aplicaciones, incluyendo la anotación de películas y la comunicación con asistentes digitales como Siri y Alexa simplemente usando gestos de labios.

screen-shot-2016-11-25-at-11-14-53

 

 

Margaret Soto

Soy aficcionada a los softwares y apps que te resuelven tus complicaciones del día a día, soy fan del click a lo que voy descubriendo cositas interesantes para compartirlas.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *