La plataforma de streaming Netflix publica ahora su investigación sobre la detección de la actividad del habla y la música, centrándose especialmente en su “uso en subtitulado y doblaje”.
La detección de actividad de voz y música (SMAD) se refiere al proceso y la tecnología que permite a los usuarios rastrear la cantidad de voz y música por separado en cada cuadro de un archivo de audio.
Los usos prácticos de SMAD incluyen la preparación para algunas de las tareas de traducción más comunes en la industria de los medios y el entretenimiento.
Clasificar y segmentar audio de formato largo de grandes conjuntos de datos puede resultar útil para la traducción y la creación de guiones de doblaje; El análisis y procesamiento del diálogo puede ser un requisito previo para identificar el lenguaje hablado y la transcripción del habla.
La recuperación de información musical, aunque parezca un poco más avanzada, también puede aplicarse a la transcripción de la letra de una canción, donde los extractos musicales a menudo se traducen junto con la letra y se incluyen en los subtítulos (así como en los subtítulos).
Aunque SMAD puede resultar útil en la traducción, Iroro Orife, Chih-Wei Wu y Yun-Ning (Amy) Hung – Autores 13 de noviembre de 2023 Publicación del blog de tecnología de Netflix Observó que clasificar la actividad del habla y la música a nivel de marco fonético, a gran escala, es costoso y requiere mucha mano de obra. Además, las restricciones de derechos de autor a menudo impiden que el contenido de audio se comparta públicamente.
Muchos conjuntos de datos están disponibles públicamente, pero no son perfectos, según papel Los investigadores de Netflix publicaron en la revista EURASIP sobre procesamiento de audio, voz y música en septiembre de 2022.
Dos grandes conjuntos de datos contienen etiquetas que solo se pueden usar para cualquiera de los dos discursos. o “Revelar la música, pero no ambas”, escribieron los autores, lo cual es un problema con las series de televisión y las películas, donde la música y el diálogo a menudo coinciden. Del mismo modo, muchos otros conjuntos de datos solo tratan con clips cortos y pueden clasificar clips de audio como voz, música o ruido; nuevamente, sin superposición.
Entonces, Netflix decidió crear su propio conjunto de datos a gran escala, utilizando el extenso catálogo de series de televisión y películas de la compañía.
¿Por qué este conjunto de datos es diferente de todos los demás conjuntos de datos?
«Demostramos cómo aprovechar un conjunto de datos a gran escala con etiquetas ruidosas puede mejorar los resultados de SMAD. El conjunto de datos de Discurso y Música de Televisión (TVSM) presentado se deriva de aproximadamente 1.600 horas de audio de programas de televisión grabados y producidos profesionalmente», escribieron los autores. etiquetas ruidosas de diversas fuentes, como subtítulos, hojas de referencia musicales escritas o predicciones de modelos previamente entrenados”.
Así es: los investigadores han recurrido a las traducciones (en parte) para aclarar la nomenclatura de su discurso. Las marcas de tiempo de traducción son una fuente confiable de los tiempos aproximados de inicio y finalización del discurso y, por lo general, incluyen palabras de voces cantadas. (Por otro lado, los subtítulos no se utilizan porque contienen toda la información de audio, como el ruido de fondo, no solo la voz).
Las 1.608 horas de grabaciones de audio producidas profesionalmente provinieron de un contenido «amplio y variado» de todos los géneros, todos publicados entre 2016 y 2019.
El sesenta por ciento del contenido se origina en los Estados Unidos. El conjunto de datos también incluyó tres idiomas diferentes: el inglés representó el 77%; español 20%; El 3% restante son japoneses.
El equipo entrenó su potente modelo de 832.000 parámetros en subconjuntos de clips de 20 segundos obtenidos a partir de archivos de audio generados aleatoriamente. Dos subconjuntos de entrenamiento tenían etiquetas ruidosas (automatizadas a partir de la traducción) y el tercer subconjunto había generado anotaciones limpias manualmente.
Luego probaron el rendimiento del modelo en cuatro conjuntos de datos abiertos que contenían datos de audio de programas de televisión, clips de YouTube y diversos contenidos, incluidos conciertos, transmisiones de radio y «música popular de baja resolución».
«En comparación con dos métodos de terceros entrenados con datos sintéticos y de pequeña escala, nuestros métodos de referencia propuestos pudieron generalizar mejor y superar los resultados de última generación en muchos conjuntos de datos existentes, a pesar del entrenamiento con etiquetas ruidosas». «La calidad de las etiquetas sigue siendo crucial para futuras mejoras», concluyeron los autores, añadiendo la advertencia.
La publicación del blog reconoce que el interés de Netflix en esta área de investigación son los potenciales retornos de producción significativos para equipos de todo el mundo que trabajan en docenas de idiomas diferentes.
Netflix ha puesto a disposición sus funciones de audio y stickers en Zenodo, vinculándolos a un repositorio de GitHub que contiene múltiples herramientas de audio, como código Python y modelos previamente entrenados.
Sin embargo, es interesante que Netflix haya mantenido el status quo en la industria del entretenimiento al no abrir el conjunto de datos TVSM, tal vez debido a los mismos problemas de derechos de autor que llevaron a su creación en primer lugar.
«Analista. Pionero de la televisión. Fanático del tocino. Fanático de Internet. Experto en cerveza de toda la vida. Aficionado a la web. Aficionado a Twitter».
More Stories
Un tribunal español frena la última investigación fiscal sobre Shakira tras la recomendación de los fiscales
TelevisaUnivision y Shopsense AI anuncian una asociación exclusiva en español para una nueva experiencia de medios minoristas
La artista franco-iraní Marjane Satrapi gana el Premio Asturias de Comunicación de España