Modelos auto-supervisados de representación de audio a gran escala para la comprensión musical

Nombre organización: Universitat Pompeu Fabra – Barcelona (Music Technology Group)

Otras organizaciones participantes: Red Española de Supercomputación (RES), Barcelona Supercomputing Center y EuroCC Spain.

Área: Academia.

Las plataformas digitales de música y las herramientas basadas en inteligencia artificial están transformando la industria del audio y la forma en que las personas consumen música. Sin embargo, a diferencia del lenguaje, el audio no es información simbólica, sino una señal física, lo que plantea retos técnicos específicos para el desarrollo y entrenamiento de modelos de IA en este ámbito. Además, el acceso a modelos de última generación suele estar restringido por limitaciones presupuestarias, lo que dificulta su disponibilidad para la investigación académica abierta.

Gracias al superordenador MareNostrum5 ACC del Barcelona Supercomputing Center, el equipo liderado por Xavier Serra desde el Music Technology Group de la Universitat Pompeu Fabra pudo entrenar y evaluar modelos de representación de audio con un conjunto de datos de 300.000 horas de música. Esta escala de trabajo, normalmente inaccesible para entornos académicos, permitió avanzar en la investigación abierta con un enfoque competitivo frente a modelos propietarios como Music FM de ByteDance.

Los modelos desarrollados se basan en BestRQ, un paradigma de aprendizaje auto-supervisado capaz de predecir características (o tokens) ocultos a partir de los datos de entrada. Esta arquitectura alcanzó resultados punteros en los dominios del habla, el sonido y la música, y permitió mejorar el rendimiento mediante la combinación específica de diferentes características objetivo.

Los modelos obtenidos alcanzaron resultados de estado del arte y han sido compartidos abiertamente, promoviendo la reproducibilidad y su aplicación práctica. Esto abre la puerta a nuevas herramientas como sistemas avanzados de recomendación musical, asistentes de composición musical basados en IA y aplicaciones sofisticadas de análisis sonoro.

Sobre la empresa

La Universitat Pompeu Fabra, a través de su Music Technology Group, es referente internacional en investigación aplicada al procesamiento de audio, la tecnología musical y la inteligencia artificial. El equipo liderado por Xavier Serra trabaja en el desarrollo de nuevas metodologías para el análisis y generación musical, combinando enfoques basados en conocimiento experto con técnicas de aprendizaje automático. Su colaboración con la RES y el BSC les permite abordar proyectos de gran escala que impulsan la innovación en el cruce entre música y tecnología.

Modelos auto-supervisados de representación de audio a gran escala para la comprensión musical

RETO

SOLUCIÓN

Beneficio

Sobre la empresa