Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
Music identification is a mature and well-studied field in the Music Information Retrieval community. In the music industry, it ensures fair distribution of royalties, which are allocated based on usage, such as plays in live venues or airtime in broadcasts. This thesis has been conducted as part of an industrial PhD at BMAT, a company specializing in music monitoring and identification services. This thesis explores advancements in Audio Fingerprinting (AFP), a core technology for music identification that identifies audio by matching compact signatures extracted from audio signals. From their early development in the 2000s, AFP systems have evolved to address challenges such as robustness to time-frequency modifications, or noise and speech overlays, for instance. However, scenarios like background music identification or extreme time-frequency modifications remain challenging for these systems. To address these gaps, this thesis first introduces a self-contained dataset specifically designed for broadcast monitoring, featuring TV recordings with a high prevalence of background music and reference tracks of production music. Alongside this dataset, it proposes \emph{PeakFP}, a new baseline method tailored for background music identification. To improve the AFP performance, this thesis explores a two-step approach combining source separation algorithms with AFP systems. This approach demonstrates substantial performance improvements in background music identification, albeit at the cost of computational overhead. Finally, this thesis presents PeakNetFP, the first hybrid AFP system that integrates the simplicity and scalability of spectral peaks with the abstraction capabilities of neural networks. PeakNetFP achieves comparable performance to state-of-the-art models while being 100 times smaller, offering a scalable and efficient solution for AFP tasks, including severe time-stretched audio. Despite being conducted in an industrial setting, this work adheres to the principles of open science, with all datasets, code, and evaluations made publicly available. This thesis aims to foster further research in AFP, particularly in underexplored scenarios, and to contribute to the development of more robust and versatile AFP systems.
La identificació musical és un àmbit madur i àmpliament estudiat dins la comunitat de Recuperació d'Informació Musical (MIR) des de fa molts anys. En la indústria musical, garanteix una distribució justa de les regalies, que es reparteixen segons l'ús, com ara reproduccions en esdeveniments en directe o temps d'emissió en retransmissions. Aquesta tesi s'ha dut a terme en el marc d'un doctorat industrial a BMAT, una empresa especialitzada en serveis de monitoratge i identificació musical, i explora els avenços en el camp de l'\emph{Audio Fingerprinting (AFP)}, una tecnologia clau per a la identificació musical que reconeix àudios mitjançant la comparació de signatures compactes extretes dels senyals d'àudio. Des del seu desenvolupament inicial als anys 2000, els sistemes AFP han evolucionat per afrontar reptes com la robustesa davant modificacions tempo-freqüencials, soroll i superposicions de veu. No obstant això, escenaris com la identificació de música de fons o els àudios amb estiraments temporals extrems continuen sent un desafiament per a aquests sistemes. Per abordar aquestes limitacions, aquesta tesi presenta primer un conjunt de dades autocontingut dissenyat específicament per al monitoratge de retransmissions, amb enregistraments de televisió amb alta prevalença de música de fons i pistes de música de producció com a referència. Altrament, també proposa un nou mètode base adaptat per a la identificació de música de fons que serveix com a sistema de referència. Per millorar el rendiment dels sistemes AFP, s'explora si les tecnologies existents poden ajudar. En aquest sentit, s'avalua un enfocament en dues fases que combina algoritmes de separació de fonts amb sistemes AFP. Aquest mètode mostra millores substancials en la identificació de música de fons, tot i que en alguns casos implica un cost computacional significatiu. Finalment, aquesta tesi presenta PeakNetFP, el primer sistema AFP híbrid que integra la simplicitat i escalabilitat dels pics espectrals amb les capacitats d'abstracció de les xarxes neuronals. PeakNetFP aconsegueix un rendiment comparable als models més avançats del moment, amb una mida 100 vegades menor, oferint una solució escalable i eficient per a tasques AFP, incloent-hi àudios amb distorsions temporals extremes. Tot i que la tesi s'ha desenvolupat en un entorn industrial, segueix els principis de la ciència oberta, amb tots els conjunts de dades, codi i avaluacions disponibles públicament. Aquesta tesi té com a objectiu fomentar la investigació futura en AFP, especialment en escenaris poc explorats, i contribuir al desenvolupament de sistemes AFP més robusts i versàtils.
Audio fingerprinting; Music identification; Self-supervised learning; Identificació de música; Aprenentatge auto-supervisat; Empremtes digitals d’àudio
62 - Engineering