Tone2 - true high-end quality audio software. Tone2 synthesizers are the cutting edge in what is possible in today´s contemporary music making.

Similarity Search auf Audio Daten (PDF file)

Similarity search on audio data

Aufgabensteller: Prof. Hans-Peter Kriegel
Bearbeiter: Markus Feil (www.tone2.com)


Gliederung


Motivation
Beat-Histogramm (FFT, Autokorrelation, RFNMA)
Pitch Analyse (verbesserte Autokorrelation, RFNMA)
Neue Erkenntnisse
Ausblick



Anwendungsbeispiele:

Ähnlichkeitssuche in Musikstücken
Automatisierte Klassifizierzung nach Genres
Bestimmung von Doubletten
Wer klaut von wem die Melodie/Samples?
Konvertierung von Audiodaten zurück in Noten
Extraktion von Highlevel-Features – semantische Bedeutung?

Beat-Histogramm


Algorithmus:

Schritt 1: FFT Transformation

Parameter:
Fenstergröße = 2048 Samples
Kaiser Fenster mit beta 5
50% overlap


Beat-Histogramm


Schritt 2: Logarithmieren des Spektrums

Sinn: Gleichverteilung von Energie pro Oktave

Parameter:
12 Halbtöne pro Oktave
20x oversampling


Beat-Histogramm

Logarithmiertes FFT Spektrum


Beat-Histogramm

Schritt 3: Autokorrelation des Bildes

Sinn: Verschiebungen, die ähnliche Bildbereiche erfassen resultieren in einem Maximum

Problem: Maxima auch bei Halbe/Drittel/Viertel Geschwindigkeit
Beat-Histogramm


Schritt 4: Extraktion der lokalen Maxima

Verfahrensweise: 2. Ableitung oder FIR Hochpass 3. Ordnung über Funktion bilden


Beat-Histogramm

Schritt 5: Revers-Filterung von n-fach Maximas der Autokorrelationsfunktion (RFNMA)

Kreuzkorrelation (Faltung) mit Kammfunktion


Beat-Histogramm


Beat-Histogramm

Ergebnisse:

Das logarithmierte FFT Spektrum bringt gegenüber einer FIR Filterbank (CQT) etwa 90% Performance Vorteil, jedoch um 10% schlechtere Datenqualität.

Erkenntnisse:

Durch die RFNMA konnte das Problem der mehrfach Maxima bei der Autokorrelation gelöst werden!

Pitch-Analyse

Ton = Grunton + Obertöne
Akkord = mehrere Töne, die ein harmonisches Frequenzverhältnis haben

Probleme: Phasenauslöschungen, Obertöne, Schwebungen, Geräusche (z.B. Rhythmus Instrumente)

Ziel der Pitch-Analyse ist es, einen als Sample Daten vorgegebenen Audio-Stream in seine ursprünglichen Noten zurückzurechnen. 


Pitch-Analyse

Methode 1 (FFT):

FFT (Fenstergröße 2048, Kaiser beta 5, 50% overlap)
Logarithmieren der FFT (12 Halbtöne pro Oktave)
Obertonkamm auf Bildfunktion

Pitch-Analyse

Probleme:

Zunehmende Unschärfe bei niederen Frequenzen
Phasen/Datenverlust durch FFT Methodik „power = sqrt(re² + im²)“

Aufgrund des ernüchtenden Ergebnisses wurde die FFT Methodik für die Pitch Analyse verworfen.


Pitch-Analyse


Tonleiter mit Sägezahnschwingung mit klassischer Autokorrelationsfunktion

Pitch-Analyse

Verbesserung:
Anwendung einer Fensterfunktion
Tonleiter mit Sägezahnschwingung mit gefensterter Autokorrelationsfunktion (Kaiser beta 5, 4 Zyklen)

Pitch-Analyse

Verbesserung 2:
Offsetkorrekur und vorgeschaltetes Hochpassfilter
Tonleiter mit Sägezahnschwingung mit gefensterter Autokorrelationsfunktion (Kaiser beta 5, 8 Zyklen), Offsetkorrektur und Hochpass (6dB, Cutoff 0.1)

Pitch-Analyse

Verbesserung 3:

Revers-Filterung von n-fach Maximas der Autokorrelationsfunktion (RFNMA) = Kreuzkorrelation (Faltung) mit Kammfunktion

Pitch-Analyse


Vergleich (Sägezahn Tonleiter):

Autokorrelation
RFNMA
Pitch-Analyse

Vergleich (The Power of Love - Huey Lewis & The News)

Autokorrelation

RFNMA

Pitch-Analyse


Ergebnisse:

Die oben vergestellte Methodik der Pitch-Analyse macht es möglich Wahrscheinlichkeiten für einzelne Noten zu gegebenen Zeitpunkten in einem Musikstück zu bestimmen.
Der Algorithmus ist robust für Schwebungen, Phasenauslöschungen, Akkorde und Gesang. 


Erkenntnisse


Durch Anwendung eines Hochpassfilters (erste Ableitung?) vor der Berechnung der Autokorrelation kann das Ergebnis erheblich verbessert werden.

Durch die Anwendung einer Fensterfunktion und einer Faltung, die sich über mehrere Wellenzyklen (2x,4x,8x) erstreckt, kann das Ergebnis der Autokorrelation zusätzlich deutlich verbessert werden.


Erkenntnisse


Durch die Anwendung einer Kreuzkorrelation mit Kammfunktion auf das Ergebnis der Autokorrelation kann das Problem der mehrfach Maxima gelöst werden (RFNMA).

Mithilfe der neu entwickelten RFNMA Transformation (o(n) = n³) lassen sich die Wahrscheinlichkeiten der Grundfrequenzen beliebiger komplexer Wellenformen aus 1-dimensionalen Datenstreams bestimmen.


Ausblick


Detailierte Ausarbeitung und Evaluation der RFNMA
Resynthese der Pitch Anayse
QFIRB (Quadraturische FIR Filterbank) als Alternative zu FFT, CQT und Autokorrelation