Multi Stem HQ – Neues KI-Modell

Multi Stem HQ basiert auf der fortschrittlichen Band-Split-Architektur. Im Gegensatz zu herkömmlichen Modellen, die das gesamte Spektrogramm als ein einziges Bild verarbeiten, unterteilt diese Technologie den Ton in mehrere Frequenzbänder.

Dadurch kann das Modell unterschiedliche Merkmale für jeden Frequenzbereich lernen und so die tiefe Resonanz des Basses unabhängig von den komplexen Obertönen der Stimme erfassen. Das Ergebnis ist eine drastische Reduzierung von Spektralleckagen und Artefakten.

Darüber hinaus integriert die Architektur Rotary Position Embeddings (RoPE). Diese mathematische Innovation ermöglicht es dem Transformator, die relative Position von Audio-Features über die Zeit hinweg effektiver zu verstehen als herkömmliche absolute Positions-Embeddings. Dadurch kann das Modell die Kohärenz über längere Musikphrasen hinweg aufrechterhalten und sicherstellen, dass transiente Klänge wie Schlagzeugschläge scharf und anhaltende Töne gleichmäßig wiedergegeben werden.

Modell	Bass	Schlagzeug	Inst	Gesang
Mehrfachstamm-Hauptquartier	10.52 ★	13.19 ★	19.01 ★	12.22 ★
Gesang HQ	-	-	18.21	11.53
Hybrid	8.98	10.51	14.36	8.75

Vorstellung Multi Stem Hauptsitz

Die Kraft des Band-Split

Benchmark-Ergebnisse

Sind Sie bereit, den Unterschied zu hören?

VocalRemover verwendet Cookies!