Health Skill-Labs BMBF LABORATORIUM

Sprachverarbeitung

Recherche, Tests und Beispiele

Jacob Mellin

Übersicht

  1. Raumklang-Entfernung
  2. Hall-Entfernung
  3. Plug-In Chains
  4. Trennung der Sprecher bei überlappenden Sprachanteilen
  5. Plug-In Chains mit Sprecherseparation

Beispieldateien in der Cloud

Mögliche Software für Post-Processing

I. Hallentfernung (Plug-Ins)

Acon Deverberate 3

Lavalier-Mikrofone

Beispiel

Einschätzung

  • Gute Qualität, aber Artefakte durch Spilling bei Summe (besonders bei Patientin) --> Evtl. Verbesserung durch Sprecherseparation

I. Hallentfernung (Plug-Ins)

iZotope RX9 De-reverb

Lavalier-Mikrofone

Beispiel

Einschätzung

  • Mehr hörbare Processing-Artefakte als Acon, aber weniger Spill-Auswirkung (bei Summe)

II. Störgeräuschminderung (Plug-Ins)

Waves Clarity Vx

Lavalier-Mikrofone

Beispiel

II. Störgeräuschminderung (Plug-Ins)

iZotope RX9 Voice Denoise

Lavalier-Mikrofone

Beispiel

II. Plug-In Chains

Waves Clarity Vx + Acon Deverberate

Lavalier-Mikrofone

Beispiel

II. Plug-In Chains

RX9 Voice-Denoise + Acon Deverberate + EQ

Lavalier-Mikrofone

Beispiel

III. Trennung der Sprecher

Automatisches Stummschalten des anderen Sprechers

  • Gate eignet sich nur bedingt, da viel Spill
  • Ansatz: Über einen Zeitraum gemittelter Vergleich der Signalamplitude und Fade zum Maximalsignal

Beispiel

Todo

Einschätzung

  • Evtl. Probleme bei mehr als zwei Sprechern

III. Trennung der Sprecher

iZotope De-Bleed

Beispiel

Todo

Einschätzung

  • Nicht in Echtzeit möglich
  • Nicht automatisierbar

III. Trennung der Sprecher

KI-basiert: ESPNet

Beispiel

Todo

Einschätzung

  • Evtl. Probleme bei mehr als zwei Sprechern
  • Ggf. nicht in hoher Qualität möglich --> Reicht niedrige Qualität für KI?
  • Ggf. nicht in Echtzeit möglich

III. Trennung der Sprecher

KI-basiert: SVoice

Beispiel

Todo

Einschätzung

  • Beliebiger Sprecheranteil möglich
  • Ggf. nicht in hoher Qualität möglich --> Reicht niedrige Qualität für KI?
  • Ggf. nicht in Echtzeit möglich