NACH OBEN

Maschinelles Lernen und Signalverarbeitung in der Sprachkommunikation


Beim Telefonieren im Fahrzeug oder in der Bahn, bei der Verwendung eines digitalen Assistenten im Wohnzimmer oder bei Nutzung eines Hörgeräts – fast immer sind die dabei aufgenommenen Sprachsignale durch Umgebungsgeräusche gestört. Das Ziel der Sprachsignalverbesserung (engl. „speech enhancement“) besteht darin, diese Geräusche und andere aufnahmebedingte Verzerrungen zu reduzieren, so dass die Signale in besserer Qualität und mit besserer Verständlichkeit dargeboten werden können.

Die Algorithmen der Sprachsignalverbesserung beruhen oft auf statistischen Schätzverfahren. Das Zielsignal und die Störungen werden dabei mit statistischen Verteilungen modelliert. Es wird dann eine Kostenfunktion festgelegt und diese wird entweder durch analytische Rechnung oder mit numerischen Verfahren optimiert. In neuerer Zeit kommen dabei auch tiefe neuronal Netze („Deep Neural Networks – DNNs“) zum Einsatz. Zur Gewährleistung der Sprachkommunikation in Echtzeit ist es zudem wichtig, dass die Algorithmen keine große Verzögerung zwischen dem gestörten Eingangssignal und dem verarbeiteten Ausgangssignal einfügen. Die Algorithmen müssen daher auch unter Verwendung sehr kurzer Segmentlängen (z.B. 20 ms) gute Ergebnisse liefern („online Verarbeitung“).

Sprachverbesserung ist seit mehreren Jahrzehnten eines unserer Forschungsthemen. Es gibt viele Anwendungen wie mobile Sprachkommunikation, Hörgeräte und Mensch-Maschine-Schnittstellen - und es gibt viele Methoden. Wir konzentrieren uns auf die Geräuschreduzierung mit dem Ziel, den Hörkomfort und die Ermüdung des Hörers zu verbessern und die Verständlichkeit des akustischen Signals zu erhöhen. Wir setzen Methoden ein, die sowohl auf Einzelmikrofonsignalen als auch auf Mehrmikrofonsignalen (Mikrofonarrays und Beamforming) basieren. Die Entwicklung von Methoden zur Sprachverbesserung erfordert eine Mischung aus physikalischer Modellierung, statistischen Signalverarbeitungstechniken und Deep Learning. Die meisten unserer Verbesserungsmethoden arbeiten im Spektralbereich. In der Regel wird das verrauschte Sprachsignal in kurze Frames segmentiert, transformiert, verbessert, invers transformiert und überlappend addiert, um das verbesserte Signal zu rekonstruieren. Die Vorteile der spektralen Verarbeitung sind eine Konzentration der Sprachenergie in wenigen Spektralparametern (insbesondere bei stimmhafter Sprache), eine einfachere statistische Beschreibung im Vergleich zum Zeitbereich und möglicherweise eine Anwendung psychoakustischer Prinzipien.