Die weite Verbreitung von tragbaren smarten Geräten in Verbindung mit dem Entstehen des Internets der Dinge (IoT) hat zu einer großen Verbreitung von Sensoren geführt. Das Vorhandensein dieser Sensoren in alltäglichen Situationen sowie die drahtlose Konnektivität und die immer leistungsfähigeren Algorithmen für maschinelles Lernen stellen ein offensichtliches Risiko für die Privatsphäre dar. Diese Überlegungen sind vor allem für Mikrofone relevant, die in einem akustischen Sensornetzwerk (ASN) verbunden sind, zum Beispiel in einer Smart-Home-Umgebung.
Die folgende Abbildung zeigt beispielhaft Datenschutzrisiken in ASNs, die ein verteiltes Verarbeitungsszenario beinhalten. In diesem Fall werden die von den ASN-Knoten für die Geräuschklassifizierung extrahierten Audiomerkmale für die Merkmalsfusion und Klassifizierung an ein cloud-basiertes Zentrum übertragen. Gleichzeitig werden sie von einem Angreifer abgefangen und für eine in die Privatsphäre eingreifende Aufgabe wie die Sprechererkennung verwendet.
Illustration of privacy risks encountered in ASN scenarios that include distributed Processing. This figure is under the copyright of IEEE © in [1].
Um die mit ASN verbundenen Risiken für die Privatsphäre zu mindern und die „privacy-by-design“-Vorschriften der EU GDPR einzuhalten, schlagen wir die Verwendung von datenschutzfreundlichen Merkmalsextraktionsverfahren vor. In diesem Fall unterstützen die extrahierten und übermittelten Merkmale bestimmte gewünschte ASN-Aufgaben, können aber nicht für andere Zwecke verwendet werden. Diese Verfahren erfordern ein Gleichgewicht zwischen dem Nutzen der Merkmale und dem Schutz der Privatsphäre.
Privatsphäre-erhaltende Audiomerkmale
Am Institut für Kommunikationsakustik haben wir Privatsphäre-erhaltende Audiomerkmale entwickelt, die darauf abzielen, den Kompromiss zwischen Merkmalsnutzen und Datenschutz zu verbessern. Ein solches Merkmalsextraktionsschema basiert auf der Informationsminimierung, bei der tiefe neuronale Netzwerkmodelle (DNN) in Verbindung mit einem auf gegenseitiger Information basierenden Regularisierungskriterium eingesetzt werden, um eine hochwertige Merkmalsrepräsentation zu erzeugen, die für vertrauenswürdige Aufgaben geeignet ist, aber für datenschutzfeindliche Zwecke nicht ausreicht [1], [2].
Die nachstehende Abbildung veranschaulicht dies, wobei die blaue Linie die Leistung eines Systems zur Überwachung häuslicher Aktivitäten in einer Smart-Home-Umgebung und die rote Linie die Leistung eines Angriffs zur Identifizierung eines Sprechers anzeigt. Der Budgetskalierungsfaktor 𝛽 wird verwendet, um die auf gegenseitigen Informationen basierende Regularisierung zu steuern und damit den Kompromiss zwischen Privatsphäre und Nutzen zu optimieren. Wir können beobachten, dass für den mittleren Bereich der Werte 𝛽 die Risiken der Sprecheridentifizierung deutlich reduziert werden, mit minimalen Auswirkungen auf das vertrauenswürdige Monitoring der Smart-Home-Funktionen.
Privatsphäre-erhaltende Wake-Word-Verification
Viele IoT-Anwendungen, die auf ASNs basieren, beinhalten eine Sprachsteuerung durch automatische Spracherkennung (ASR). Diese wird in der Regel auf einem Server ausgeführt und durch eine lokale Wake Word Detection (WWD) aktiviert. Eine zusätzliche gängige Praxis ist die Wake-Word-Verification (WWV), bei der Daten zu einem Server gestreamt werden, um eine bessere WWD-Entscheidung zu treffen. Wie in der nachstehenden Abbildung dargestellt, birgt WWV inhärente Risiken für den Datenschutz, z. B. das Abhören, bei dem ein Angreifer die übertragenen Daten abfangen und ASR durchführen könnte.
Privacy risks of wake word verification. This figure is under the copyright of ISCA © in [3].
Hier begegnen wir diesen Risiken für die Privatsphäre, indem wir adversariales Training in Verbindung mit Dimensionalitätsreduktion einsetzen, um eine Merkmalsdarstellung zu entwickeln, die ASR-basierte Risiken für die Privatsphäre minimiert und gleichzeitig eine starke WWV-Leistung beibehält. Dies wird in den folgenden Abbildungen dargestellt, in denen die Wortfehlerrate (WER) des Angreifers allmählich ansteigt, wenn wir die Anzahl der gegnerischen Trainingswiederholungen erhöhen und die Dimensionalität der Merkmale verringern. Gleichzeitig bleibt die entsprechende WWV-Leistung erhalten.
Privacy-preserving wake word verification. These figures are under the copyright of ISCA © in [3].
Clustering von Sensorknoten unter Wahrung der Privatsphäre
In ASNs bietet das Clustering von akustischen Sensoren in Gruppen, die von einer bestimmten akustischen Quelle dominiert werden, viele Vorteile für Anwendungen wie Signalverbesserung, Ereigniserkennung, Quellenlokalisierung usw. Unter Berücksichtigung moderner Datenschutzanforderungen und unter Ausnutzung der Rechenkapazitäten von ASN-Knoten schlagen wir unüberwachtes geclustertes föderiertes Lernen vor, um ASN-Knoten um dominante Schallquellen herum zu clustern [4], [5].
Dies besteht darin, einen leichtgewichtigen Autoencoder auf der Ebene der ASN-Knoten laufen zu lassen und nur die von jedem Knoten generierten DNN-Gewichtsaktualisierungen zu übertragen, um die Cluster zu bestimmen. In diesem Fall wird die Übertragung von signalbezogenen Merkmalen in das Netz vermieden.
Ein Beispiel für das Clustering in einem Smart Home, in dem vier Sprachquellen gleichzeitig aktiv sind, ist in der folgenden Abbildung dargestellt. Die Farbintensität stellt den Wert der Clusterzugehörigkeit eines Knotens dar. Es ist zu beobachten, dass unsere Methode auch in Räumen, in denen keine aktiven Quellen vorhanden sind (z. B. Flur, Toilette), Cluster korrekt identifizieren kann.
Referenzen
[1] A. Nelus and R. Martin, “Privacy-preserving audio classification using variational information feature extraction,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2864–2877, 2021
[2] A. Nelus, J. Ebbers, R. Haeb-Umbach, and R. Martin (2019), “Privacy-Preserving Variational Information Feature Extraction for Domestic Activity Monitoring versus Speaker Identification,” in Proc. Interspeech 2019, 2019, pp. 3710–3714
[3] T. Koppelmann, A. Nelus, L. Schönherr, D. Kolossa, and R. Martin (2021), “Privacy- Preserving Feature Extraction for Cloud-Based Wake Word Verification,” in Proc. Interspeech 2021, 2021, pp. 876–880
[4] A. Nelus, R. Glitza, and R. Martin (2021), “Unsupervised clustered federated learning in complex multi-source acoustic environments,” in 29th European Signal Processing Conference, EUSIPCO 2021. IEEE, 2021
[5] A. Nelus, R. Glitza, and R. Martin (2021), “Estimation of microphone clusters in acoustic sensor networks using unsupervised federated learning,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2021, Toronto, ON, Canada, June 6-11, 2021. IEEE, 2021, pp. 761–765
[6] A. Nelus and R. Martin (2019), “Privacy-aware feature extraction for gender discrimination versus speaker identification,” in IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2019, Brighton, United Kingdom, May 12-17, 2019. IEEE, 2019, pp. 671–674
[7] A. Nelus and R. Martin (2018), “Gender Discrimination Versus Speaker Identification Through Privacy-Aware Adversarial Feature Extraction,” in Speech Communication; 13th ITG-Symposium, Oct 2018, pp. 1–5
[8] A. Nelus, S. Gergen, J. Taghia, and R. Martin (2016), “Towards opaque audio features for privacy in acoustic sensor networks,” in Speech Communication; 12. ITG Symposium; Proceedings of. VDE, 2016, pp. 1–5