pb425 Modern Speech Technology (Complete module description)

pb425 Modern Speech Technology (Complete module description)

Deutsch English PDF Download
Module label Modern Speech Technology
Modulkürzel pb425
Credit points 3.0 KP
Workload 90 h
(

Workload: 28 hours and 62 self study

)
Verwendbarkeit des Moduls
  • Fach-Bachelor Betriebswirtschaftslehre mit juristischem Schwerpunkt > Professionalisierungsbereich
  • Fach-Bachelor Biologie > Professionalisierungsbereich
  • Fach-Bachelor Chemie > Professionalisierungsbereich
  • Fach-Bachelor Comparative and European Law > Professionalisierungsbereich
  • Fach-Bachelor Engineering Physics > Professionalisierungsbereich
  • Fach-Bachelor Informatik > Professionalisierungsbereich
  • Fach-Bachelor Mathematik > Professionalisierungsbereich
  • Fach-Bachelor Nachhaltigkeitsökonomik > Professionalisierungsbereich
  • Fach-Bachelor Pädagogik > Professionalisierungsbereich
  • Fach-Bachelor Pädagogisches Handeln in der Migrationsgesellschaft > Professionalisierungsbereich
  • Fach-Bachelor Physik, Technik und Medizin > Professionalisierungsbereich
  • Fach-Bachelor Sozialwissenschaften > Professionalisierungsbereich
  • Fach-Bachelor Umweltwissenschaften > Professionalisierungsbereich
  • Fach-Bachelor Wirtschaftsinformatik > Professionalisierungsbereich
  • Fach-Bachelor Wirtschaftswissenschaften > Professionalisierungsbereich
  • Professionalisierungsbereich 2FB > Professionalisierungsbereich Zwei-Fächer-Bachelor außerschulisch
Zuständige Personen
  • Enzner, Gerald (module responsibility)
  • Enzner, Gerald (Prüfungsberechtigt)
  • Chinaev, Aleksej (Prüfungsberechtigt)
Prerequisites

Kenntnisse oder Erfahrungen in der Systemtheorie

Skills to be acquired in this module

Der Kurs vermittelt die ingenieurmäßigen Werkzeuge für die moderne Sprachsignalverarbeitung. Die vermittelten Grundlagen ergänzen die physiologischen Aspekte der Spracherzeugung und die psychoakustischen Aspekte der Sprachwahrnehmung aus der "Einführung in die Sprachverarbeitung" (pb185) um die technische Repräsentation von Sprache in Algorithmen, Hardware und Software. Dabei wird ein besonderes Augenmerk auf die Aufgabenstellung der Sprachsignalverbesserung in mehreren Facetten gelegt, wie etwa der Geräuschfilterung, Hallreduktion und Echokompensation. Die benötigten Werkzeuge der modernen Sprachverarbeitung werden hier elementar und intuitiv vermittelt. Die mathematischen Anforderungen sind moderat bis gering. Die Übungen werden von den Studierenden selbst oder im Team und ggfs. mit komponentenweiser Unterstützung durch die Lehrenden in Software oder an der Tafel implementiert. Die Studierenden gewinnen so einen Voreinblick in die wissenschaftliche Arbeitsweise bei studentischen Qualifikationsarbeiten, wie etwa der Bachelorarbeit, sowie in die ingenieurmäßige Arbeitsweise im industriellen Umfeld von Sprachverarbeitung.

Module contents

1. Technische Repräsentation von Sprachsignalen
- Bandbreite, Abtastrate, Abtastratenfehler, Digitale Auflösung
- Einkanal-, Mehrkanal-, Binauralsignale
-  Akustisches Sensornetzwerk
- Datenbanken für Sprache und Störung
- Raumsimulation mit Spiegelquellen-Methode

2. Aufgabenstellung der Sprachsignalverbesserung
- Organisationform wissenschaftlicher Signalverarbeitungswettbewerbe
- Problemstellungen mit Störsignal, Raumhall oder Interferenz
- Evaluationsmetriken: PESQ, STOI, SegSNR, POLQA, ViSQOL
- Modellbasierte Verarbeitungsweise: z.B. Wiener-Filter
- DNN-basierte Verarbeitungsweise: FNN, CNN, RNN, LSTM
 

3. Hardware- und Softwarewerkzeuge für die Sprachverarbeitung
- Entwicklungsumgebungen: Matlab, Python, TensorFlow
- Kommerzielle Lösungen und Analyse: z.B. Nvidia, Krisp
- Geräte für die Sprachsignalerfassung und Verarbeitung: PC, Handy, R-Pi, Hearing Aid
 

4. Sprachkommunikation
- Systeme zur Sprachkommunikation: Festnetz, Mobilfunk, Voice-over-IP, Telekonferenz
- Prinzipielle Funktion von Sprachcodecs: Quellen- und Kanal-Kodierung
- Aktuelle Entwicklungen für die Sprachübertragung: WebRTC, Speex, EVS
- Eigenschaften der Codecs: Abtastrate, Bitrate, Latenz, SNR, Komplexität im Vergleich
- Übertragungsverluste und ihre Kompensation: Statistische Modellierung und Verschleierung

Literaturempfehlungen
  • Vary, Martin: Digital Speech Transmission – Enhancement, Coding, and Error Concealment, Wiley 2006
Links
Language of instruction English
Duration (semesters) 1 Semester
Module frequency jährlich
Module capacity unrestricted
Modulart Ergänzung/Professionalisierung
Modullevel PB (Professionalisierungsbereich / Professionalization)
Lehr-/Lernform Slide projection, blackboard, and Matlab
Examination Prüfungszeiten Type of examination
Final exam of module
1 Klausur (30 - 60 Min.) oder
↵1 mündliche Prüfung (20 - 30 Min.) oder
↵1 Referat (20 -30 Min.)


↵ 
Lehrveranstaltungsform Lecture
SWS 2
Frequency SoSe
Workload Präsenzzeit 28 h
62 self study