pb425 - Modern Speech Technology (Vollständige Modulbeschreibung)

pb425 - Modern Speech Technology (Vollständige Modulbeschreibung)

Originalfassung Englisch PDF Download
Modulbezeichnung Modern Speech Technology
Modulkürzel pb425
Kreditpunkte 3.0 KP
Workload 90 h
(

Workload: 28 hours and 62 self study

)
Einrichtungsverzeichnis Institut für Physik
Verwendbarkeit des Moduls
  • Fach-Bachelor Betriebswirtschaftslehre mit juristischem Schwerpunkt (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Biologie (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Chemie (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Comparative and European Law (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Engineering Physics (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Informatik (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Mathematik (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Nachhaltigkeitsökonomik (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Pädagogik (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Pädagogisches Handeln in der Migrationsgesellschaft (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Physik, Technik und Medizin (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Sozialwissenschaften (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Umweltwissenschaften (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Wirtschaftsinformatik (Bachelor) > Professionalisierungsbereich
  • Fach-Bachelor Wirtschaftswissenschaften (Bachelor) > Professionalisierungsbereich
  • Professionalisierungsbereich 2FB (Bachelor) > Professionalisierungsbereich Zwei-Fächer-Bachelor außerschulisch
Zuständige Personen
  • Enzner, Gerald (Modulverantwortung)
  • Enzner, Gerald (Prüfungsberechtigt)
  • Chinaev, Aleksej (Prüfungsberechtigt)
Teilnahmevoraussetzungen

Kenntnisse oder Erfahrungen in der Systemtheorie

Kompetenzziele

Der Kurs vermittelt die ingenieurmäßigen Werkzeuge für die moderne Sprachsignalverarbeitung. Die vermittelten Grundlagen ergänzen die physiologischen Aspekte der Spracherzeugung und die psychoakustischen Aspekte der Sprachwahrnehmung aus der "Einführung in die Sprachverarbeitung" (pb185) um die technische Repräsentation von Sprache in Algorithmen, Hardware und Software. Dabei wird ein besonderes Augenmerk auf die Aufgabenstellung der Sprachsignalverbesserung in mehreren Facetten gelegt, wie etwa der Geräuschfilterung, Hallreduktion und Echokompensation. Die benötigten Werkzeuge der modernen Sprachverarbeitung werden hier elementar und intuitiv vermittelt. Die mathematischen Anforderungen sind moderat bis gering. Die Übungen werden von den Studierenden selbst oder im Team und ggfs. mit komponentenweiser Unterstützung durch die Lehrenden in Software oder an der Tafel implementiert. Die Studierenden gewinnen so einen Voreinblick in die wissenschaftliche Arbeitsweise bei studentischen Qualifikationsarbeiten, wie etwa der Bachelorarbeit, sowie in die ingenieurmäßige Arbeitsweise im industriellen Umfeld von Sprachverarbeitung.

Modulinhalte

1. Technische Repräsentation von Sprachsignalen
- Bandbreite, Abtastrate, Abtastratenfehler, Digitale Auflösung
- Einkanal-, Mehrkanal-, Binauralsignale
-  Akustisches Sensornetzwerk
- Datenbanken für Sprache und Störung
- Raumsimulation mit Spiegelquellen-Methode

2. Aufgabenstellung der Sprachsignalverbesserung
- Organisationform wissenschaftlicher Signalverarbeitungswettbewerbe
- Problemstellungen mit Störsignal, Raumhall oder Interferenz
- Evaluationsmetriken: PESQ, STOI, SegSNR, POLQA, ViSQOL
- Modellbasierte Verarbeitungsweise: z.B. Wiener-Filter
- DNN-basierte Verarbeitungsweise: FNN, CNN, RNN, LSTM
 

3. Hardware- und Softwarewerkzeuge für die Sprachverarbeitung
- Entwicklungsumgebungen: Matlab, Python, TensorFlow
- Kommerzielle Lösungen und Analyse: z.B. Nvidia, Krisp
- Geräte für die Sprachsignalerfassung und Verarbeitung: PC, Handy, R-Pi, Hearing Aid
 

4. Sprachkommunikation
- Systeme zur Sprachkommunikation: Festnetz, Mobilfunk, Voice-over-IP, Telekonferenz
- Prinzipielle Funktion von Sprachcodecs: Quellen- und Kanal-Kodierung
- Aktuelle Entwicklungen für die Sprachübertragung: WebRTC, Speex, EVS
- Eigenschaften der Codecs: Abtastrate, Bitrate, Latenz, SNR, Komplexität im Vergleich
- Übertragungsverluste und ihre Kompensation: Statistische Modellierung und Verschleierung

Literaturempfehlungen
  • Vary, Martin: Digital Speech Transmission – Enhancement, Coding, and Error Concealment, Wiley 2006
Links
Unterrichtssprache Englisch
Dauer in Semestern 1 Semester
Angebotsrhythmus Modul jährlich
Aufnahmekapazität Modul unbegrenzt
Modulart Ergänzung/Professionalisierung
Modullevel PB (Professionalisierungsbereich / Professionalization)
Lehr-/Lernform data projector presentation, Blackboard
Prüfung Prüfungszeiten Prüfungsform
Gesamtmodul
1 Klausur (30 - 60 Min.) oder
↵1 mündliche Prüfung (20 - 30 Min.) oder
↵1 Referat (20 -30 Min.)


↵ 
Lehrveranstaltungsform Vorlesung
SWS 2
Angebotsrhythmus SoSe
Workload Präsenzzeit 28 h
62 self study