»textklang«: demo · Synthesis

Synthesis

Hypothesen über Zusammenhänge zwischen Text und lautsprachlischer Realisierung wollen wir in Perzeptionsexperimenten untersuchen.

Zu diesem Zweck arbeiten wir an Methoden, um die auf neuronalen Netzen basierende Sprachsynthese an unsere spezifischen Bedürfnisse anzupassen. Wir streben ein Synthesemodell an, das eine exakte Replikation der Originalaufnahmen ermöglicht und darüber hinaus die Manipulation feinphonetischer Details erlaubt, so dass Hypothesen in Wahrnehmungsexperimenten systematisch getestet werden können.

Unser Synthesemodell basiert auf der Modellarchitektur von FastSpeech 2 (Ren et al., 2021) die eine hohe Kontrollierbarkeit bietet. Wir implementieren unser System mit dem IMS Toucan Speech Synthesis Toolkit (Lux, F., 2022).

Sehen Sie unten Beispiele resynthetisierter Gedichte im Vergleich mit dem Original. Das Modell ist auf den Sprecher Hanns Zischler trainiert und generiert die Rezitation aus der Textvorlage. Prosodische Werte (Tonhöhe, Lautdauer und Energie) werden vom Original geklont.

Im letzten Beispiel wurden nach dem Prosodieklonen phonetische Details manipuliert: Segmente am Versende wurden gelängt und die Tonhöhe am Beginn des nächsten Verses nach oben gesetzt. Damit soll eine stärkere Betonung des Versendes simuliert werden.

Hier finden Sie weitere Demos zur Sprachsynthese in der Gedichtforschung und hier eine interaktive Demo bei der Prosodiewerte manuell verändert werden können.