zum Inhalt springen

Kulturelle Implikationen medial konstruierter Stimmen (Grimme-Forschungskolleg)

Ermöglicht durch das Grimme-Forschungskolleg

Laufzeit: Jan. bis Dez. 2020

Verantwortlich: Marcus Erbe (Musikwissenschaftliches Institut der UzK); Aycha Riffi und Wolfgang Zielinski (Grimme-Institut)

Hilfskräfte: Judith Kirberger, Katharina Makosch

Seit der Einführung stimmbasierter Navigationsgeräte um das Jahr 2000 ist es zunehmend selbstverständlich geworden, dass digitale Apparate sich anhand menschlich klingender Stimmen mitteilen. Zwar datieren die Anfänge der elektronischen Stimmsynthese in die späten 1930er-Jahre. Dennoch war es vor der allgemeinen Verfügbarkeit ‚sprechender‘ Navis, Computer und Smartphones hauptsächlich das Privileg phantastischer Filme, Hörspiele und Fernsehserien, den Mediennutzer*innen eine Vorstellung von der Beschaffenheit künstlicher Stimmen zu vermitteln. Doch so wenig medial konstruierte Stimmen in fiktionalen Kontexten neutral sein können, so wenig neutral präsentieren sich die Stimmen rezenter Applikationen und Betriebssysteme. Dies zeigt sich etwa in der aktuell geführten Debatte um den inhärenten Sexismus bei Sprachassistenten wie Siri, Cortana und Alexa. Indes mangelt es an Untersuchungen, die zugleich intersektionale, kulturübergreifende und medienpraktische Aspekte vokaler Designs berücksichtigen, und zwar nicht nur im Hinblick auf IT-Erzeugnisse, sondern die Medienproduktion ganz allgemein.

Ziel des Projekts ist daher die systematische Untersuchung medial zirkulierender Stimmentwürfe unter der leitenden Fragestellung, welche Sozialvorstellungen – z. B. von Angemessenheit, Autorität und Handlungsmacht – medial konstruierten Vokalitäten zugrunde liegen bzw. sich über diese mitteilen. Die gegenwärtige Präsenz digital generierter oder transformierter Stimmen ruft bisweilen Widersprüche hervor. Obwohl in Sprachassistenten, Navigationssystemen etc. alternative Stimmklangmodelle jenseits fixierter Normen zum Einsatz kommen könnten, scheint der Wunsch nach normativen Vokalitäten (so wird zumindest von u. a. Technologiekonzernen suggeriert) ungebrochen. Dieser Umstand wirft die Frage auf, inwieweit die stimmlich gebundene Mensch-Maschine-Kommunikation der Familiarität bedarf (z. B. durch Verlebendigungen technischer Geräte nach dem Muster von Amazon Alexa). Können digitale Fortschreibungen kultureller Normen aus Gründen der Vertrautheit Gewöhnungseffekte zeitigen, die andere Optionen aus dem Blick geraten lassen und daher Diversität einschränken? Noch immer sind die voreingestellten Stimmen in Service-Applikationen an den westlichen Märkten in der Regel weiblich codiert. Alternativmodelle wie die – wenigstens so deklarierte – genderlose Stimme mit der Bezeichnung Q sind bislang weniger bekannt. Wie sich die Situation in Gesellschaften des globalen Südens darstellt, soll ebenfalls im Rahmen des Projektes eruiert werden, um das Wechselspiel von medialer Tradierung und Prägung auch außerhalb westlicher Zusammenhänge verstehen zu lernen.

Mit dem Projekt sollen zudem die Möglichkeiten und Auswirkungen der Stimmtransformation und der Artifizialisierung individueller Stimmen in Snapchat und vergleichbaren Apps, aber bspw. auch zur Kommunikation in Online-Games untersucht werden. In Analogie zur optischen Veränderung von Avataren mit virtuellen Verkleidungen werden hier sog. Voice Skins offeriert. Durch instantane Veränderungen der persönlichen Stimme andere Identitäten annehmen zu können, passt freilich in die Welt der anonymisierten Online-Kommunikation, widerspricht jedoch grundlegend der Idee von der stimmlichen Individualität und Unverwechselbarkeit einer sich artikulierenden Person, wie sie die Diskurse der kulturwissenschaftlichen Stimmforschung bislang geprägt hat. Somit vermag die Beschäftigung mit Stimmpraktiken im digitalen Zeitalter auch eine Revision entsprechender theoretischer Erwägungen einzuleiten.

Bei der Erforschung des Feldes medial konstruierter Vokalitäten sollen ergänzend zu den aktuellen Erscheinungen medienhistorische Zusammenhänge berücksichtigt werden: Wann und wie kam es erstmals zur Vermenschlichung künstlicher Stimmen und zur Vermischung beider vokaler Sphären? Wie stellt sich die stimmliche Konstruktion sozialer, ethnischer und geschlechtsbezogener Rollenbilder in Film, Fernsehen, Hörspiel und Videospiel früher im Vergleich zu heute dar? In diesem Kontext sollen auch Praktiken wie die Synchronisierung von Filmen und die Lokalisation von Videospielen hinsichtlich einer Übertragbarkeit kultureller Eigenheiten und des Zusammenwirkens von Stimmklang und gesprochener Sprache genauer betrachtet werden.