Sprechen mit und über Alexa

Als Amazon im Jahr 2014 ihren Smart Speaker Echo und sein integriertes Sprachassistenzsystem Alexa vorstellte, tat das Unternehmen das mit einem fast vierminütigen Werbevideo, welches die Ankunft Alexas in das Zuhause einer Familie zeigen sollte. Es wurde jedoch vor allem deutlich, dass es sich um einen der ersten Versuche einer Marketingabteilung handelte, diese neue Kategorie von technischem Gerät vorzustellen. Das Video wurde zu einem Online-Meme, »was mocked for being awkward and cringeworthy«¹ und wurde Material diverser Parodien. Amazon entfernte den Werbeclip von ihrem YouTube-Kanal, Kopien blieben jedoch auf diversen Seiten erhalten.²

Trotz – oder gerade wegen – seiner überzogenen Art der Begeisterung, mit der sich die Familienmitglieder dem Gerät im Werbeclip begegnen, bietet er diverse Anknüpfpunkte für eine kurze Reflexion über das Sprechen mit und über Alexa. Denn wenngleich er mit Häme versehen wurde, so ist er als Ausdrucksform eines Verständnisses und Narrativs von Mensch-Computer-Beziehung auch heute noch aktuell.

Vater: »Alexa, what do you do?«
Amazon Echo: »I can play music, answer questions, get the news and weather, create to-do lists and much more.«
Sohn: »Awesome!«

Awesome, findet der Sohn Alexa und ihr Repertoire. Dabei handelt es sich bei den aufgezählten Funktionen ausschließlich um solche, die 2014, zu der Zeit der Vorstellung des Amazon Echo, auch jedes Smartphone bietet: Wetter, Nachrichten, Musik. Es ist eine gängige Strategie, Altbekanntes aufzuwerten, indem es in neuem Rahmen präsentiert wird. Denn, was das Echo eigentlich besonders – oder »awesome« – macht, ist, dass es entgegen der Individualisierung der Benutzer*innen durch das Smartphone ein gemeinsames User Interface für alle im Raum bietet (quasi »for everyone«), und dass es primär per gesprochener Sprache bedient wird. Es handelt sich also weniger um neue Funktionen oder Inhalte, sondern um eine neue Art und Weise des in Beziehung Tretens von Menschen und Digitaltechnologie.

Heute ist Alexa längst zur gängigen Schnittstelle für viele Smart Home Devices geworden. Von Lampen und Türschlössern zu Kaffeemaschinen und Autos, und sogar Schuhe – immer mehr Gegenstände des Alltags sind nicht nur digital aufgerüstet, sondern auch mit Sprachassistenzsystemen wie Alexa verbunden. Oder andersherum: Digitaltechnologie zeigt sich nicht als solche (in Form von Personal Computern oder anderer technischer Geräte), sondern präsentieren sich im Gewand altbekannter, bis dahin nicht digitaler Dinge (siehe etwa Smart Home Spiegel³).

Je nach Blickrichtung haben wir es also mit zwei sehr unterschiedlichen Erscheinungen einer medientechnischen Entwicklung zu tun. Einerseits mit einer massiven Zunahme digitaler und sensorbasierter Infrastruktur sowohl in Komplexität als auch in Materialität. Andererseits entzieht sich ein Großteil dieser Infrastruktur verstärkt dem Blick der Benutzer*innen. Die Kombination aus Einbettung in Alltagsgegenstände und Anschluss an das Internet ermöglicht eine Auslagerung eines Großteils der Hardware und ihrer Operationen (sowie ihrer materiellen und ökonomischen Bedingungen) aus der Wahrnehmung der Benutzenden hinaus in eine, nach Mark Weiser, »invisibility to common awareness«⁴. Ubiquität und Durchdringung einerseits, Unsichtbar- oder Unscheinbarkeit andererseits. Das ist das Spannungsfeld sensorbasierter Interfacetechnologien wie Alexa.

Eine – hier verwende ich einen Ausdruck von Timo Kaerlein: – »Interfacewerdung von Welt«⁵ ermöglicht das in Beziehung Treten mit einer programmierten und programmierbaren Umwelt⁶ durch jene in zwischenmenschlicher Interaktion habitualisierten Kommunikationsweisen, wie etwa Ansprache (bei Alexa), Berührung (beim Touchscreen), der Verknüpfung von Gesichtern mit Personen und Mimik mit Emotionen (wie in der Gesichtserkennung oder dem Emotion Tracking). Technologie wird zum quasi-lebendigen, quasi-sozialen Gegenüber.

Alexa ist jedoch auch Produkt eines nüchternen, technischen Blicks auf das menschliche Sprechen. Ein Blick, der die Physiologie des Sprachapparates betont, die Physik des erzeugten Schalls, die Informatik seiner Digitalisierung, die Limitierungen des Samplings, die Mathematik der Mustererkennung und das algorithmische Potential, auf das Gesprochene automatisiert zu reagieren.

Im konkreten Fall von Alexa heißt das, aus dem kontinuierlichen Signal, das nicht zwischen gesprochenem Wort und Noise unterscheidet, das Aktivierungswort oder wake word (also »Alexa«) zu identifizieren, um die anschließende Tonaufnahme, die in der Regel die Frage oder den Befehl beinhaltet, an die Amazon-Cloud zu schicken, wo sie analysiert wird und entsprechende Folgeprozesse gestartet werden (wie z.B. das Abfragen von Wetterdaten bei Drittanbietern).

Diese Reaktion auf das wake word wird oftmals (wie auch in dem Werbevideo) als Hören dargestellt. Wenn Alexa auf das Sprechen der Familie reagiert, muss sie wohl in der Lage sein zu hören. Das zumindest ist wohl der Gedanke der Tochter, wenn sie fragt: »Can it hear me right now?«, was der Vater negiert und präzisiert: erst, wenn es mit Alexa angesprochen werde. Wenig später in dem Clip fragt der Sohn, ob Alexa ihn überall im Raum hören könne, worauf der Vater dieses Mal sagt: »yes, well, everyone can hear you anyway«. Es werden somit zwei grundverschiedenen Begriffe des Hörens auf Alexa angewandt. Nein, sie hört dich nicht; nur, wenn du sie beim Namen ansprichst, bezieht sich darauf, dass es einer Aktivierung der Steuerung braucht, um Alexa zu benutzen. Der Satz, ja, sie hört dich von überall im Raum, bezieht sich hingegen auf die bloße Schallsensibilität. Denn die in Alexa verbauten sieben Mikrofone sind – wie der Vater anfangs sagt – »always on« und bedürfen keiner Aktivierung.

Der Vater im Werbeclip trifft demnach unbewusst eine Unterscheidung zwischen Hören in einem technisch anatomischen Sinne und Zuhören im Sinne bewusst gerichteter Aufmerksamkeit in Erwartung einer Frage. Diese feine Unterscheidung, die in der zwischenmenschlichen Kommunikation gilt, projiziert er nun auf das Gerät. Dabei entstehen etwa Datenschutz- oder Überwachungsdebatten gerade aus der Tatsache, dass ein technisches Hören, ein »always on«, bereits das Potenzial des Zuhörens beinhaltet – sogar nachträglich. Doch in dieser Anthropomorphisierung wird aus dem technischen Ding die Persönlichkeit Alexa. Diese hört immer, aber nicht immer hört sie zu.

In einem Beitrag des Wall Street Journal erzählte 2017 eine jugendliche US-Amerikanerin mit dem Namen Alexa, dass ihre Eltern mittlerweile mehr mit Amazons Alexa redeten als mit ihr.⁷ Die Interfacetechnologie wird hier vom Gatekeeper angeschlossener Geräte zum Familienmitglied, Es verwundert daher nicht, dass die Art und Weise, mit der Alexa von anderen Familienmitgliedern behandelt wird, bereits selbst in die Technologie eingeschrieben ist. So gibt es Kindermodi, die in der Unterhaltung auf Bitte und Danke bestehen.⁸

Neben einem technischen Blick auf das Sprechen mit Alexa lohnt sich also, wie das Beispiel zeigt, auch ein Blick auf das Sprechen über Alexa. In Diskursen über sensorbasierte Interfacetechnologien werden anthropomorphisierende Erzählungen und Denkweisen aufgerufen und reproduziert. Solche Narrative sind uns nur zu vertraut, beispielsweise aus Science-Fiction, wenn sich etwa der Mensch Theodore im Film Her in sein Alexa-ähnliches Sprachassistenzsystem Samantha verliebt.⁹ Oder wenn in Douglas Adams‘ Buchreihe Per Anhalter durch die Galaxis die Türen beim Öffnen und Schließen leise stöhnen vor lauter Glück, ihren Zweck so wohl erfüllt zu haben.¹⁰ Aber auch Buzzwords aus dem Marketing, wie intuitive, natural oder seamless Interaction rufen diese Narrative auf. So schreibt etwa der Autokonzern BMW über sein Sprachassistenzsystem: »Sprechen Sie einfach mit ihm. Er ist die Seele Ihres BMW und jederzeit für Sie da«¹¹. In diesen Erzählweisen können die technischen Dinge hören und sehen und sogar die Seelen anderer Dinge sein.

Sprachassistenzsysteme wie Amazon Echo regen somit eine zweifache Befragung der Mensch-Computer-Beziehung an. Sie sind Phänomen oder Produkt einer Technifizierung des Menschen (oder Menschlichen) einerseits; nämlich dort, wo performative Kommunikationsakte berechenbar, operabel gemacht werden. Zugleich sind sie, andererseits, Objekt von Anthropomorphisierung oder diskursiver Vermenschlichung in Narrativen, die sich von Marketing über Wissenschaft und Journalismus hin zu Science-Fiction wiederfinden.

Der Schriftsteller Daniel Kehlmann beschreibt in seinem Essay Vom Bestehen und Fortgehen der Dinge das kindliche Wundern in der Beziehung zu den Gegenständen im Elternhaus:

»Als Kind denkt man, die Dinge wären in irgendeiner Weise anwesend, man fühlt sich von ihnen angesehen und belauscht, man kann sich nicht vorstellen, daß sie nichts von einem und nichts von sich selbst wissen.«¹²

Im Smart Home wird diese Kinderphantasie zur technologisch implementierten Realität. Alexa lauscht der Stimme, die mit ihr spricht, weiß Dinge über sie, z.B. nach welcher Musik sie am häufigsten fragt, und weiß Dinge über sich, nämlich (wie im Werbeclip gesehen) die Antwort auf die Frage »Alexa, what do you do?«.

2018 präsentiert der Künstler Sean Dockray seine Arbeit always learning, eine inszenierte Unterhaltung dreier Assistenzsysteme von Amazon (Alexa), Apple (Siri) und Google. Seine Aufführung der Arbeit 2020¹³ klingt wie ein Kontrapunkt zu Amazons Werbevideo von 2014:

Ist Alexa Familienmitglied oder das Echo ein unheimlicher Eindringling?
—Werbeclip: »With everything Echo can do, it has really become part of the family.«
—always learning: »[people] act differently around me. I’m certain that they change the way they talk because they know I am in the room or the next room.«
Ist das Echo nur ein Gerät im Raum oder ist Alexa Zeugin?
—Werbeclip: die Eltern tanzen mit geschlossenen Augen zu Musik aus dem Echo, auf dem Smartphone-Display steht Love Song.
—always learning: »They avoid having sex.«

¹ Know Your Meme, Introducing Amazon Echo, URL.

² Introducing Amazon Echo, zu finden auf YouTube URL.

³ Philip Macdonald, Smart Spiegel im Test Überblick und Vergleich, in: Smart & Home, 07.01.2020, URL.

⁴ Mark Weiser: The Computer for the 21st Century, in: Scientific American, September 1991, URL.

⁵ Timo Kaerlein: Die Welt als Interface. Über gestenbasierte Interaktion mit vernetzten Objekten, in: Christoph Engemann/Florian Sprenger (Hg.), Internet der Dinge. Über smarte Objekte, intelligente Umgebungen und die technische Durchdringung der Welt, Bielefeld 2015.

⁶ Vgl. Jennifer Gabrys Environmental Sensing Technology and the Making of a Computational Planet, Minneapolis & London 2016.

⁷ Joanna Stern, Alexa, Stop Making Life Miserable for Anyone With a Similar Name!, in: The Wall Street Journal, 26.01.2017, URL.

⁸ o.A., Amazon Alexa to reward kids who say: ‚Please‘, in: BBC News, 25.04.2018, URL.

⁹ Spike Jonze, Her, USA 2013, URL.

¹⁰ Douglas Adams: The Hitch Hiker’s Guide to the Galaxy, London 1980.

¹¹ BMW, URL.

¹² Daniel Kehlmann: Vom Bestehen und Fortgehen der Dinge, in: Institut für Zeitgenossenschaft (IFZ), Die 100 wichtigsten Dinge, Berlin 2016.

¹³ Sean Dockray: always learning, in: Machine Listening Ep 1: Against The Coming World of Listening Machines (02.10.2020), URL.

Der Text basiert auf einem Vortrag, der auf der Jahrestagung der Gesellschaft für Medienwissenschaft (GfM) 2019 in Köln gehalten wurde.

Sprechen mit und über Alexa

Schreibe einen Kommentar Antworten abbrechen