User Experience mit Sprachassistenten – alexa, google, siri und co.

Nicht zu viel Erwarten! Die User Experience mit Sprachassistenten

Titelbild User Experience mit Sprachassistenten
Sprachassistenten sind „in“. Aber wird Voice First irgendwann das neue Mobile First? Dafür lässt die User Experience mit Sprachassistenten (noch) zu wünschen übrig.

Die User Experience von intelligenten Sprachassistenten. Erwarten wir zu viel?

Jetzt sind sie da – und sie wollen nur unser Bestes. Sie heißen Cortana, Siri, Alexa und Lucida, manche auch nur einfallsreich „Google-“ oder „Blackberry Assistent“. Die Rede ist von intelligenten persönlichen Assistenten: Virtual Assistents, Chatbots oder auf Deutsch Sprachassistenten.

Sie bilden einen der aktuellsten Paradigmenwechsel in der Interaktion zwischen Mensch und Maschine ab. Anfänge für Sprachsteuerung kennen wir aus dem Auto, von Warteschleifen und dem PC. Aber eigentlich kommt die Idee bereits aus dem Jahr 1966 und auch in Star Trek kannten wir sie schon als – als Science Fiction.

Heute wandern Sprachassistenten in unsere persönlichen Lebensbereiche. Vom Smartphone in das Smart Home, in die Finanzbranche und ins Shopping. Moderne Spracherkennung und künstliche Intelligenz machen es möglich und Menschen sollen nun „ganz normal“ mit ihrer Technologie sprechen, ihr Anweisungen geben oder sie um Rat fragen.

Wie einst Captain Picard.

 

Wie smart sind die Sprachassistenten wirklich?

Für Unternehmen eine tolle Sache…

Für Unternehmen  sind Sprachassistenten eine tolle Sache. Durch Chatbots fallen weniger Personalkosten im Kundenservice an, man kann sie in der Werbung als schickes Feature präsentieren und schafft für Kunden eine neue Interaktionsmöglichkeit mit Produkten. Auch haben wir dabei heute einen höheren Anspruch an künstliche Intelligenz als noch zu den Zeiten, in denen Star Trek ausgestrahlt wurde.  Jean-Lucs Teebestellung wirkt gegen unsere heutigen Ambitionen fast amüsant.

… aber für den Kunden zu langsam?

Dennoch haben wir in unseren Erfahrungen mit Sprachassistenten bisher immer wieder festgestellt, dass die Systeme selte eine wirkliche Erleichterung bieten. Zwar erfordern persönliche Anliegen von Kunden beispielsweise in einer Warteschleife zwar unternehmensseitig weniger Mannstunden – aber für den Kunden selbst fühlt sich deren Nutzung selten schnell und komfortabel an. Zudem sind die Systeme für ihn nicht transparent.

 

Erkennen heisst nicht verstehen

Zwar hat in den vergangenen Jahren die Spracherkennung riesige Schritte nach vorne gemacht; aber dennoch bleiben viele Herausforderungen bestehen.

Die Interaktion mit vielen Systemen erfolgt bisher noch schrittweise, entlang einer durch das System definierten Hierarchie. Zwar können die Systeme inzwischen die Wörter, die wir benutzen, gut erkennen. Doch verstehen können sie praktisch noch nichts. Und damit wird ihre intuitive Nutzung so gut wie unmöglich.

 

Beispiel: Amazons Alexa

Amazon Alexa ist die derzeit am schnellsten wachsende Sprachassistentin. Wahrscheinlich wird hier Amazons Mut belohnt, mit dem Echo ein Endgerät entwickelt zu haben, das im Gegensatz zu seinen Pendants von Google oder Apple keinen eigenen Screen hat. Nutzer sind also wortwörtlich dazu gezwungen, das Produkt per Spracheingabe zu bedienen.

Alexa verfügt bereits über mehr als 20.000 sogenannte „Skills“, also Sprachbefehle, mit denen Kunden eine Interaktion auslösen können. Und dennoch liegt gerade hier das Problem: Durch die festgelegen Interaktionsmöglichkeiten wird es praktisch unmöglich, ganz beiläufig mit Alexa zu kommunizieren, wie man es mit einem Menschen tun würde. Aber gleichzeitig möchte auch niemand eine Suche nutzen müssen, um die richtigen Befehle herauszufinden, oder – noch besser – sich von Alexa Listen mit möglichen Optionen vorlesen lassen.

 

Praktisch, aber nur für festgelegte Nutzungsmöglichkeiten

Trotz dieser Einschränkung funktioniert die Sprachsteuerung als solche erst einmal gut. Und Alexas Interfacelandschaft lässt sich hervorragend erweitern. Amazon löst das Problem der vielen Befehle derzeit so, dass Kunden ganz oldschool auf einer Webseite nach für sie passenden Funktionen suchen und diese dann installieren können. Alexa kann dann auch nur die so installierten Skills ausführen. Diese reichen von sinnvollen Smart Home-Anwendungen oder der Abfrage des Wetterberichts, bis zu weniger ernstgemeinten „Selbstzerstörungsmechanismen“.  Wenn Sie sich hier an Smartphone Apps erinnert fühlen, sind Sie damit nicht alleine.

Und bei solchen Routinen wirkt eine Sprachsteuerung gegenüber Touchscreens durchaus überlegen. Eine passende Zugverbindung zu suchen, am besten mit anschließender Buchung, dürften hingegen hingegen nur wenige Kunden aushalten.

Bild: Google Assistant

Die User Experience mit Sprachassistenten kann und muss verbessert werden!

Wie eine Shopseite, eine Hotline oder der Screen auf einem Smartphone sind Sprachassistenten einer von vielen Touchpoints, die ein Kunde mit einem Unternehmen hat. Und, wenn Unternehmen nun möchten, dass Alexa und Cortana nicht nur auf ihrer Seite „smart“ aussehen, sondern auch in den Augen der Kunden, müssen sie dafür Sorgen, dass sich die Chatbots komfortabel in eine Customer Journey einschmiegen.

Heißt: Niemand möchte sich mit seinem Assistenten streiten. Genervt aufgeben, weil er den richtigen Befehl oder die richtigen Worte nicht findet. Von der Funktionalität frustriert werden. In diesem Sinne unterscheidet sich die User Experience mit Sprachassistenten nicht wesentlich von audiovisuellen Interaktionsmedien. Nur das Interface ist ein anderes, nämlich ein Sprachinterface. Sprache ist ein farbenfrohes Interaktionsmedium, das einerseits Emotionen, Witz und Kreativität transportiert, andererseits auch durch den Nutzer bedingte Fallstricke wie Konzentrationsschwächen oder Lücken im Vokabular aufweist.

 

Frühe Prototypen helfen

Einen einfachen Test kann man mit der sogenannten Wizard of Oz-Methode machen. Diese basiert auf einer einfachen Täuschung: Die Aufgabe des Sprachassistenten wird dabei einfach von einer realen Person übernommen. Damit ist sie extrem effizient und gleichzeitig günstig.

Die Methode hilft,

  • den wichtigsten Fehlern auf die Spur zu kommen und sie zu vermeiden.
  • die wichtigsten Intents der Nutzer zu prüfen. (Also die Aktionen, die Nutzer ausführen möchten.) Dabei können Sie auch mit Variablen arbeiten und erhalten wertvolle Informationen darüber, wie genau Nutzer ihre Anliegen formulieren.

Weil Sprache sehr gut Emotionen transportieren kann (Ausdruck, Betonung) bietet solch ein einfacher Test einen enormen Vorteil. Wenn ein Skill diese Prüfungen besteht, kann man immer noch während der Konzeptphase Simulationstools verwenden um auch die Logik zu entwickeln.

 

Kundenerlebnis zählt auch hier

Wir sehen in den Sprachassistenten in vielen Bereichen bereits jetzt schon eine Möglichkeit, Produkte um ein weiteres sinnvolles Interface zu erweitern. Wir sehen aber auch im derzeitigen Entwicklungsstand einige ernstzunehmende Grenzen, denn von „Voice First“ sind wir – verglichen mit der Bedeutung von „Mobile First“ – noch weit entfernt. Wichtig ist hier. Es gibt praktische keine zweite Chance. Ein entwickelter Skill, welchesrbeim Kunden durchfällt, senkt die Chancen enorm. Daher ist es umso wichtiger diese Projekte sehr präzise und wirklich nutzerzentriert anzugehen.

 

Iconstorm Workshops zu Sprachassistenten

Bei Interesse bieten wir Ihnen gerne einen eintägigen Workshop an, in dem wir die Möglichkeiten der Technologie sowie das Vorgehen für eine mögliches Projekt sehr praxisnah demonstrieren.

Melden Sie sich einfach bei uns!