Talk To Me Computer: Stembediening is op weg

Als onverwachte pakketten aan je deur verschijnen, wil je misschien een woord hebben met een van je slimme apparaten.

Eerder deze maand vroeg een zesjarige in Dallas haar familie Amazon Echo slimme luidspreker voor een poppenhuis. En Alexa, de Siri-achtige kunstmatige assistent van Amazon, meteen bestelde een naar hun huis.

Een nieuwsshow in San Diego TV pakte het verhaal op en herhaalde het per ongeluk toen een van de nieuwsankers opmerkte: "Ik hou van het kleine meisje en zegt 'Alexa bestelt me ​​een poppenhuis'." Afluisteren dit, verschillende andere Amazon-apparaten in huizen aan de overkant San Diego geprobeerd om meer poppenhuizen te kopen.

CW6 San Diego-nieuwsbericht over de aankoop van een toevallig poppenhuis bij Alexa.

{youtube}oI2KLIULjXc{/youtube}

Het verhaal klinkt misschien heel bekend voor iedereen die geprobeerd heeft een gesprek te voeren met Apple's Siri of Cortana van Microsoft. Onze apparaten zijn redelijk goed in het luisteren naar ons geworden, maar dat betekent niet altijd dat ze het begrijpen.

Onderzoekers van Microsoft hebben dit recentelijk als een mogelijk probleem met de hedendaagse sprekende interfaces geïdentificeerd: ze worden op de markt gebracht als "intelligente" assistenten, met slimme grappen en wereldse kennis, maar ze frustreren ons vaak met hun gebrek aan gezond verstand.


innerlijk abonneren grafisch


In een kleine studie, de onderzoekers ontdekten dat de mensen die in de loop van de tijd met hun digitale assistenten praatten, degenen waren die met de laagste verwachtingen begonnen waren.

Wat doet een spraakinterface eigenlijk?

Wanneer u spreekt met een spraakinterface, moet deze:

  • "Hoort" het geluid van uw stem en onderscheidt het van achtergrondgeluid
  • zoek uit waar elk woord begint en eindigt, negeer je "umms" en "ahhs"
  • stem het geluid van elk woord af op een woord in het woordenboek, kies de juiste uit de context als die er is homofoons
  • interpreteer de betekenis van de hele zin correct
  • genereer een zinvolle en nuttige reactie die overeenkomt met uw verzoek.

Elk van deze is een complexe technische uitdaging en verschillende technologiebedrijven hebben vooruitgang geboekt op verschillende gebieden.

Google Now is goed in het geven van relevante antwoorden op een groot aantal verzoeken omdat het profiteert van de enorme hoeveelheid gegevens van Google over internet en uw persoonlijke activiteiten als u Google-services gebruikt.

Amazon Echo is vooral goed in het horen van uw verzoeken vanuit een lawaaierige ruimte, dankzij een noise-cancelling far-field microfoonarray. Natuurlijk is het ook goed om aankopen te doen via Amazon.

In de afgelopen paar jaar zijn steminterfaces veel beter geworden in het begrijpen van alledaagse of 'natuurlijke' spraak in plaats van alleen hoogdravende en zorgvuldig geformuleerde opdrachten. Ze zijn nog steeds beter in het afhandelen van eenvoudige zoekopdrachten, zoals 'wie speelt er in de Australian Open?' En hebben de neiging om te worstelen met ingewikkeldere verzoeken, zoals 'wie speelt er dit jaar voor het eerst in de Australian Open?' En follow-up vragen, zoals "zal het regenen tijdens de finale?".

De situatie is zelfs meer gemengd voor andere talen dan het Engels: terwijl Siri meer dan 40-talen en dialecten ondersteunt, is Alexa tot nu toe alleen beschikbaar in het Engels en Duits. Maar al deze functies worden gestaag beter.

Waar spraakinterfaces stotteren

Zo zullen spraakinterfaces binnenkort al onze technologie overnemen, zoals voorspeld in de film Haar? Gartner, een technologieonderzoeksbureau, heeft voorspelling dat volgend jaar 30% van onze interacties met technologie gesprekken zullen zijn met spraakgestuurde interfaces.

Maar spraakinterfaces hebben beperkingen en niet allemaal kunnen ze worden opgelost door betere technologie.

Stem is een centraal middel om contact te maken met technologie in Spike Jonze's film Her.

{youtube}ne6p6MfLBxc{/youtube}

Geluidshinder is een belangrijke hindernis. Kan uw apparaat onderscheiden wat u zegt van het achtergrondgeluid om u heen? Technologie kan daarbij helpen, inclusief ruisonderdrukking, persoonlijke stemherkenning en liplezen.

Maar hoe zit het met de achtergrondruis die je voor anderen creëert door met je slimme apparaat te praten? Stel je een persoon voor die naast je zit op kantoor - of in een vliegtuig - terwijl je met Siri praat terwijl je probeert te lezen, en je kunt zien waarom spraakinterfaces niet altijd sociaal aanvaardbaar zijn.

Een ander aantal problemen komt voort uit de mentale eisen van spraakinterfaces. Leren om een ​​op stem gebaseerd systeem te gebruiken, kan moeilijk zijn, vooral als er geen scherm is, zoals bij Amazon Echo.

Als je ooit een bank of een telefoonbedrijf hebt gebeld, weet je de ellendige combinatie van concentratie en verveling die ontstaat door naar een gesynthetiseerde stem te luisteren en al je opties op te noemen terwijl je wacht op degene die je nodig hebt en probeer ze niet te mixen up. Traditionele grafische interfaces voorkomen dit probleem door u de beschikbare opties te tonen en u snel uw keuze te laten tikken.

Nadat u spraakopdrachten hebt geleerd, kan het gebruik ervan afleiden. Onderzoekers hebben gevonden dat spraakopdrachten laat je gedachtengang ontsporen meer dan een muis en toetsenbord.

Dit is met name gevaarlijk voor spraakinterfaces in de auto: een paar studies van de Universiteit van Utah vonden dat stuurprogramma's waren afgeleid voor maximaal 27 seconden na het gebruik van spraakopdrachten.

University of Utah / AAA Foundation for Traffic Safety onderzoek naar afleiding van de bestuurder.

{vimeo}108281698{/vimeo}

Zijn stem vinden?

Het is dus onwaarschijnlijk dat spraakinterfaces het volledig overnemen, maar ze zullen nuttige niches in ons leven vinden. Ze zijn al gebruikelijk in auto's, waar ze hopelijk minder afgeleid worden als de technologie verbetert.

In de keuken kun je Alexa vragen om je een recept te vertellen of je boodschappenlijst bij te werken terwijl je handen bezig zijn met koken. In virtuele en augmented reality kun je met spraakinterfaces het systeem besturen wanneer je helemaal geen handen kunt zien.

Bij het leren van talen kunnen ze worden gebruikt voor het oefenen van de uitspraak. Het belangrijkste is dat spraakinterfaces gebruikers met motorische beperkingen, RSI of dyslexie helpen hun handicap te overwinnen.

Steminterfaces zijn een langverwachte technologie en er zijn goede redenen om te denken dat hun tijd eindelijk is aangebroken. Onthoud alleen dat ze misschien nog niet zo slim zijn als ze klinken. En misschien wilt u een pincode op spraakaankopen plaatsen als er kinderen in de buurt zijn.

The Conversation

Over de auteur

Fraser Allison, promovendus in interactie tussen mens en computer, Universiteit van Melbourne

Dit artikel is oorspronkelijk gepubliceerd op The Conversation. Lees de originele artikel.

Gerelateerde items

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market en Amazon