Hlasový asistent

Co je to hlasový asistent? & Jak Siri a Alexa rozumí tomu, co říkáte?

Hlasové asistenty mohou být tyto chladné, převážně ženské hlasy, které reagují na vaše požadavky najít nejbližší restauraci nebo nejkratší cestu do nákupního centra. Jsou však víc než jen hlas. K dispozici je špičková technologie rozpoznávání hlasu s NLP, AI a syntézou řeči, která dává smysl vašim hlasovým požadavkům a podle toho se chová.

Tím, že fungují jako komunikační most mezi vámi a zařízeními, se hlasoví asistenti stali nástrojem, který používáme téměř pro všechny naše potřeby. Je to nástroj, který naslouchá, inteligentně předpovídá naše potřeby a podle potřeby podniká kroky. Ale jak to dělá? Jak se oblíbeným asistentům líbí Amazon Alexa, Apple Siri a Google Assistant rozumíš nám? Pojďme to zjistit.

Zde je několik hlasově ovládaný osobní asistent statistiky, které vám vyrazí dech. V roce 2019 byl celkový počet hlasových asistentů na celém světě pevně stanoven 2.45 miliardy. Zadržte dech. Předpokládá se, že toto číslo dosáhne 8.4 miliardy do roku 2024 – více než světová populace.

Co je to hlasový asistent?

Hlasový asistent je aplikace nebo program, který pomocí technologie rozpoznávání hlasu a zpracování přirozeného jazyka rozpoznává lidskou řeč, překládá slova, přesně odpovídá a provádí požadované akce. Hlasoví asistenti dramaticky změnili způsob, jakým zákazníci vyhledávají a zadávají online příkazy. Technologie hlasových asistentů navíc proměnila naše každodenní zařízení, jako jsou chytré telefony, reproduktory a nositelná zařízení, na inteligentní aplikace.

Body, které je třeba mít na paměti při interakci s digitálními asistenty

Účelem hlasových asistentů je usnadnit vám interakci s vaším zařízením a vyvolat patřičnou odezvu. Když se to však nestane, může to být frustrující.

Vést jednostrannou konverzaci není žádná legrace a než se z ní stane křik s nereagující aplikací, zde je několik věcí, které můžete udělat.

 • Drž to dole a dej tomu čas

  Sledování vašeho tónu dělá práci – dokonce i při interakci s hlasovými asistenty poháněnými umělou inteligencí. Místo křiku řekni: Google Home když nereaguje, zkuste mluvit neutrálním tónem. Poté počkejte, než stroj zpracuje vaše příkazy.

 • Vytvořte profily pro běžné uživatele

  Hlasového asistenta můžete učinit chytřejším vytvořením profilů pro ty, kteří jej pravidelně používají, jako jsou vaši rodinní příslušníci. Amazon Alexa, například dokáže rozpoznat hlas až 6 osob.

 • Udržujte požadavky jednoduché

  Váš hlasový asistent, jako Google Assistant, možná pracuje na pokročilé technologii, ale rozhodně nelze očekávat, že bude udržovat konverzaci téměř lidskou. Když hlasový asistent není schopen porozumět kontextu, obecně nebude schopen přijít s přesnou odpovědí.

 • Buďte ochotni objasnit požadavky

  Ano, pokud dokážete vyvolat odezvu na první pokus, buďte připraveni opakovat nebo reagovat upřesnit. Zkuste své otázky přeformulovat, zjednodušit nebo přeformulovat.

Jak se školí hlasoví asistenti (VA)?

Tréninkový hlasový asistent Rozvoj a trénovat konverzační model umělé inteligence vyžaduje hodně tréninku, aby stroj dokázal porozumět a replikovat lidskou řeč, myšlení a reakce. Školení hlasového asistenta je komplexní proces, který vychází ze sběru řeči, anotací, ověřování a testování.

Před provedením kteréhokoli z těchto procesů je zásadní shromáždit rozsáhlé informace o projektu a jeho specifických požadavcích.

Shromažďování požadavků

Aby bylo možné téměř lidské porozumění a interakci, musí ASR dodávat velké množství řečových dat, která vyhovují specifickým požadavkům projektu. Různí hlasoví asistenti navíc plní různé úkoly a každý potřebuje specifický typ školení.

Například chytrý domácí reproduktor jako např Amazon Echo navržený tak, aby rozpoznával pokyny a reagoval na ně, musí rozlišovat hlasy od jiných zvuků, jako jsou mixéry, vysavače, sekačky na trávu a další. Proto musí být model trénován na řečových datech simulovaných v podobném prostředí.

Sbírka řečí

Sběr řeči je zásadní, protože hlasový asistent by měl být vyškolen na údajích souvisejících s průmyslem a podnikáním, kterému slouží. Kromě toho, řečová data by měl mít příklady relevantních scénářů a záměrů zákazníka, aby bylo zajištěno, že příkazy a stížnosti budou snadno srozumitelné.

Chcete-li vyvinout vysoce kvalitního hlasového asistenta, který bude sloužit vašim zákazníkům, budete chtít model trénovat na ukázkách řeči lidí zastupujících vaše zákazníky. Typ řečových dat, která získáváte, by měl být jazykově a demograficky podobný vaší cílové skupině.

Měli byste zvážit,

 • věk
 • Země
 • Rod
 • Jazyk

Typy dat řeči

Na základě požadavků a specifikací projektu lze použít různé typy datových dat řeči. Některé příklady dat řeči zahrnují

 • Skriptovaná řeč

  Skriptovaná řeč Data řeči obsahující předem napsané a napsané otázky nebo fráze se používají k trénování automatického interaktivního systému hlasové odezvy. Příklady předem napsaných dat řeči zahrnují: 'Jaký je můj aktuální bankovní zůstatek?' nebo 'Kdy je další datum splatnosti mé platby kreditní kartou?'

 • Projev dialogu

  Přepis zvukových a řečových dat Při vývoji hlasového asistenta pro aplikaci zákaznických služeb je zásadní trénovat model na dialog nebo konverzaci mezi zákazníkem a firmou. Společnosti používají svou databázi hovorů s nahrávkami skutečných hovorů k výcviku modelů. Pokud jsou nahrávky hovorů nedostupné nebo v případě uvedení nového produktu na trh, lze k trénování modelu použít nahrávky hovorů v simulovaném prostředí.

 • Spontánní nebo nespisovný projev

  Spontánní řeč Ne všichni zákazníci používají skriptovaný formát otázek pro své hlasové asistenty. Proto je třeba specifické hlasové aplikace trénovat na datech spontánní řeči, ve kterých mluvčí využívá jejich promluvy ke konverzaci.

  Bohužel existuje větší variabilita řeči a rozmanitost jazyka a trénování modelu na identifikaci spontánní řeči vyžaduje obrovské množství dat. Přesto, kdy technologie si pamatuje a přizpůsobuje se, vytváří vylepšené hlasové řešení.

Přepis a validace řečových dat

Poté, co jsou shromážděny různé údaje o řeči, musí být přesně přepsány. Přesnost trénování modelu závisí na pečlivosti přepisu. Jakmile je provedeno první kolo transkripce, musí být ověřeno jinou skupinou odborníků na transkripci. Přepis by měl obsahovat pauzy, opakování a chybně napsaná slova.

Anotace

Po přepisu dat je čas na anotaci a tagování.

Sémantická anotace

Jakmile jsou data řeči přepsána a ověřena; musí být okomentováno. Na základě případu použití hlasového asistenta by měly být definovány kategorie v závislosti na scénářích, které může podporovat. Každá fráze přepsaných dat bude označena kategorií podle významu a záměru.

Uznání pojmenované entity

Rozpoznávání pojmenovaných entit je krokem předzpracování dat a zahrnuje rozpoznání základních informací z přepsaného textu a jejich klasifikaci do předem definovaných kategorií.

NER používá zpracování přirozeného jazyka k provedení NER tak, že nejprve identifikuje entity v textu a rozdělí je do různých kategorií. Entity může být cokoliv, o čem se neustále diskutuje nebo na co se v textu odkazuje. Může to být například osoba, místo, organizace nebo výraz.

Humanizující umělá inteligence

Hlasoví asistenti se stali nedílnou součástí našeho každodenního života. Důvodem tohoto fenomenálního nárůstu přijetí je, že nabízejí bezproblémovou zákaznickou zkušenost v každé fázi prodejní cesty. Zákazník požaduje intuitivního a chápavého robota a firmě se daří díky aplikaci, která nekazí její image na internetu.

Jedinou možností, jak toho dosáhnout, by bylo polidštit hlasového asistenta poháněného umělou inteligencí. Je však náročné vycvičit stroj, aby porozuměl lidské řeči. Jediným řešením je však pořízení různých databází řeči a jejich anotování, aby bylo možné přesně detekovat lidské emoce, nuance řeči a sentiment.

Společnosti Shaip pomáhá při vývoji špičkového hlasového asistenta pro různé potřeby – vyhledávaný poskytovatel anotačních služeb. Vždy je lepší vybrat si někoho, kdo má zkušenosti a solidní znalostní základnu. Shaip má dlouholeté zkušenosti s poskytováním služeb v různých průmyslových odvětvích, aby je zlepšil inteligentní asistent schopnosti. Kontaktujte nás a zjistěte, jak můžeme zlepšit kompetence vašich hlasových asistentů.

[Přečtěte si také: Kompletní průvodce konverzační umělou inteligencí]

Sociální sdílení