Data školení rozpoznávání řeči

Tréninková data rozpoznávání řeči – typy, sběr dat a aplikace

Pokud používáte Siri, Alexa, Cortana, Amazon Echo nebo jiné jako součást svého každodenního života, přijali byste to Rozpoznávání řeči se stal všudypřítomnou součástí našich životů. Tyto poháněné umělou inteligencí hlasoví asistenti převádějí verbální dotazy uživatelů na text, interpretují a rozumějí tomu, co uživatel říká, aby přišli s vhodnou odpovědí.

Je potřeba kvalitní sběr dat pro vývoj spolehlivých modelů rozpoznávání řeči. Ale vývoj software pro rozpoznávání řeči není jednoduchý úkol – právě proto, že přepis lidské řeči v celé její složitosti, jako je rytmus, přízvuk, výška a jasnost, je obtížný. A když k tomuto složitému mixu přidáte emoce, stane se z toho výzva.

Co je rozpoznávání řeči?

Rozpoznávání řeči je schopnost softwaru rozpoznávat a zpracovávat lidská řeč do textu. I když se mnohým může zdát rozdíl mezi rozpoznáváním hlasu a rozpoznáváním řeči subjektivní, existují mezi nimi některé zásadní rozdíly.

Přestože je rozpoznávání řeči i hlasu součástí technologie hlasového asistenta, plní dvě různé funkce. Rozpoznávání řeči automaticky přepisuje lidskou řeč a příkazy do textu, zatímco rozpoznávání hlasu se zabývá pouze rozpoznáním hlasu mluvčího.

Typy rozpoznávání řeči

Než do toho skočíme typy rozpoznávání řeči, pojďme se krátce podívat na data rozpoznávání řeči.

Data rozpoznávání řeči jsou sbírkou zvukových nahrávek lidské řeči a přepisu textu, které pomáhají trénovat systémy strojového učení rozpoznávání hlasu.

Zvukové záznamy a přepisy jsou zadávány do systému ML, aby bylo možné algoritmus naučit rozpoznávat nuance řeči a porozumět jejímu významu.

I když existuje mnoho míst, kde můžete zdarma získat předem zabalené datové sady, nejlepší je získat přizpůsobené datové sady pro vaše projekty. Můžete si vybrat velikost kolekce, požadavky na zvuk a reproduktory a jazyk tím, že budete mít vlastní datovou sadu.

Spektrum dat řeči

Data řeči spektrum identifikuje kvalitu a výšku řeči od přirozené po nepřirozenou.

  • Skriptovaná data rozpoznávání řeči

    Jak název napovídá, skriptovaná řeč je řízená forma dat. Řečníci zaznamenávají konkrétní fráze z připraveného textu. Ty se obvykle používají pro doručování příkazů a zdůrazňují, jak slovo nebo fráze se říká spíše než to, co se říká.

    Skriptované rozpoznávání řeči lze použít při vývoji hlasového asistenta, který by měl přijímat příkazy vydávané pomocí různých akcentů reproduktorů.

  • Rozpoznávání řeči založené na scénáři

    V řeči založené na scénáři je řečník požádán, aby si představil konkrétní scénář a problém a hlasové ovládání na základě scénáře. Tímto způsobem je výsledkem sbírka hlasových příkazů, které nejsou skriptované, ale ovládané.

    Řečová data založená na scénáři jsou vyžadována vývojáři, kteří chtějí vyvinout zařízení, které rozumí každodenní řeči s jejími různými nuancemi. Například dotazem na cestu do nejbližší Pizza Hut pomocí různých otázek.

  • Přirozené rozpoznávání řeči

    Hned na konci řečového spektra je řeč, která je spontánní, přirozená a není nijak řízená. Řečník mluví volně a používá svůj přirozený konverzační tón, jazyk, výšku a tenor.

    Pokud chcete trénovat aplikaci založenou na ML na rozpoznávání řeči s více reproduktory, pak neskriptovaný resp konverzační řeč datová sada je užitečná.

Komponenty sběru dat pro projekty řeči

Sběr dat řeči Řada kroků zapojených do sběru dat o řeči zajišťuje, že shromážděná data jsou kvalitní a pomáhá při trénování vysoce kvalitních modelů založených na umělé inteligenci.

Pochopte požadované reakce uživatelů

Začněte pochopením požadovaných reakcí uživatelů pro model. Chcete-li vytvořit model rozpoznávání řeči, měli byste shromáždit data, která přesně reprezentují obsah, který potřebujete. Shromažďujte data z interakcí v reálném světě, abyste pochopili interakce a reakce uživatelů. Pokud vytváříte chatového asistenta založeného na umělé inteligenci, prohlédněte si protokoly chatu, nahrávky hovorů, odpovědi v dialogovém okně chatu a vytvořte datovou sadu.

Prozkoumejte jazyk specifický pro doménu

Pro datovou sadu rozpoznávání řeči potřebujete obecný obsah i obsah specifický pro doménu. Jakmile shromáždíte obecná data řeči, měli byste je prosít a oddělit obecná od konkrétních.

Zákazníci mohou například zavolat a požádat o schůzku ke kontrole glaukomu v očním centru. Žádost o schůzku je velmi obecný termín, ale glaukom je doménově specifický.

Při trénování modelu ML rozpoznávání řeči se navíc ujistěte, že jej trénujete tak, aby identifikoval fráze, nikoli jednotlivě uznávaná slova.

Zaznamenejte lidskou řeč

Po shromáždění dat z předchozích dvou kroků by další krok zahrnoval přimět lidi, aby zaznamenali shromážděná prohlášení.

Je nezbytné dodržet ideální délku scénáře. Žádat lidi, aby četli více než 15 minut textu, by mohlo být kontraproduktivní. Mezi jednotlivými zaznamenanými výroky dodržujte minimálně 2–3 sekundové mezery.

Umožněte nahrávce, aby byla dynamická

Vytvořte úložiště řeči různých lidí, mluvících přízvuků, stylů zaznamenaných za různých okolností, zařízení a prostředí. Pokud většina budoucích uživatelů bude používat pevnou linku, měla by mít vaše databáze sbírky řeči významné zastoupení, které tomuto požadavku odpovídá.

Vyvolat variabilitu záznamu řeči

Jakmile je cílové prostředí nastaveno, požádejte své subjekty shromažďované dat, aby si přečetly připravený skript v podobném prostředí. Požádejte účastníky, aby se netrápili chybami a zachovali ztvárnění co nejpřirozenější. Cílem je mít velkou skupinu lidí nahrávajících scénář ve stejném prostředí.

Přepište projevy

Jakmile nahrajete scénář s více předměty (s chybami), měli byste pokračovat v přepisu. Udržujte chyby nedotčené, protože by vám to pomohlo dosáhnout dynamiky a rozmanitosti shromážděných dat.

Místo toho, aby lidé přepisovali celý text slovo od slova, můžete k přepisu použít převodník řeči na text. Doporučujeme však také použít lidské přepisovatele k opravě chyb.

Vytvořte testovací sadu

Vývoj testovací sady je zásadní, protože je průkopníkem jazykový model.

Vytvořte dvojici řeči a odpovídající text a rozdělte je do segmentů.

Po shromáždění shromážděných prvků odeberte vzorek 20 %, který tvoří testovací sadu. Není to trénovací sada, ale tato extrahovaná data vám dají vědět, zda trénovaný model přepisuje zvuk, na který nebyl trénován.

Sestavte a měřte model jazykové výuky

Nyní vytvořte jazykový model rozpoznávání řeči pomocí příkazů specifických pro doménu a v případě potřeby dalších variant. Po natrénování modelu byste měli začít měřit.

Vezměte trénovací model (s 80 % vybraných zvukových segmentů) a otestujte jej proti testovací sadě (extrahovaných 20 % datové sady), abyste ověřili předpovědi a spolehlivost. Zkontrolujte chyby, vzorce a zaměřte se na faktory prostředí, které lze opravit.

Možné případy použití nebo aplikace

Speech recognition use case

Hlasová aplikace, chytrá zařízení, převod řeči na text, zákaznická podpora, diktování obsahu, bezpečnostní aplikace, autonomní vozidla, psaní poznámek pro zdravotnictví.

Rozpoznávání řeči otevírá svět možností a uživatelská adopce hlasových aplikací se v průběhu let zvýšila.

Některé z běžných aplikací technologie rozpoznávání řeči patří:

  1. Aplikace Hlasové vyhledávání

    Podle společnosti Google o 20% z vyhledávání provedených v aplikaci Google jsou hlasová. Osm miliard lidí Předpokládá se, že do roku 2023 budou používat hlasové asistenty, což je prudký nárůst z předpokládaných 6.4 miliardy v roce 2022.

    Přijetí hlasového vyhledávání se v průběhu let výrazně zvýšilo a předpokládá se, že tento trend bude pokračovat. Spotřebitelé se spoléhají na hlasové vyhledávání, aby mohli vyhledávat dotazy, nakupovat produkty, lokalizovat firmy, najít místní firmy a další.

  2. Domácí zařízení/chytrá zařízení

    Technologie rozpoznávání hlasu se používá k poskytování hlasových příkazů domácím chytrým zařízením, jako jsou televizory, světla a další zařízení. 66% spotřebitelů ve Spojeném království, USA a Německu uvedli, že při používání chytrých zařízení a reproduktorů používali hlasové asistenty.

  3. Řeč k textu

    Aplikace pro převod řeči na text se používají jako pomoc při bezplatné práci s počítačem při psaní e-mailů, dokumentů, zpráv a dalších. Řeč k textu eliminuje čas na psaní dokumentů, psaní knih a e-mailů, videa s titulky a překlad textu.

  4. Zákaznická podpora

    Aplikace pro rozpoznávání řeči se používají převážně v zákaznických službách a podpoře. Systém rozpoznávání řeči pomáhá při poskytování řešení zákaznických služeb 24/7 za dostupnou cenu s omezeným počtem zástupců.

  5. Diktát obsahu

    Diktování obsahu je něco jiného případ použití rozpoznávání řeči který pomáhá studentům a akademikům psát rozsáhlý obsah ve zlomku času. Je to docela užitečné pro studenty v nevýhodě kvůli slepotě nebo problémům se zrakem.

  6. Bezpečnostní aplikace

    Rozpoznávání hlasu se široce používá pro účely zabezpečení a ověřování tím, že identifikuje jedinečné vlastnosti hlasu. Místo toho, aby se osoba identifikovala pomocí odcizení nebo zneužití osobních údajů, zvyšuje bezpečnost hlasová biometrie.

    Rozpoznávání hlasu pro bezpečnostní účely navíc zlepšilo úroveň spokojenosti zákazníků, protože odpadá rozšířený proces přihlašování a duplikace pověření.

  7. Hlasové příkazy pro vozidla

    Vozidla, především automobily, mají nyní společnou funkci rozpoznávání hlasu pro zvýšení bezpečnosti jízdy. Pomáhá řidičům soustředit se na řízení přijímáním jednoduchých hlasových příkazů, jako je výběr rozhlasových stanic, volání nebo snížení hlasitosti.

  8. Psaní poznámek pro zdravotnictví

    Lékařský přepisový software vytvořený pomocí algoritmů rozpoznávání řeči snadno zachycuje hlasové poznámky lékařů, příkazy, diagnózy a symptomy. Psaní lékařských poznámek zvyšuje kvalitu a naléhavost ve zdravotnictví.

Máte na mysli projekt rozpoznávání řeči, který může změnit vaše podnikání? Vše, co možná budete potřebovat, je přizpůsobená datová sada pro rozpoznávání řeči.

Software pro rozpoznávání řeči na bázi umělé inteligence musí být vyškolen na spolehlivých datových sadách o algoritmech strojového učení, aby bylo možné integrovat syntax, gramatiku, strukturu vět, emoce a nuance lidské řeči. A co je nejdůležitější, software by se měl neustále učit a reagovat – růst s každou interakcí.

Ve společnosti Shaip poskytujeme zcela přizpůsobené datové sady rozpoznávání řeči pro různé projekty strojového učení. S Shaipem máte přístup k nejkvalitnější tréninková data na míru které lze použít k vybudování a uvedení na trh spolehlivého systému rozpoznávání řeči. Spojte se s našimi odborníky pro komplexní pochopení naší nabídky.

[Přečtěte si také: Kompletní průvodce konverzační umělou inteligencí]

Sociální sdílení