Automatické rozpoznávání řeči

Pochopení procesu sběru zvukových dat pro automatické rozpoznávání řeči

Systémy automatického rozpoznávání řeči a virtuální asistenti jako Siri, Alexa a Cortana se staly běžnou součástí našich životů. Naše závislost na nich výrazně roste, jak jsou chytřejší. Od rozsvícení našich světel přes telefonování až po změnu televizních kanálů využíváme tyto chytré technologie k plnění světských úkolů.

Napadlo vás však někdy, jak tyto systémy rozpoznávání řeči fungují?

Tento blog vás naučí některé základy automatického rozpoznávání řeči. Také prozkoumáme jeho fungování a jak se vytvářejí funkční virtuální asistenti, jako je Siri.

Co je automatické rozpoznávání řeči?

Automatické rozpoznávání řeči (ASR) je software, který umožňuje počítačovému systému převádět lidskou řeč na text s využitím několika algoritmů umělé inteligence a strojového učení.

Po převedení a analýze zadaného příkazu počítač odpoví odpovídajícím výstupem pro uživatele. ASR byl poprvé představen v roce 1962 a od té doby neustále vylepšuje své operace a dostává se do popředí zájmu díky populárním aplikacím jako Alexa a Siri.

Věděli jste, že automatické rozpoznávání řeči je také známé jako čtečka řeči na text? Přečtěte si o tom více v tomto blogu! 

Jaký je proces sběru řeči pro trénink modelů ASR?

Speech collection process

Sbírka řeči má za cíl shromáždit několik ukázkových nahrávek z různých oblastí používaných k podávání a trénování modelů ASR. Systém ASR poskytuje nejvyšší efektivitu při shromažďování velkých datových sad řeči a zvuku a jejich poskytování do jeho systému.

Aby shromážděné datové sady řeči fungovaly bez problémů, musí obsahovat všechny cílové demografické údaje, jazyky, akcenty a dialekty. Následující proces ukazuje, jak trénovat model strojového učení v několika krocích:

  • Začněte vytvořením demografické matice

    Především shromažďuje data pro různé demografické skupiny, jako je poloha, pohlaví, jazyk, věk a přízvuk. Zajistěte také zachycení různých okolních zvuků, jako je hluk z ulice, hluk z čekáren, hluk z veřejných kanceláří atd.

  • Shromažďujte a přepisujte data řeči

    Dalším krokem je shromažďování vzorků lidského zvuku a řeči na základě různých geografických lokalit pro trénování vašeho modelu ASR. Je to důležitý krok a vyžaduje, aby lidské experty prováděli dlouhé a krátké promluvy slov, aby získali skutečný pocit z věty a opakovali stejné věty s různými přízvuky a dialekty.

  • Vytvořte samostatnou testovací sadu

    Jakmile shromáždíte přepsaný text, dalším krokem je spárování s odpovídajícími zvukovými daty. Poté data dále segmentujte a zahrňte z nich jeden příkaz. Nyní můžete ze segmentovaných datových párů vytáhnout náhodná data ze sady pro další testování.

  • Trénujte svůj jazykový model ASR

    Čím více informací mají vaše datové sady, tím lépe by fungoval váš model s umělou inteligencí. Vytvářejte proto více variant textu a řečí, které jste nahráli dříve. Parafrázujte stejné věty pomocí různých zápisů řeči.

  • Vyhodnoťte výstup a nakonec iterujte

    Nakonec změřte výstup vašeho modelu ASR, abyste opravili jeho výkon. Otestujte model proti testovací sadě a zjistěte jeho účinnost. Vhodně zapojte svůj model ASR do zpětnovazební smyčky, abyste vytvořili požadovaný výstup a opravte případné mezery.

[Přečtěte si také: Komplexní přehled automatického rozpoznávání řeči]

Jaké jsou různé případy použití rozpoznávání řeči?

Technologie rozpoznávání řeči je dnes velmi rozšířená v mnoha průmyslových odvětvích. Některá průmyslová odvětví využívající tuto obrovskou technologii jsou následující:

  • Potravinářský průmysl Potravinářský průmysl: Potravinářští giganti jako Wendy's a McDonald's jsou připraveni zlepšit své zákaznické zkušenosti pomocí ASR. V mnoha svých provozovnách nasadili plně funkční modely ASR k přijímání objednávek a dále je předávají do sekce vaření, aby byla objednávka zákazníka připravena.

     

  • Telekomunikace Telekomunikace: Vodafone je jedním z největších poskytovatelů telekomunikačních služeb na světě. Navrhla svou péči o zákazníky a telefonní reléové služby využívající modely ASR, které vás vedou k řešení různých dotazů a přesměrování vašich hovorů na dotčená oddělení.

     

  • Cestování a doprava Cestování a doprava: Google Android Auto nebo Apple CarPlay se staly běžnými. Většina lidí je používá k aktivaci navigačních systémů, odesílání zpráv nebo přepínání seznamů skladeb. S technologickým pokrokem jsou však tyto systémy stále rafinovanější.
    BMW Intelligent Personal Assistant uvedený na trh v BMW řady 3 je mnohem chytřejší než běžní hlasoví asistenti. Řidičům může umožnit najít informace týkající se vozu a ovládat vůz pomocí hlasových příkazů.
  • Média a zábavaMédia a zábava: Mediální průmysl také využívá ASR v mnoha svých projektech. Youtube spustilo asistenta založeného na umělé inteligenci, který generuje živé automatické titulky. Když mluvíte na obrazovce, asistent bude poskytovat titulky, aby bylo video přístupné větší skupině uživatelů Youtube.

 

[Přečtěte si také: Co je technologie převodu řeči na text a jak funguje]

Jak může Shaip pomoci?

Shaip je jednou z předních školicích služeb pro umělou inteligenci, která má odborné znalosti v různých oblastech umělé inteligence a ML. Mohou vám pomoci s vytvořením vlastní datové sady, kterou lze použít pro různé aplikace a projekty.

Některé ze služeb poskytovaných společností Shaip jsou:

  • Automatické rozpoznávání řeči (ASR)
  • Skriptovaná sbírka řeči
  • Přetvoření
  • Sbírka spontánní řeči
  • Sbírka výpovědí / probuzení slov,
  • Převod textu na řeč (TTS)

Tyto služby můžete využít k dosažení nejlepších výsledků pro své projekty založené na umělé inteligenci. Chcete-li se o těchto službách dozvědět více, kontaktujte náš tým odborníků ještě dnes!

Sociální sdílení