Případová studie: Konverzační AI

Více než 3 8 hodin shromážděných, segmentovaných a přepsaných dat pro vytvoření ASR v XNUMX indických jazycích

Sbírka výroků
Cílem vlády je umožnit svým občanům snadný přístup k internetu a digitálním službám v jejich rodném jazyce prostřednictvím projektu Bhashini.

BHASHINI, indická jazyková překladatelská platforma řízená umělou inteligencí, je důležitou součástí iniciativy Digitální Indie.

Platforma Bhashini, navržená tak, aby poskytovala nástroje pro umělou inteligenci (AI) a zpracování přirozeného jazyka (NLP) malým a středním podnikům, startupům a nezávislým inovátorům, slouží jako veřejný zdroj. Jejím cílem je podporovat digitální začlenění tím, že umožňuje indickým občanům komunikovat s digitálními iniciativami země v jejich rodných jazycích.

Kromě toho si klade za cíl výrazně rozšířit dostupnost internetového obsahu v indických jazycích. To je zacíleno zejména na oblasti veřejného zájmu, jako je správa a politika, věda a technologie atd. Následně to bude motivovat občany k používání internetu ve svém vlastním jazyce a podpoří jejich aktivní účast.

Využijte NLP, abyste umožnili rozmanitý ekosystém přispěvatelů, partnerských subjektů a občanů za účelem překonání jazykových bariér, a tím zajistili digitální začlenění a posílení

Skutečné řešení

Uvolněte sílu lokalizace s daty

Indie potřebovala platformu, která by se soustředila na vytváření vícejazyčných datových sad a řešení jazykových technologií založených na AI, aby mohla poskytovat digitální služby v indických jazycích. Za účelem zahájení této iniciativy se Indický technologický institut v Madrasu (IIT Madras) spojil se společností Shaip za účelem shromažďování, segmentování a přepisu datových sad indického jazyka za účelem vytvoření vícejazyčných modelů řeči.

Výzvy

Aby tým pomohl klientovi s plánem řeči technologie řeči pro indické jazyky, potřeboval získat, segmentovat a přepsat velké objemy trénovacích dat pro vytvoření modelu umělé inteligence. Kritické požadavky klienta byly:

Sběr dat

  • Získejte 3000 hodin tréninkových dat v 8 indických jazycích se 4 dialekty na jazyk.
  • Pro každý jazyk bude dodavatel shromažďovat Extempore Speech a
    Konverzační řeč od věkových skupin 18-60 let
  • Zajistěte rozmanitou kombinaci mluvčích podle věku, pohlaví, vzdělání a dialektů
  • Zajistěte rozmanitou kombinaci nahrávacích prostředí podle specifikací.
  • Každý zvukový záznam musí mít alespoň 16 kHz, ale nejlépe 44 kHz

Segmentace dat

  • Vytvořte segmenty řeči o délce 15 sekund a označte zvuk na milisekundy pro každého daného mluvčího, typ zvuku (řeč, blábol, hudba, hluk), obraty, promluvy a fráze v konverzaci
  • Vytvořte každý segment pro jeho cílený zvukový signál s 200-400 milisekundovým odsazením na začátku a na konci.
  • Pro všechny segmenty musí být vyplněny následující objekty, tj. Čas začátku, Čas ukončení, ID segmentu, Úroveň hlasitosti, Typ zvuku, Kód jazyka, ID reproduktoru atd.

Přepis dat

  • Postupujte podle podrobných pokynů pro transkripci týkající se znaků a speciálních symbolů, pravopisu a gramatiky, velkých písmen, zkratek, zkracování, jednotlivých mluvených písmen, čísel, interpunkčních znamének, akronymů, nesrozumitelné řeči, řeči, nesrozumitelné řeči, necílových jazyků, neřeči atd.

Kontrola kvality a zpětná vazba

  • Všechny nahrávky musí projít hodnocením a ověřením kvality, bude přednesena pouze ověřená řeč

Řešení

Díky našemu hlubokému porozumění konverzační umělé inteligenci jsme pomohli klientovi shromažďovat, segmentovat a přepisovat data s týmem odborných sběratelů, lingvistů a anotátorů, abychom vytvořili velký korpus zvukových datových souborů v 8 indických jazycích.

Rozsah práce pro Shaip zahrnoval, ale neomezoval se na získávání velkých objemů zvukových tréninkových dat, segmentaci zvukových nahrávek na více, přepis dat a dodání odpovídajících souborů JSON obsahujících metadata [SpeakerID, Age, Gender, Language, Dialect,
Mateřský jazyk, Kvalifikace, Povolání, Doména, Formát souboru, Frekvence, Kanál, Typ zvuku, Počet reproduktorů, Počet cizích jazyků, Použité nastavení, Úzkopásmový nebo Širokopásmový zvuk atd.]. 

Shaip shromáždil 3000 hodin zvukových dat v měřítku při zachování požadované úrovně kvality potřebné k trénování řečové technologie pro složité projekty. Od každého z účastníků byl převzat formulář s výslovným souhlasem.

1. Sběr dat