Případová studie: Konverzační AI
Více než 3 8 hodin shromážděných, segmentovaných a přepsaných dat pro vytvoření ASR v XNUMX indických jazycích
BHASHINI, indická jazyková překladatelská platforma řízená umělou inteligencí, je důležitou součástí iniciativy Digitální Indie.
Platforma Bhashini, navržená tak, aby poskytovala nástroje pro umělou inteligenci (AI) a zpracování přirozeného jazyka (NLP) malým a středním podnikům, startupům a nezávislým inovátorům, slouží jako veřejný zdroj. Jejím cílem je podporovat digitální začlenění tím, že umožňuje indickým občanům komunikovat s digitálními iniciativami země v jejich rodných jazycích.
Kromě toho si klade za cíl výrazně rozšířit dostupnost internetového obsahu v indických jazycích. To je zacíleno zejména na oblasti veřejného zájmu, jako je správa a politika, věda a technologie atd. Následně to bude motivovat občany k používání internetu ve svém vlastním jazyce a podpoří jejich aktivní účast.
Využijte NLP, abyste umožnili rozmanitý ekosystém přispěvatelů, partnerských subjektů a občanů za účelem překonání jazykových bariér, a tím zajistili digitální začlenění a posílení
Skutečné řešení
Uvolněte sílu lokalizace s daty
Indie potřebovala platformu, která by se soustředila na vytváření vícejazyčných datových sad a řešení jazykových technologií založených na AI, aby mohla poskytovat digitální služby v indických jazycích. Za účelem zahájení této iniciativy se Indický technologický institut v Madrasu (IIT Madras) spojil se společností Shaip za účelem shromažďování, segmentování a přepisu datových sad indického jazyka za účelem vytvoření vícejazyčných modelů řeči.
Výzvy
Aby tým pomohl klientovi s plánem řeči technologie řeči pro indické jazyky, potřeboval získat, segmentovat a přepsat velké objemy trénovacích dat pro vytvoření modelu umělé inteligence. Kritické požadavky klienta byly:
Sběr dat
- Získejte 3000 hodin tréninkových dat v 8 indických jazycích se 4 dialekty na jazyk.
- Pro každý jazyk bude dodavatel shromažďovat Extempore Speech a
Konverzační řeč od věkových skupin 18-60 let - Zajistěte rozmanitou kombinaci mluvčích podle věku, pohlaví, vzdělání a dialektů
- Zajistěte rozmanitou kombinaci nahrávacích prostředí podle specifikací.
- Každý zvukový záznam musí mít alespoň 16 kHz, ale nejlépe 44 kHz
Segmentace dat
- Vytvořte segmenty řeči o délce 15 sekund a označte zvuk na milisekundy pro každého daného mluvčího, typ zvuku (řeč, blábol, hudba, hluk), obraty, promluvy a fráze v konverzaci
- Vytvořte každý segment pro jeho cílený zvukový signál s 200-400 milisekundovým odsazením na začátku a na konci.
- Pro všechny segmenty musí být vyplněny následující objekty, tj. Čas začátku, Čas ukončení, ID segmentu, Úroveň hlasitosti, Typ zvuku, Kód jazyka, ID reproduktoru atd.
Přepis dat
- Postupujte podle podrobných pokynů pro transkripci týkající se znaků a speciálních symbolů, pravopisu a gramatiky, velkých písmen, zkratek, zkracování, jednotlivých mluvených písmen, čísel, interpunkčních znamének, akronymů, nesrozumitelné řeči, řeči, nesrozumitelné řeči, necílových jazyků, neřeči atd.
Kontrola kvality a zpětná vazba
- Všechny nahrávky musí projít hodnocením a ověřením kvality, bude přednesena pouze ověřená řeč
Řešení
Díky našemu hlubokému porozumění konverzační umělé inteligenci jsme pomohli klientovi shromažďovat, segmentovat a přepisovat data s týmem odborných sběratelů, lingvistů a anotátorů, abychom vytvořili velký korpus zvukových datových souborů v 8 indických jazycích.
Rozsah práce pro Shaip zahrnoval, ale neomezoval se na získávání velkých objemů zvukových tréninkových dat, segmentaci zvukových nahrávek na více, přepis dat a dodání odpovídajících souborů JSON obsahujících metadata [SpeakerID, Age, Gender, Language, Dialect,
Mateřský jazyk, Kvalifikace, Povolání, Doména, Formát souboru, Frekvence, Kanál, Typ zvuku, Počet reproduktorů, Počet cizích jazyků, Použité nastavení, Úzkopásmový nebo Širokopásmový zvuk atd.].
Shaip shromáždil 3000 hodin zvukových dat v měřítku při zachování požadované úrovně kvality potřebné k trénování řečové technologie pro složité projekty. Od každého z účastníků byl převzat formulář s výslovným souhlasem.
1. Sběr dat