Případová studie: Konverzační AI

Více než 3 8 hodin shromážděných, segmentovaných a přepsaných dat pro vytvoření ASR v XNUMX indických jazycích

Cílem vlády je umožnit svým občanům snadný přístup k internetu a digitálním službám v jejich rodném jazyce prostřednictvím projektu Bhashini.

BHASHINI, indická jazyková překladatelská platforma řízená umělou inteligencí, je důležitou součástí iniciativy Digitální Indie.

Platforma Bhashini, navržená tak, aby poskytovala nástroje pro umělou inteligenci (AI) a zpracování přirozeného jazyka (NLP) malým a středním podnikům, startupům a nezávislým inovátorům, slouží jako veřejný zdroj. Jejím cílem je podporovat digitální začlenění tím, že umožňuje indickým občanům komunikovat s digitálními iniciativami země v jejich rodných jazycích.

Kromě toho si klade za cíl výrazně rozšířit dostupnost internetového obsahu v indických jazycích. To je zacíleno zejména na oblasti veřejného zájmu, jako je správa a politika, věda a technologie atd. Následně to bude motivovat občany k používání internetu ve svém vlastním jazyce a podpoří jejich aktivní účast.

Využijte NLP, abyste umožnili rozmanitý ekosystém přispěvatelů, partnerských subjektů a občanů za účelem překonání jazykových bariér, a tím zajistili digitální začlenění a posílení

Skutečné řešení

Uvolněte sílu lokalizace s daty

Indie potřebovala platformu, která by se soustředila na vytváření vícejazyčných datových sad a řešení jazykových technologií založených na AI, aby mohla poskytovat digitální služby v indických jazycích. Za účelem zahájení této iniciativy se Indický technologický institut v Madrasu (IIT Madras) spojil se společností Shaip za účelem shromažďování, segmentování a přepisu datových sad indického jazyka za účelem vytvoření vícejazyčných modelů řeči.

Výzvy

Aby tým pomohl klientovi s plánem řeči technologie řeči pro indické jazyky, potřeboval získat, segmentovat a přepsat velké objemy trénovacích dat pro vytvoření modelu umělé inteligence. Kritické požadavky klienta byly:

Sběr dat

Získejte 3000 hodin tréninkových dat v 8 indických jazycích se 4 dialekty na jazyk.
Pro každý jazyk bude dodavatel shromažďovat Extempore Speech a
Konverzační řeč od věkových skupin 18-60 let
Zajistěte rozmanitou kombinaci mluvčích podle věku, pohlaví, vzdělání a dialektů
Zajistěte rozmanitou kombinaci nahrávacích prostředí podle specifikací.
Každý zvukový záznam musí mít alespoň 16 kHz, ale nejlépe 44 kHz

Segmentace dat

Vytvořte segmenty řeči o délce 15 sekund a označte zvuk na milisekundy pro každého daného mluvčího, typ zvuku (řeč, blábol, hudba, hluk), obraty, promluvy a fráze v konverzaci
Vytvořte každý segment pro jeho cílený zvukový signál s 200-400 milisekundovým odsazením na začátku a na konci.
Pro všechny segmenty musí být vyplněny následující objekty, tj. Čas začátku, Čas ukončení, ID segmentu, Úroveň hlasitosti, Typ zvuku, Kód jazyka, ID reproduktoru atd.

Přepis dat

Postupujte podle podrobných pokynů pro transkripci týkající se znaků a speciálních symbolů, pravopisu a gramatiky, velkých písmen, zkratek, zkracování, jednotlivých mluvených písmen, čísel, interpunkčních znamének, akronymů, nesrozumitelné řeči, řeči, nesrozumitelné řeči, necílových jazyků, neřeči atd.

Kontrola kvality a zpětná vazba

Všechny nahrávky musí projít hodnocením a ověřením kvality, bude přednesena pouze ověřená řeč

Řešení

Díky našemu hlubokému porozumění konverzační umělé inteligenci jsme pomohli klientovi shromažďovat, segmentovat a přepisovat data s týmem odborných sběratelů, lingvistů a anotátorů, abychom vytvořili velký korpus zvukových datových souborů v 8 indických jazycích.

Rozsah práce pro Shaip zahrnoval, ale neomezoval se na získávání velkých objemů zvukových tréninkových dat, segmentaci zvukových nahrávek na více, přepis dat a dodání odpovídajících souborů JSON obsahujících metadata [SpeakerID, Age, Gender, Language, Dialect,
Mateřský jazyk, Kvalifikace, Povolání, Doména, Formát souboru, Frekvence, Kanál, Typ zvuku, Počet reproduktorů, Počet cizích jazyků, Použité nastavení, Úzkopásmový nebo Širokopásmový zvuk atd.].

Shaip shromáždil 3000 hodin zvukových dat v měřítku při zachování požadované úrovně kvality potřebné k trénování řečové technologie pro složité projekty. Od každého z účastníků byl převzat formulář s výslovným souhlasem.

1. Sběr dat

2. Segmentace dat

Shromážděná zvuková data byla dále rozdělena na segmenty řeči po 15 sekundách a časové razítko na milisekundy pro každého daného mluvčího, typ zvuku, obraty, promluvy a fráze v konverzaci.
Vytvořil každý segment pro jeho cílený zvukový signál s 200-400 milisekundovým odsazením na začátku a na konci zvukového signálu.
U všech segmentů byly přítomny a vyplněny následující objekty, tj. Čas začátku, Čas ukončení, ID segmentu, Úroveň hlasitosti (Hlasitý, Normální, Tichý), Typ primárního zvuku (Řeč, Blábolení, Hudba, Šum, Překrývání), Kód jazyka reproduktor ID, přepis atd.

3. Kontrola kvality a zpětná vazba

Všechny nahrávky byly hodnoceny z hlediska kvality a byly dodány pouze ověřené nahrávky řeči s WER 90 % a TER 90 %.
Dodržován kontrolní seznam kvality:
» Maximální délka segmentu 15 sekund
» Přepis z konkrétních oblastí, jmenovitě: Počasí, různé typy zpráv, zdraví, zemědělství, vzdělávání, zaměstnání nebo finance
» Nízký šum na pozadí
» Žádný zvukový klip vypnutý – žádné zkreslení
» Správná segmentace zvuku pro přepis

4. Přepis dat
Všechna mluvená slova, včetně zaváhání, výplňových slov, falešných začátků a dalších verbálních tiků, byla v přepisu přesně zachycena. Také jsme postupovali podle podrobných pokynů pro přepis velkých a malých písmen, pravopisu, velkých písmen, zkratek, kontrakcí, čísel,
interpunkce, akronymy, nesouvislá řeč, neřečové zvuky atd. Pracovní postup pro sběr a přepis je navíc následující:

Výsledek

Vysoce kvalitní zvuková data od odborných lingvistů umožní Indian Institute of Technology – Madras, přesně trénovat a vytvářet vícejazyčné modely rozpoznávání řeči v 8 indických jazycích s různými dialekty ve stanoveném čase. Modely rozpoznávání řeči lze použít k:

Překonejte jazykovou bariéru pro digitální začlenění propojením občanů s iniciativami v jejich mateřském jazyce.
Podporuje digitální vládu
Katalyzátor k vytvoření ekosystému pro služby a produkty v indických jazycích
Více lokalizovaný digitální obsah v oblastech veřejného zájmu, zejména v oblasti správy a politiky

Byli jsme ohromeni Shaipovými odbornými znalostmi v konverzačním prostoru AI. Jejich celková kompetence k realizaci projektu od získávání, segmentace, přepisu a poskytování požadovaných školicích dat od expertů lingvistů v 8 jazycích v rámci přísných časových plánů a pokynů; při zachování přijatelného standardu kvality.“

Zrychlete svou konverzační AI
vývoj aplikací o 100%

Vybraní klienti

Posílení postavení týmů při vytváření špičkových produktů umělé inteligence na světě.

Případová studie: Konverzační AI

Více než 3 8 hodin shromážděných, segmentovaných a přepsaných dat pro vytvoření ASR v XNUMX indických jazycích

Skutečné řešení

Výzvy

Řešení

Výsledek

Vybraní klienti

Datové služby AI

Speciality

Průmysl

Produkty

O nás

Zdroje

Kontaktujte nás

Dejte nám o sobě vědět víc!