Konverzační AI: Automatické rozpoznávání řeči

Shromážděno více než 8 800 hodin zvuku, XNUMX hodin přepsáno pro vícejazyčnou hlasovou technologii

Konverzační ai

Úvod

Indie potřebovala platformu, která by se soustředila na vytváření vícejazyčných datových sad a řešení jazykových technologií založených na AI, aby mohla poskytovat digitální služby v indických jazycích. K zahájení této iniciativy se klient spojil se společností Shaip, aby shromáždil a přepsal indický jazyk, aby vytvořil vícejazyčné modely řeči.

Hlasitost

Hodiny shromažďování dat
10
Počet anotovaných stránek
10 +
Trvání projektu
< 1 měsíců

Výzvy

Aby tým pomohl klientovi s plánem řeči technologie řeči pro indické jazyky, potřeboval získat, segmentovat a přepsat velké objemy trénovacích dat pro vytvoření modelu umělé inteligence. Kritické požadavky klienta byly:

Sběr dat

  • Získejte 8000 hodin tréninkových dat ze vzdálených míst Indie
  • Dodavatel shromažďuje spontánní projevy od věkových skupin 20-70 let
  • Zajistěte rozmanitou směs mluvčích podle věku, pohlaví, vzdělání a dialektů
  • Každý zvukový záznam musí mít alespoň 16 kHz s 16 bity/vzorek.
Sběr dat

Přepis dat

Postupujte podle podrobných pokynů pro transkripci týkající se znaků a speciálních symbolů, pravopisu a gramatiky, velkých písmen, zkratek, zkracování, jednotlivých mluvených písmen, čísel, interpunkčních znamének, akronymů a inicialismů, nesrozumitelné řeči, nesrozumitelné řeči, necílových jazyků, neřeči

Přepis dat

Kontrola kvality a zpětná vazba

Všechny nahrávky musí projít hodnocením kvality a ověřením, budou dodány pouze ověřené nahrávky řeči

Řešení

Díky našemu hlubokému porozumění konverzační umělé inteligenci jsme pomohli klientovi shromáždit a přepsat zvuková data s týmem odborných sběratelů, lingvistů a anotátorů, abychom vytvořili velký korpus zvukových dat ze vzdálených částí Indie.

Rozsah práce pro Shaip zahrnoval, ale neomezoval se na získávání velkých objemů zvukových tréninkových dat, přepis dat a dodání odpovídajících souborů JSON obsahujících metadata [pro mluvčí i přepisovatele. Metadata každého mluvčího zahrnují anonymizované ID mluvčího, podrobnosti o zařízení, demografické informace, jako je pohlaví, věk a vzdělání, spolu s jejich kódem PIN, socioekonomickým statusem, jazyky, kterými mluví, a záznamem o délce jejich pobytu. Pro každého přepisovatele data obsahují anonymizované ID přepisovatele, demografické podrobnosti podobné těm, kteří mluví mluvčí, dobu jejich zkušeností s přepisem a důkladný rozpis jazyků, které umí číst, psát a mluvit.

Shaip sebral 8000 hodiny audio dat / Spontánní řeč v měřítku a 800 hodin přepisu při zachování požadované úrovně kvality potřebné pro trénování technologie řeči pro složité projekty. Od každého z účastníků byl převzat formulář s výslovným souhlasem. Shromážděná / Spontánní řeč byla založena na obrázcích poskytnutých univerzitou. Z 3500 obrazy, 1000 jsou generické a 2500 se týkají kultury specifické pro oblast, festivalů atd. Obrázky zobrazují různé oblasti, jako jsou vlaková nádraží, trhy, počasí a další.

Sběr dat

StátokresyAudio hodPřepis
(Hod.)
BiharSaran, East Champaran, Gopalganj, Sitamarhi, Samastipur, Darbhanga, Madhepura, Bhagalpur, Gaya, Kishanganj, Vaishali, Lakhisarai, Saharsa, Supaul, Araria, Begusarai, Jahanabad, Purnia, Muzaffarpur, Jamui2000200
UttarpradéšDeoria, Varanasi, Gorakhpur, Ghazipur, Muzzafarnagar, Etah, Hamirpur, Jyotiba Phule Nagar, Budaun, Jalaun1000100
RajasthanNagaur, Churu20020
UttarakhandTehri Garhwal, Uttarkashi20020
ChhattisgarhBilaspur, Raigarh, Kabirdham, Sarguja, Korba, Jashpur, Rajnandgaon, Balrampur, Bastar, Sukma1000100
West BengalPaschim Medinipur, Malda, Jalpaiguri, Purulia, Kalkatta, Jhargram, North 24 Parganas, Dakshin Dinajpur80080
JharkhandSahebganj, Džamtara20020
APGuntur, Chittoor, Visakhapatnam, Krishna, Anantapur, Srikakulam60060
TelanganaKarimnagar, Nalgonda20020
GoaSeverní + Jižní Goa10010
KarnatakaDakshin Kannada, Gulbarga, Dharwad, Bellary, Mysore, Shimoga, Bijapur, Belgaum, Raichur, Chamrajnagar1000100
MaharashtraSindhudurg, Dhule, Nagpur, Pune, Aurangabad, Chandrpur, Solapur70070
Celková cena8000800

Obecné pokyny

Formát

    • Zvuk při 16 kHz, 16 bitů/vzorek.
    • Jeden kanál.
    • Surový zvuk bez překódování.

Styl

    • Spontánní projev.
    • Věty založené na obrázcích poskytnutých univerzitou. Z 3500 obrázků je 1000 obecných a 2500 se týká kultury specifické pro oblast, festivalů atd. Obrázky zobrazují různé oblasti, jako jsou vlaková nádraží, trhy, počasí a další.

Pozadí nahrávání

    • Nahráváno v tichém prostředí bez ozvěny.
    • Žádné rušení smartphonu (vibrace nebo upozornění) během nahrávání.
    • Žádné zkreslení jako oříznutí nebo efekty vzdáleného pole.
    • Vibrace z telefonu jsou nepřijatelné; vnější vibrace jsou přijatelné, pokud je zvuk čistý.

Specifikace reproduktoru

    • Věkové rozmezí od 20 do 70 let s vyváženým rozdělením pohlaví na okres.
    • Minimálně 400 rodilých mluvčích v každém okrese.
    • Mluvčí by měl používat svůj domácí jazyk/dialekt.
    • Formuláře souhlasu jsou povinné pro všechny účastníky.


Kontrola kvality a kritické zajištění kvality

Proces QA upřednostňuje zajištění kvality zvukových nahrávek a přepisů. Zvukové standardy se zaměřují na přesné ztišení, trvání segmentu, srozumitelnost jednoho reproduktoru a podrobná metadata včetně věku a socioekonomického stavu. Kritéria přepisu zdůrazňují přesnost tagů, pravdivost slov a správné detaily segmentů. Srovnávací test přijetí diktuje, že pokud více než 20 % zvukové dávky nesplňuje tyto standardy, bude zamítnuta. Pro méně než 20% nesrovnalosti jsou vyžadovány náhradní nahrávky s podobnými profily.

Přepis dat

Pokyny pro transkripci zdůrazňují přesnost a doslovný přepis pouze tehdy, když jsou slova jasná a srozumitelná; nejasná slova jsou na základě problému označena jako [nesrozumitelná] nebo [neslyšitelná]. Hranice vět v dlouhém zvuku jsou označeny a není dovoleno parafrázovat ani opravovat gramatické chyby. Doslovný přepis pokrývá chyby, slangy a opakování, ale vynechává falešné začátky, výplňové zvuky a koktání. Zvuky na pozadí a v popředí jsou přepisovány popisnými značkami, zatímco vlastní jména, názvy a čísla se řídí specifickými transkripčními pravidly. Pro každou větu se používají štítky mluvčích a neúplné věty jsou označeny .

Pracovní postup projektu

Pracovní postup popisuje proces přepisu zvuku. Začíná to nástupem a školením účastníků. Nahrávají zvuk pomocí aplikace, která je nahrána na platformu QA. Tento zvuk prochází kontrolou kvality a automatickou segmentací. Technologický tým pak připraví segmenty pro přepis. Po ručním přepisu následuje krok zajištění kvality. Přepisy jsou doručeny klientovi, a pokud jsou akceptovány, je dodávka považována za kompletní. Pokud ne, jsou provedeny revize na základě zpětné vazby od klientů.

Výsledek

Vysoce kvalitní zvuková data od odborných lingvistů umožní našemu klientovi ve stanoveném čase přesně trénovat a vytvářet vícejazyčné modely rozpoznávání řeči v různých indických jazycích s různými dialekty. Modely rozpoznávání řeči lze použít k:

  • Překonejte jazykovou bariéru pro digitální začlenění propojením občanů s iniciativami v jejich mateřském jazyce.
  • Podporuje digitální vládu
  • Katalyzátor k vytvoření ekosystému pro služby a produkty v indických jazycích
  • Více lokalizovaný digitální obsah v oblastech veřejného zájmu, zejména v oblasti správy a politiky

Jsme v úžasu nad Shaipovými odbornými znalostmi v oblasti konverzační umělé inteligence. Úkol zpracovat 8000 hodin zvukových dat spolu s 800 hodinami přepisu v 80 různých okresech byl přinejmenším monumentální. Bylo to Shaipovo hluboké pochopení složitých detailů a nuancí této domény, které umožnilo úspěšné provedení tak náročného projektu. Jejich schopnost bezproblémově spravovat a procházet složitosti tohoto obrovského množství dat a zároveň zajistit špičkovou kvalitu je skutečně chvályhodná.

Zlatá - 5 hvězdiček

Zrychlete svou konverzační AI
vývoj aplikací o 100%