Nyní Get 50% SLEVA* na standardních datových sadách konverzační umělé inteligence
Datová sada řeči a zvuku pro chatboty, hlasové asistenty a zařízení s podporou řeči.
*Nabídka na omezenou dobu
Důvěryhodné od lídrů v oboru
Detaily | Klíčové slovo | Standardní jazyková datová sada | Konverzace v call centru 8 kHz* | Obecné konverzace 8 kHz* | Média a podcasty 16 kHz* | Promluva/skriptovaný monolog 16 kHz* | Celkový objem v hodinách | Dialekty pokryty | Audio Format | Formát přepisu textu | Použijte pouzdro | Zdroj | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
afrikánština | Soubor zvukových dat v afrikánštině | 600 | 900 | 1500 | Afrikánština mluvená v Africe | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
arabština | Arabská zvuková datová sada | 800 | 1500 | 2300 | Arabština ze zemí Perského zálivu | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
čínština | Čínská zvuková datová sada | 2000 | 2000 | Číňané z Číny | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
dánský | Dánský zvukový soubor dat | 400 | 600 | 2000 | 3000 | Dán z Dánska | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
holandský | Holandský zvukový datový soubor | 2000 | 2000 | Holanďané z Nizozemí | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
Angličtina - AAVE Accent | Angličtina - AAVE (Afroamerická lidová angličtina) Zvuková datová sada | 500 | 500 | 1000 | Lidová odrůda (někdy známá jako AAVE, kterou obvykle mluví velká většina Afroameričanů z dělnické a střední třídy) a standardnější odrůda (typicky jimiž mluví Afroameričané střední třídy ve formálních a veřejných situacích), ale se silnějším důrazem v lidovém jazyce. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Angličtina - Boston/New York Accent | Angličtina – Boston/New York Audio Dataset | 225 | 225 | 350 | 800 | Toto je sbírka několika regionálních přízvuků, kterými se mluví ve městech Boston, New York a Philadelphia a jejich okolí. Tyto akcenty mohou znít podobně jako nemístní, ale liší se od ostatních amerických akcentů. Navzdory určité místní slovní zásobě, která se liší od jiných částí anglicky mluvícího světa, jsou tyto přízvuky vzájemně srozumitelné s angličtinou, kterou se mluví jinde. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
Angličtina - čínský přízvuk | Angličtina - čínská zvuková datová sada | 150 | 300 | 450 | Mluvčí, kteří mluví čínsky jako svůj první jazyk a kteří se přestěhovali/imigrovali do Spojených států jako teenageři/dospělí a naučili se angličtinu jako svůj druhý jazyk. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Angličtina - Deep South Accent | Angličtina - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Řečníci z (i) Texasu; (ii) Severní Karolína, Jižní Karolína, Georgia; (iii) New Orleans; (iv) floridský pás; (v) Tennessee, Arkansas, Michigan. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
Angličtina - hispánský přízvuk | Angličtina – soubor zvukových dat s hispánským akcentem | 400 | 400 | 800 | Hispánskou angličtinou se rozumí druhy americké angličtiny, kterými mluví hispánští Američané různého národního dědictví. Hlavní důraz byl kladen na mexické Američany, mluvčí různého národního původu (např. Mexiko, Portoriko, Dominikánská republika, Ekvádor, Kuba atd.) a také z různých regionů (např. Kalifornie, New York, Florida). Zahrnuty byly mluvčí, kteří mluví španělsky jako prvním jazykem, stejně jako mluvčí hispánského původu, kteří mluví španělsky, je jazykem dědictví. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Angličtina - Novozélandský přízvuk | Angličtina – Nový Zéland Audio Dataset | 250 | 750 | 1000 | Reproduktory na obou ostrovech, včetně mixu mladších reproduktorů (<40 let) a starších reproduktorů (>40 let) ve stejném poměru. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Angličtina - Singapurský přízvuk | Angličtina - Singapurská audio datová sada | 400 | 600 | 1000 | Standardní singapurská angličtina i hovorová singapurská angličtina. Singapurci různého etnického původu (např. Číňané, Malajci, Indové atd.) a různé úrovně vzdělání. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Angličtina - Jihoafrický přízvuk | Angličtina – Jižní Afrika Audio Dataset | 400 | 600 | 1000 | Zástupci z různých socioekonomických vrstev a etnologického prostředí (např. Jihoafričané evropského, afrického, indického nebo smíšeného původu). | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Angličtina - irský přízvuk | Angličtina - irský zvukový datový soubor | 500 | 500 | V Irsku se mluví anglicky | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
Angličtina - skotský přízvuk | Angličtina - skotský zvukový datový soubor | 800 | 800 | Angličtina mluvená skotštinou | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
Angličtina - velšský přízvuk | Angličtina – velšský zvukový datový soubor | 800 | 800 | velšská angličtina | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
Francouzský Kanaďan | Francouzsko-kanadský zvukový datový soubor | 1000 | 1000 | Kanadské francouzštině | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
hebrejština | Hebrejský zvukový soubor dat | 750 | 750 | 1500 | Hebrejština v Izraeli | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
indonéský | Indonéská zvuková datová sada | 1000 | 1000 | 2000 | Indonéská bahasa | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
japonský | Japonský zvukový datový soubor | 2000 | 2000 | Japonci z Japonska | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
korejský | Korejský zvukový datový soubor | 100 | 200 | 1500 | 1800 | Řečníci se rozšířili po celé Jižní Koreji. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
malajsky | Malajský zvukový datový soubor | 500 | 500 | 1000 | Malajština v Malajsii | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Mexická španělština | Mexická španělská audio datová sada | 1250 | 1250 | Mexičan z Mexika | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
polský | Polský zvukový datový soubor | 250 | 2000 | 2250 | Polština z Polska | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
ruský | Ruský zvukový datový soubor | 2000 | 2000 | Rus z Ruska | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
svahilština | Svahilský zvukový datový soubor | 350 | 650 | 1000 | Jihoafrická a keňská svahilština | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
švédský | Švédská audio datová sada | 350 | 650 | 1000 | švédština ve Švédsku | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Tchajwanská čínština | Tchajwanská čínská audio datová sada | 1000 | 1000 | Číňané z Tchaj-wanu | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
thajština | Thajský zvukový soubor dat | 350 | 450 | 800 | Neformální registr používaný mezi přáteli, | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
turecký | Turecká audio datová sada | 2000 | 2000 | Turečtina z Turecka | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||||
Vietnamec | Vietnamský zvukový datový soubor | 600 | 400 | 1000 | Severní (např. Hanoj), střední a jižní (např. Ho Či Minovo město). | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
hindština | Hindská zvuková datová sada | 800 | 2000 | 2800 | Hindština v Indii konkrétně v severní, východní a západní oblasti | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
Hinglish | Indická anglická zvuková datová sada | 300 | 500 | 800 | Shromážděno z městských indických měst, která jsou finančními centry země kvůli rostoucím ekonomickým příležitostem. Taková místa mohou být Noida, Dillí, Dehradun, Chandigarh, Bombaj, Kalkata, Bangalore, Pune, Chennai, Hyderabad atd. | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||
angličtina | Anglický zvukový datový soubor | 700 | 700 | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | |||||
kannada | Kannadský zvukový datový soubor | 60 | 100 | 40 | 200 | Kannada z Karnataky v Indii | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
malabarština | Malajálamská zvuková datová sada | 60 | 100 | 40 | 200 | Malayalam z Keraly, Lakshadweep a Puducherry | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
Oriya | Orijský zvukový datový soubor | 60 | 100 | 40 | 200 | Oriya z částí Urísa, Západní Bengálsko, Jharkhand a Chhattisgarh | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
pandžábský | Paňdžábský zvukový datový soubor | 60 | 100 | 40 | 200 | Pandžábština z Paňdžábu v Indii | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
tamilština | Tamil Audio Dataset | 60 | 100 | 240 | 400 | Tamil z Tamil Nadu, Indie | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
telugština | Telugu Audio Dataset | 100 | 950 | 950 | 2000 | Telugu z Andhra Pradesh, Indie | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
bengálský | Bengálský zvukový soubor dat | 60 | 100 | 40 | 200 | Bengálský ze Západního Bengálska, Indie | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
gujarati | Gujarati Audio Dataset | 60 | 100 | 40 | 200 | Gudžarátština z Gudžarátu, Indie | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
maráthština | Marathi Audio Dataset | 60 | 100 | 40 | 200 | Marathi z Maháráštry v Indii | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt | ||
Assamese | Asámský zvukový datový soubor | 60 | 100 | 40 | 200 | Assamese z Assam, Indie | . Wav | .Json | ASR, virtuální asistent, chatbot, konverzační umělá inteligence, analýza řeči, TTS, jazykové modelování | Saip | Kontakt Kontakt |
Hluboká odbornost v konverzační AI
Konverzační umělá inteligence nebo chatboti nebo virtuální / digitální asistenti jsou jen tak chytří, jako technologie a data za nimi. Ve společnosti Shaip vám nabízíme širokou sadu diverzifikovaných zvukových datových souborů pro zpracování přirozeného jazyka (NLP), které napodobují konverzace se skutečnými lidmi, což vám umožní oživit vaši AI. Díky našemu hlubokému porozumění vám pomůžeme vytvořit a lokalizovat modely řeči s podporou umělé inteligence s maximální přesností díky bohatým a strukturovaným datovým sadám ve více jazycích z celého světa. Nabízíme vícejazyčné shromažďování zvuku, přepis zvuku a služby zvukových anotací na základě vašeho požadavku, přičemž plně přizpůsobíme požadovaný záměr, výroky a demografickou distribuci.
Skriptovaná sbírka řeči
Sbírka spontánní řeči
Přepis zvukových dat
Označování a anotace dat
Shaip vám umožňuje přesně trénovat vaši platformu konverzační umělé inteligence, aby mohla:
- Bezproblémově mluvte, pište a chatujte na více kanálech.
- Učte se ze stávajících interakcí ve formě chatu, hlasových přepisů, transakcí atd. a na základě těchto poznatků navrhujte a konverzujte.
- Pochopte záměr lidské řeči a odstraňte nejednoznačnost v porozumění lidské řeči.
- Komunikujte s vámi individuálně a lze je vycvičit k identifikaci uživatelů a zapamatování si minulých konverzací.
Světový lídr v oblasti konverzačních dat o školení AI
Hodiny zvukových dat ve více než 100 jazycích - zdrojové, přepisované a anotované
Licencování dat řeči
20k + hodiny dat řeči ve více než 40 jazycích a dialektech pokrývajících více než 55 témat z různých domén, tj. Call-centrum, debaty, obecné konverzace, řeči, podcasty atd.
Sběr dat řeči
Sbírejte zvuková a řečová data (monolog, konverzace pro 2 osoby, chat mezi lidmi) ve více než 100 jazycích z celého světa, přizpůsobených vašim požadavkům AI.
Přepis dat řeči
Nákladově efektivní přepis zvuku nebo zvukové poznámky prostřednictvím silné pracovní síly 30,000 XNUMX spolupracovníků se zaručenou TAT, přesností a úsporami
Zrychlete vývoj svých konverzačních aplikací AI pomocí služby Audio Collection & Audio Annotation Services
Výhoda Shaip
Měřítko
Můžeme na základě vašich požadavků získávat, škálovat a doručovat zvuková data z celého světa ve více jazycích a dialektech.
Odbornost
Máme správné znalosti týkající se přesného a nezaujatého sběru dat, přepisu a anotací podle zlatého standardu.
Síť
Síť 30,000 XNUMX+ kvalifikovaných přispěvatelů, kterým lze rychle přiřadit úkoly sběru dat k vytvoření modelu školení AI a rozšiřování služeb.
Technika
Máme plně založenou platformu založenou na AI s proprietárními nástroji a procesy, abychom mohli nepřetržitě využívat správu pracovního toku.
Hbitost
Velmi rychle se přizpůsobujeme změnám v požadavcích zákazníků a pomáháme urychlit vývoj AI s kvalitními řečovými daty 5–10krát rychleji než u konkurence.
Bezpečnost
Zabezpečení a soukromí dat přikládáme maximální důležitost a jsme také certifikováni pro zpracování vysoce regulovaných citlivých údajů.
Co umíme nejlépe
Údaje o školení
Získejte nejkvalitnější označená data za zlomek času. Je to zlatý standard, spolehlivé a připravené trénovat vaše modely AI a ML k dosažení nejvyšší úrovně výkonu.
Sběr dat, označování a anotace
Se Shaipem získáte více než 15 let prověřené odborné znalosti v oblasti shromažďování, přepisu a anotací kvalitních dat. S naší globální pracovní silou můžeme shromažďovat data z celého světa a poté poskytovat služby označování a anotací s perfektní úrovní dovedností a odborných znalostí, které jsou pro vaše data zapotřebí.
Datové katalogy a licence
S naším rozsáhlým inventářem milionů datových sad můžete shromažďovat a organizovat podle potřeby. Poté můžeme licencovat data o kvalitě pro vaše specifické požadavky na používání AI a ML. Navíc jsou tato data k dispozici za zlomek nákladů, pokud byste je vytvořili sami.
Chcete si vytvořit vlastní datovou sadu?
Kontaktujte nás nyní a zjistěte, jak můžeme shromáždit vlastní sadu dat pro vaše jedinečné řešení AI.