Sběr dat pro konverzační umělou inteligenci

Jak přistupovat ke sběru dat pro konverzační umělou inteligenci

Dnes máme nějaké mluvící roboty jako chatboty, virtuální asistenty a další v našich domácnostech, systémech automobilů, přenosných zařízeních, řešeních domácí automatizace atd. Tato zařízení přesně naslouchají tomu, co říkáme a jak říkáme, a získávají výsledky nebo provádějí konkrétní úkoly. .

A pokud jste používali asistenta jako Siri nebo Alexa, také byste si uvědomili, že jsou den ode dne svéráznější. Jejich odpovědi jsou vtipné, odpoví, pohrdají, oplácejí komplimenty a chovají se lidštěji než někteří kolegové, které možná znáte. Neděláme si srandu. Podle PwC27 % uživatelů, kteří komunikovali se svým nedávným spolupracovníkem zákaznických služeb, nevědělo, zda mluví s člověkem nebo chatbotem.

Vývoj takových složitých konverzačních systémů a zařízení je velmi složitý a skličující. Je to úplně jiná míčová hra s odlišnými přístupy k vývoji. Proto jsme si řekli, že bychom to pro vás měli rozebrat pro snazší pochopení. Pokud tedy hledáte vývoj konverzačního AI motoru nebo virtuálního asistenta, tento průvodce vám pomůže získat jasno.

Význam konverzační umělé inteligence

Jak se technologie stávají integrálnější součástí našich životů v podobě novějších zařízení a systémů, vyvstává potřeba posouvat bariéry, bořit konvence a vymýšlet nové způsoby interakce s nimi. Od jednoduchého používání připojených periferií, jako je myš a klávesnice, jsme přešli na podložky pod myš, které nabízejí více pohodlí. Poté jsme přešli na dotykové obrazovky, které nabízely další pohodlí při podávání vstupů a provádění úkolů.

Se zařízeními, která se stávají rozšířením nás samých, nyní odemykáme nové médium ovládání hlasem. K ovládání zařízení nemusíme být ani blízko. Jediné, co musíme udělat, je použít svůj hlas k odemknutí a ovládat naše vstupy. Z blízké místnosti, při řízení a současném používání jiného zařízení, konverzační umělá inteligence bez problémů plní zamýšlené úkoly. Kde tedy začneme – vše začíná vysoce kvalitními daty řeči pro trénování modelů ML.

Základy shromažďování dat tréninku řeči

Shromažďování a anotování tréninkových dat AI pro konverzační AI je velmi odlišné. Lidské příkazy zahrnují spoustu složitostí a je třeba zavést různá opatření, aby bylo zajištěno, že každý aspekt bude přizpůsoben pro působivé výsledky. Podívejme se, jaké jsou některé základy řečových dat.

Porozumění přirozenému jazyku (NLU)

Aby chatboti a virtuální asistenti pochopili a reagovali na to, co píšeme nebo přikazujeme, je to proces zvaný NLU je implementován. Znamená Porozumění přirozenému jazyku a zahrnuje tři technologické koncepty pro interpretaci a zpracování různých typů vstupů.

  • Úmysl

    Všechno to začíná záměrem. Co se konkrétní uživatel snaží sdělit, komunikovat nebo dosáhnout prostřednictvím příkazu? Hledá uživatel informace? Čekají na aktualizace pro akci? Řídí pokyn, který má systém provést? Jak tomu velí? Je to prostřednictvím dotazu nebo žádosti? Všechny tyto aspekty pomáhají strojům porozumět a klasifikovat záměry a účely, aby bylo možné dosáhnout vzduchotěsných reakcí.

  • Sbírka výroků

    Je rozdíl mezi příkazem: "Kde je nejbližší bankomat?" a příkaz "Najdi mi nedaleký bankomat." Nyní by lidé uznali, že oba znamenají totéž, ale stroje musí být vysvětleny tímto rozdílem. Jsou stejné, pokud jde o záměr, ale způsob, jakým byl záměr vytvořen, je zcela odlišný.

    Kolekce výroků je o definování a mapování různých výroků a frází ke konkrétním cílům pro přesné provedení úkolů a odpovědí. Technicky vzato, specialisté na anotaci dat pracují s daty řeči nebo textovými daty, aby pomohli strojům toto rozlišit.

  • Extrakce entity

    Každá věta má specifická slova nebo fráze, které mají zdůrazněnou váhu, a právě tento důraz vede k interpretaci kontextu a účelu. Stroje, stejně jako rigidní systémy, kterými jsou, musí být takové entity podávány lžičkou. Například: "Kde najdu struny z mé kytary poblíž 6th Avenue?"

    Pokud větu upřesníte, find je entita jedna, struny jsou dvě, kytara je tři a 6. avenue je 4. Tyto entity jsou propojeny stroji, aby získaly vhodné výsledky, a aby k tomu došlo, pracují odborníci na backendu.

Běžně dostupné datové sady hlasu / řeči / zvuku pro rychlejší trénování vašeho modelu konverzační umělé inteligence

Navrhování dialogů pro konverzační umělou inteligenci

Cílem AI bylo převážně replikovat lidské chování pomocí gest, akcí a reakcí. Vědomá lidská mysl má vrozenou schopnost chápat kontext, záměr, tón, emoce a další faktory a podle toho reagovat. Jak ale mohou stroje tyto aspekty odlišit? 

Navrhování dialogů pro konverzační AI je velmi složitý a co je důležitější, zcela nemožné vytvořit univerzální model. Každý jedinec má jiný způsob myšlení, mluvení a reakce. I v odpovědích všichni vyjadřujeme své myšlenky jedinečně. Stroje tedy musí naslouchat a podle toho reagovat. 

To však také není hladké. Když lidé mluví, přicházejí faktory jako přízvuk, výslovnost, etnická příslušnost, jazyk a další a pro stroje není snadné špatně rozumět a špatně si vykládat slova a reagovat na ně.. Konkrétní slovo mohou stroje pochopit nesčetnými způsoby, když je diktují Ind, Brit, Američan a Mexičan. Do hry vstupují tuny jazykových bariér a nejpraktičtějším způsobem, jak přijít se systémem odezvy, je vizuální programování založené na vývojovém diagramu. 

Prostřednictvím vyhrazených bloků pro gesta, reakce a spouštěče mohou autoři a odborníci pomoci strojům vyvinout postavu. Je to spíše jako algoritmus, který může použít k tomu, aby přišel se správnými odpověďmi. Když je přiváděn vstup, informace proudí přes odpovídající faktory, což vede ke správné reakci, kterou mají stroje dodat. 

Vytočte D pro rozmanitost

Jak jsme již zmínili, lidské interakce jsou velmi jedinečné. Lidé po celém světě pocházejí z různých společenských vrstev, prostředí, národností, demografie, etnických skupin, přízvuků, dikce, výslovnosti a dalších. 

Aby byl konverzační bot nebo systém univerzálně použitelný, musí být trénován s co nejrozmanitějšími trénovacími daty. Pokud byl například model trénován pouze s daty řeči jednoho konkrétního jazyka nebo etnika, nový přízvuk by zmátl systém a přinutil jej poskytovat nesprávné výsledky. To není jen trapné pro majitele firem, ale také urážlivé pro uživatele. 

To je důvod, proč by vývojová fáze měla zahrnovat tréninková data AI z bohatého fondu různorodých datových sad složených z lidí ze všech možných prostředí. Čím více akcentů a etnik váš systém chápe, tím univerzálnější by byl. Kromě toho, co by uživatele více obtěžovalo, není nesprávné získávání informací, ale především nepochopení jejich vstupů. 

Odstranění zkreslení by mělo být klíčovou prioritou a jedním ze způsobů, jak toho mohou společnosti dosáhnout, je zvolit si data z crowdsourcingu. Když crowdsourcujete svá data řeči nebo textová data, umožníte lidem z celého světa přispívat k vašim požadavkům, díky čemuž bude váš datový fond pouze zdravý (Přečtěte si blog pochopit výhody a úskalí outsourcingu dat pracovníkům crowdsourcingu). Nyní bude váš model rozumět různým přízvukům a výslovnostem a podle toho reagovat. 

Cesta vpřed

Vyvinout konverzační umělou inteligenci je stejně obtížné jako vychovat dítě. Jediný rozdíl je v tom, že dítě časem porozumí věcem a zlepší se v autonomní komunikaci. Jsou to stroje, které je třeba důsledně tlačit. V současné době existuje v tomto prostoru několik výzev a měli bychom uznat skutečnost, že navzdory těmto výzvám máme některé z nejrevolučnějších konverzačních systémů umělé inteligence. Počkejme si a uvidíme, co budoucnost přinese našim přátelským sousedským chatbotům a virtuálním asistentům. Mezitím, pokud máte v úmyslu získat konverzační umělou inteligenci, jako je domovská stránka Google, vyvinutou pro vaši firmu, obraťte se na nás ohledně vašich tréninkových dat AI a potřeb poznámek.

Sociální sdílení