Pokud máte v úmyslu zahájit úspěšný obchod s koblihami, musíte připravit nejlepší koblihy na trhu. I když vaše technické dovednosti a zkušenosti hrají zásadní roli ve vašem podnikání s koblihami, abyste se svou pochoutkou skutečně proklikali mezi vaše cílové publikum a získali opakující se obchody, musíte své koblihy připravit z těch nejlepších možných ingrediencí.
Kvalita vašich jednotlivých ingrediencí, místo, odkud je získáváte, jak se mísí a vzájemně se doplňují, a stále více určuje chuť, tvar a konzistenci koblihy. Totéž platí pro vývoj vašich modelů strojového učení.
I když se tato analogie může zdát bizarní, uvědomte si, že nejlepší složkou, kterou můžete do svého modelu strojového učení vložit, jsou kvalitní data. Je ironií, že toto je také nejobtížnější část vývoje AI (Artificial Intelligence). Podniky se potýkají se získáváním a sestavováním kvalitních dat pro své tréninkové postupy AI, což končí buď zpožděním vývoje, nebo spuštěním řešení s nižší účinností, než se očekávalo.
Jsou omezeni rozpočty a provozními omezeními a jsou nuceni uchýlit se k nekonvenčním metodám sběru dat, jako jsou různé techniky crowdsourcingu. Tak co, funguje to? Je crowdsourcing vysoce kvalitních dat opravdu věc? Jak vůbec měříte kvalitu dat?
Pojďme to zjistit.
Co je kvalita dat a jak ji měříte?
Kvalita dat se nepřekládá jen do toho, jak čisté a strukturované jsou vaše datové sady. To jsou estetické metriky. Opravdu záleží na tom, jak relevantní jsou vaše data pro vaše řešení. Pokud vyvíjíte model AI pro a zdravotnické řešení a většina vašich datových souborů jsou pouhé zásadní statistiky z nositelných zařízení, to, co máte, jsou špatná data.
S tím neexistuje žádný hmatatelný výsledek. Kvalita dat se tedy scvrkává na data, která jsou v kontextu s vašimi obchodními aspiracemi, jsou kompletní, s poznámkami a připravená pro stroje. Hygiena dat je podmnožinou všech těchto faktorů.
Nyní, když víme, co jsou data nízké kvality, máme také uvedené níže seznam 5 faktorů, které ovlivňují kvalitu dat.
Jak měřit kvalitu dat?
Poměr dat k chybám
To sleduje počet chyb, které má datová sada s ohledem na její objem.
Prázdné hodnoty
Tato metrika udává počet neúplných, chybějících nebo prázdných hodnot v datových sadách.
Poměry chyb transformace dat
To sleduje množství chyb, které se objeví, když je datová sada transformována nebo převedena do jiného formátu.
Tmavý objem dat
Tmavá data jsou jakákoli data, která jsou nepoužitelná, nadbytečná nebo vágní.
Data Time To Value
To měří množství času, který vaši zaměstnanci stráví extrahováním požadovaných informací z datových sad.
Jak tedy zajistit kvalitu dat při Crowdsourcingu
Někdy bude váš tým nucen shromažďovat data v přísných lhůtách. V takových případech, techniky crowdsourcingu pomozte významně. Znamená to však, že crowdsourcing vysoce kvalitních dat může být vždy věrohodným výsledkem?
Pokud jste ochotni přijmout tato opatření, kvalita vašich crowdsourcovaných dat by se do určité míry zvýšila, abyste je mohli použít pro účely rychlého školení AI.
Jasné a jednoznačné pokyny
Crowdsourcing znamená, že budete oslovovat crowdsourcingové pracovníky přes internet, abyste přispěli k vašim požadavkům relevantními informacemi.
Existují případy, kdy skuteční lidé neposkytnou správné a relevantní podrobnosti, protože vaše požadavky byly nejednoznačné. Abyste tomu zabránili, publikujte soubor jasných pokynů o tom, o čem celý proces je, jak by jejich příspěvky pomohly, jak by mohli přispět a další. Chcete-li minimalizovat křivku učení, zaveďte snímky obrazovky, jak odeslat podrobnosti, nebo použijte krátká videa o postupu.
Diverzita dat a odstranění zkreslení
Zveřejněte svou crowdsourcingovou kampaň napříč různé segmenty trhu, publikum, etnika, věkové skupiny, ekonomické zázemí a další. To vám pomůže sestavit bohatý soubor dat, který můžete použít pro nezkreslené výsledky.
Více procesů QA
V ideálním případě by váš postup kontroly kvality měl zahrnovat dva hlavní procesy:
- Proces vedený modely strojového učení
- A proces vedený týmem profesionálních spolupracovníků zajišťujících kvalitu
QA strojového učení
Může se jednat o váš předběžný ověřovací proces, kde modely strojového učení hodnotí, zda jsou vyplněna všechna požadovaná pole, zda jsou nahrány potřebné dokumenty nebo podrobnosti, zda jsou položky relevantní pro publikovaná pole, rozmanitost datových sad a další. Pro komplexní datové typy, jako je zvuk, obrázky nebo videa, lze modely strojového učení také trénovat, aby ověřily nezbytné faktory, jako je délka, kvalita zvuku, formát a další..
Manuální QA
To by byl ideální proces kontroly kvality druhé vrstvy, kde váš tým profesionálů provádí rychlé audity náhodných souborů dat, aby zkontroloval, zda jsou splněny požadované metriky kvality a standardy.
Pokud existuje vzor ve výsledcích, model by mohl být optimalizován pro lepší výsledky. Důvodem, proč by ruční kontrola kvality nebyla ideálním předběžným procesem, je objem datových sad, které byste nakonec získali.
Takže, jaký je váš plán?
Toto byly nejpraktičtější osvědčené postupy k optimalizaci crowdsourcing datová kvalita. Tento proces je zdlouhavý, ale opatření jako tato jej činí méně těžkopádným. Implementujte je a sledujte své výsledky, abyste zjistili, zda jsou v souladu s vaší vizí.