Dav pracovníků pro sběr dat

Dav pracovníků pro sběr dat – nepostradatelná součást etické umělé inteligence

V našem úsilí o vybudování robustních a nezaujatých řešení AI je důležité, abychom se zaměřili na trénink modelů na nezaujatém, dynamickém a reprezentativním sortimentu dat. Náš proces shromažďování dat je nesmírně důležitý při vývoji důvěryhodných řešení AI. V tomto ohledu shromažďování Data školení AI prostřednictvím davových pracovníků se stává kritickým aspektem strategie sběru dat.

V tomto článku se podíváme na roli davových pracovníků a jejich dopad na rozvoj AI algoritmy učení a ML modely a potřeby a výhody, které to celému procesu přináší. 

Proč jsou k vytváření modelů umělé inteligence potřeba davové pracovníky?

Jako lidé generujeme tuny dat, ale jen zlomek těchto generovaných a shromážděných dat má hodnotu. Kvůli nedostatku standardů pro srovnávání dat je většina shromážděných údajů buď zaujatá, plná problémů s kvalitou nebo není reprezentativní pro životní prostředí. Od té doby víc a víc strojové učení a vyvíjejí se modely hlubokého učení, které prosperují z obrovského množství dat, stále více pociťujeme potřebu lepších, novějších a různorodých datových sad.

Právě tam vstupují do hry davoví pracovníci.

Crowd-sourcing data vytváří datovou sadu za účasti velkých skupin lidí. Dav pracovníků vlévá lidskou inteligenci do umělé inteligence.

Crowd-sourcingové platformy dát sběr dat a anotační mikroúkoly velké a různorodé skupině lidí. Crowdsourcing umožňuje společnostem přístup k masivní, dynamické, nákladově efektivní a škálovatelné pracovní síle.

Nejoblíbenější crowdsourcingová platforma – Amazon Mechanical Turk, dokázala získat 11 tisíc dialogů mezi lidmi během 15 hodin a platila zaměstnancům $0.35 za každý úspěšný dialog. Dav pracovníků je zaměstnán za tak skromné ​​množství, což vrhá světlo na důležitost vytváření etických standardů pro získávání dat.

Teoreticky to zní jako chytrý plán, přesto není snadno proveditelná strategie. Anonymita davových pracovníků vedla k problémům s nízkou mzdou, nedodržováním práv pracovníků a nekvalitní prací ovlivňující výkon modelu AI. 

Výhody davových pracovníků pro zdroje dat

Zapojením různorodé skupiny davových pracovníků mohou vývojáři řešení založených na AI distribuovat mikroúlohy a shromažďovat různá a rozšířená pozorování rychle a za relativně nízkou cenu.

Některé z významných výhod zaměstnávání davových pracovníků pro projekty AI jsou

Výhody sběru dat prostřednictvím davových pracovníků

Rychlejší uvedení na trh: Podle výzkumu společnosti Cognilytica téměř 80% of umělá inteligence čas projektu je věnován činnostem sběru dat, jako je čištění dat, označování a agregace dat. Pouze 20 % času je věnováno rozvoji a školení. Tradiční překážky při generování dat jsou odstraněny, protože lze v krátké době získat velký počet přispěvatelů. 

Cenově efektivní řešení: Crowd-source sběr dat snižuje čas a energii vynaloženou na školení, nábor a jejich zapojení. To eliminuje náklady, čas a zdroje potřebné, protože pracovní síla je zaměstnána metodou platby za úkol. 

Zvyšuje rozmanitost v datové sadě: Různorodost dat je zásadní pro celé školení řešení AI. Aby model produkoval nezaujaté výsledky, musí být trénován na různorodém souboru dat. Díky crowdsourcingu dat je možné generovat různorodé (geografické, jazyky, dialekty) datové sady s malým úsilím a náklady.

Vylepšuje škálovatelnost: Když přijmete spolehlivé davové pracovníky, můžete to zajistit vysoce kvalitní sběr dat, který lze škálovat podle potřeb vašeho projektu.

Interní vs. crowdsourcing – Kdo vyjde jako vítěz?

Vnitropodniková dataCrowdsourced data
Lze zaručit přesnost a konzistenci dat.Kvalitu, přesnost a konzistenci dat lze zachovat, pokud se použijí spolehlivé platformy crowdsourcingu se standardními opatřeními kontroly kvality
Vlastní získávání dat není vždy praktické rozhodnutí, protože váš interní tým nemusí splňovat požadavky projektu.Diverzita dat může být zajištěna, protože je možné najmout heterogenní skupinu davových pracovníků na základě potřeb projektu.
Nábor a školení pracovníků pro potřeby projektu je nákladné.Cenově efektivní řešení sběr dat protože je možné nabírat, školit a přijímat pracovníky s menšími investicemi.
Doba uvedení na trh je dlouhá, protože vnitropodnikový sběr dat zabere značnou dobu.Doba uvedení na trh je výrazně kratší, protože mnoho příspěvků přichází rychle.
Malá skupina interních přispěvatelů a štítkovačůVelká a různorodá skupina přispěvatelů a štítky dat
Důvěrnost dat je s interním týmem velmi vysoká.Při práci s velkými davovými pracovníky po celém světě je obtížné zachovat důvěrnost dat.
Snazší sledování, trénování a vyhodnocování sběračů datNáročné sledování a školení sběratelů dat.

Překlenutí propasti mezi crowdsource pracovníky a žadatelem.

Překlenutí propasti mezi Crowdsource pracovníky a žadatelem Existuje naléhavá potřeba překlenout propast mezi davovými pracovníky a žadateli, a to nejen v oblasti odměňování.

Ze strany žadatele je zjevný nedostatek informací, protože pracovníkům jsou poskytovány pouze informace týkající se konkrétního úkolu. Například, ačkoli pracovníci dostávají mikroúkoly, jako je nahrávání dialogů v jejich rodném dialektu, jen zřídka jim je poskytnut kontext. Nemají požadované informace o tom, proč to, co dělají, a jak to nejlépe dělat. Tento nedostatek informací ovlivňuje kvalita práce z davových zdrojů.

Pro lidskou bytost poskytuje celý kontext jasnost a účel jejich práce.

Přidejte k tomuto mixu další rozměr NDA – smlouvy o mlčenlivosti, které omezují množství informací, které jsou davovým pracovníkům poskytovány. Z pohledu davových pracovníků toto stažení informací ukazuje nedostatek důvěry a sníženou důležitost jejich práce.

Když se na stejnou situaci podíváme z druhého konce spektra, je zde nedostatek transparentnosti ze strany pracovníka. Žadatel plně nerozumí pracovníkovi pověřenému provedením práce. Některé projekty mohou vyžadovat specifický typ pracovníka; ve většině projektů však panuje nejednoznačnost. The pozemní pravda může to komplikovat hodnocení, zpětnou vazbu a školení.

Abychom těmto obtížím čelili, je důležitá spolupráce s odborníky na sběr dat, kteří mají zkušenosti s poskytováním různorodých, kurátorských a dobře reprezentovaných dat od širokého výběru přispěvatelů.

Výběr Shaip jako vašeho datového partnera může mít řadu výhod. Zaměřujeme se na rozmanitost a reprezentativní distribuci dat. Naši zkušení a oddaní zaměstnanci rozumí nátlakům každého projektu a vyvíjejí datové sady, které dokážou obratem vytrénovat robustní řešení založená na umělé inteligenci.

[Přečtěte si také: Úvodní příručka AI Training Data: Definice, příklad, datové sady]

Sociální sdílení