AI tréninková data

Kolik dat je dost? Hluboký ponor do potřeb strojového učení

Funkční model umělé inteligence je postaven na pevných, spolehlivých a dynamických souborech dat. Bez bohaté a detailní AI tréninková data po ruce rozhodně není možné vybudovat hodnotné a úspěšné řešení AI. Víme, že složitost projektu určuje a určuje požadovanou kvalitu dat. Nejsme si ale přesně jisti, kolik tréninkových dat potřebujeme k sestavení vlastního modelu.

Neexistuje jednoznačná odpověď na to, jaké množství je správné tréninková data pro strojové učení je potřeba. Věříme, že místo práce s figurkou z kulového hřiště vám množství metod může poskytnout přesnou představu o velikosti dat, která byste mohli potřebovat. Ještě předtím si ale porozumějme, proč jsou tréninková data klíčová pro úspěch vašeho projektu AI.

Význam tréninkových dat

Arvind Krishna, generální ředitel IBM, ve svém projevu na festivalu Future of Everything The Wall Street Journal řekl, že 80 % práce v projektu AI je o shromažďování, čištění a přípravě dat.“ A byl také toho názoru, že podniky se vzdávají svých podniků s umělou inteligencí, protože nemohou držet krok s náklady, prací a časem potřebným ke shromažďování cenných školicích dat.

Určení dat velikost vzorku pomáhá při navrhování řešení. Pomáhá také přesně odhadnout náklady, čas a dovednosti potřebné pro projekt.

Pokud jsou k trénování modelů ML použity nepřesné nebo nespolehlivé datové sady, výsledná aplikace nebude poskytovat dobré předpovědi.

7 faktorů, které určují objem požadovaných tréninkových dat

Ačkoli požadavky na data, pokud jde o objem pro trénování modelů AI, jsou zcela subjektivní a měly by být posuzovány případ od případu, existuje několik univerzálních faktorů, které objektivně ovlivňují. Podívejme se na ty nejčastější.

Model strojového učení

Objem tréninkových dat závisí na tom, zda trénink vašeho modelu běží na učení pod dohledem nebo bez něj. Zatímco první vyžaduje více tréninkových dat, druhý nikoli.

Dozorované učení

To zahrnuje použití označených dat, což zase zvyšuje složitost školení. Úlohy, jako je klasifikace obrázků nebo shlukování, vyžadují štítky nebo atribuce, aby počítače mohly dešifrovat a rozlišovat, což vede k poptávce po větším množství dat.

Učení bez dozoru

Používání označených dat není povinností při učení bez dozoru, čímž se srovnatelně snižuje potřeba obrovských objemů dat. Díky tomu by objem dat byl pro modely stále vysoký, aby detekovaly vzory a identifikovaly vrozené struktury a korelovaly je.

Variabilita a rozmanitost

Aby byl model co nejspravedlivější a nejobjektivnější, měla by být zcela odstraněna vrozená zaujatost. To znamená pouze to, že je zapotřebí více objemů různých datových sad. To zajišťuje, že se model učí množství existujících pravděpodobností, což mu umožňuje vyhnout se generování jednostranných odpovědí.

Rozšiřování dat a učení přenosu

Získávání kvalitních dat pro různé případy použití napříč odvětvími a doménami není vždy bezproblémové. V citlivých odvětvích, jako je zdravotnictví nebo finance, jsou kvalitní data jen stěží dostupná. V takových případech se augmentace dat zahrnující použití syntetizovaných dat stává jedinou cestou vpřed v trénovacích modelech.

Experimentování a ověřování

Iterativní trénink je rovnováha, kde se objem požadovaných tréninkových dat vypočítává po důsledném experimentování a validaci výsledků. Prostřednictvím opakovaného testování a sledování

zúčastněné strany mohou posoudit, zda je pro optimalizaci odezvy zapotřebí více tréninkových dat.

Jak snížit požadavky na objem tréninkových dat

Bez ohledu na to, zda jde o rozpočtové omezení, termín uvedení na trh nebo nedostupnost různých dat, existují některé možnosti, které mohou podniky využít, aby snížily svou závislost na obrovských objemech školicích dat.

Rozšíření dat

kde jsou nová data generována nebo syntetizována z existujících datových sad, je ideální pro použití jako tréninková data. Tato data pocházejí a napodobují rodičovská data, což jsou 100% skutečná data.

Přenos učení

To zahrnuje úpravu parametrů existujícího modelu pro provedení a provedení nového úkolu. Pokud se váš model například naučil identifikovat jablka, můžete použít stejný model a upravit jeho stávající trénovací parametry, aby bylo možné identifikovat také pomeranče.

Předtrénované modely

Kde mohou být stávající znalosti použity jako moudrost pro váš nový projekt. Může to být ResNet pro úkoly spojené s identifikací obrazu nebo BERT pro případy použití NLP.

Reálné příklady projektů strojového učení s minimálními datovými sadami

I když se může zdát nemožné, že některé ambiciózní projekty strojového učení lze realizovat s minimem surovin, některé případy jsou až překvapivě pravdivé. Připravte se být ohromeni.

Kaggleova zprávaZdravotní péčeKlinická onkologie
Průzkum Kaggle odhalil, že více než 70 % projektů strojového učení bylo dokončeno s méně než 10,000 XNUMX vzorky.S pouhými 500 snímky tým MIT vycvičil model pro detekci diabetické neuropatie v lékařských snímcích z očních skenů.V pokračování příkladu se zdravotní péčí se týmu Stanfordské univerzity podařilo vyvinout model pro detekci rakoviny kůže s pouhými 1000 snímky.

Vytváření vzdělaných odhadů

Odhad požadavků na tréninková data

Neexistuje žádné magické číslo týkající se minimálního množství požadovaných dat, ale existuje několik základních pravidel, pomocí kterých můžete dospět k racionálnímu číslu.

Pravidlo 10

Jako pravidloAby bylo možné vyvinout účinný model umělé inteligence, počet požadovaných trénovacích datových sad by měl být desetkrát větší než každý parametr modelu, nazývaný také stupně volnosti. Cílem pravidel „10“ je omezit variabilitu a zvýšit rozmanitost dat. Jako takové vám toto základní pravidlo může pomoci zahájit váš projekt tím, že vám poskytne základní představu o požadovaném množství datových sad.  

Hluboké učení

Metody hlubokého učení pomáhají vyvinout vysoce kvalitní modely, pokud je systému poskytnuto více dat. Obecně se uznává, že mít 5000 označených obrázků na kategorii by mělo stačit k vytvoření algoritmu hlubokého učení, který může fungovat na stejné úrovni jako lidé. K vývoji výjimečně složitých modelů je zapotřebí alespoň 10 milionů označených položek.

Počítačové vidění

Pokud pro klasifikaci obrázků používáte hluboké učení, existuje shoda, že datová sada 1000 označených obrázků pro každou třídu je slušné číslo. 

Křivky učení

Křivky učení se používají k demonstraci výkonu algoritmu strojového učení proti množství dat. Díky znalosti modelu na ose Y a trénovací datové sadě na ose X je možné pochopit, jak velikost dat ovlivňuje výsledek projektu.

Nevýhody příliš malého množství dat 

Můžete si myslet, že je docela zřejmé, že projekt potřebuje velké množství dat, ale někdy ani velké podniky s přístupem ke strukturovaným datům je nedokážou získat. Trénink na omezeném nebo úzkém množství dat může zastavit modely strojového učení od dosažení jejich plného potenciálu a zvýšit riziko poskytnutí nesprávných předpovědí.

I když neexistuje žádné zlaté pravidlo a pro předvídání potřeb trénovacích dat se obvykle provádí hrubé zobecnění, je vždy lepší mít velké datové sady, než trpět omezeními. Omezení dat, kterým váš model trpí, by byla omezením vašeho projektu.  

Co dělat, pokud potřebujete více datových sad

Techniky/zdroje sběru dat

Ačkoli každý chce mít přístup k velkým datovým sadám, je to snazší říci, než udělat. Pro úspěch projektu je zásadní získat přístup k velkému množství datových sad kvality a rozmanitosti. Zde vám poskytneme strategické kroky, které usnadní sběr dat.

Otevřete datovou sadu 

Otevřené datové sady jsou obvykle považovány za „dobrý zdroj“ bezplatných dat. I když to může být pravda, otevřené datové sady nejsou to, co projekt ve většině případů potřebuje. Existuje mnoho míst, ze kterých lze získávat data, jako jsou vládní zdroje, datové portály EU Open, průzkumníci veřejných dat Google a další. Používání otevřených datových sad pro složité projekty má však mnoho nevýhod.

Při používání takových datových sad riskujete školení a testování váš model na nesprávná nebo chybějící data. Metody sběru dat nejsou obecně známy, což by mohlo ovlivnit výsledek projektu. Soukromí, souhlas a krádež identity jsou významnými nevýhodami používání otevřených zdrojů dat.

Rozšířená datová sada 

Když nějaké máte množství tréninkových dat ale nestačí to ke splnění všech požadavků vašeho projektu, musíte použít techniky rozšiřování dat. Dostupná datová sada je přepracována tak, aby vyhovovala potřebám modelu.

Vzorky dat projdou různými transformacemi, díky nimž je datová sada bohatá, rozmanitá a dynamická. Jednoduchý příklad augmentace dat lze vidět při práci s obrázky. Obraz lze zvětšit mnoha způsoby – lze jej ořezávat, měnit jeho velikost, zrcadlit, otáčet do různých úhlů a měnit nastavení barev.

Syntetická data

V případě nedostatku dat se můžeme obrátit na generátory syntetických dat. Syntetická data jsou užitečná z hlediska přenosu učení, protože model lze nejprve trénovat na syntetických datech a později na reálném datovém souboru. Například samořídící vozidlo založené na umělé inteligenci lze nejprve natrénovat, aby rozpoznávalo a analyzovalo objekty v něm počítačového vidění videohry.

Syntetická data jsou prospěšná, když chybí reálná data data trénovat a otestujte si svůj trénované modely. Kromě toho se také používá při řešení ochrany soukromí a citlivosti dat.

Vlastní sběr dat 

Vlastní sběr dat je možná ideální pro generování datových sad, když jiné formy nepřinášejí požadované výsledky. Vysoce kvalitní datové sady lze generovat pomocí nástrojů pro stírání webu, senzorů, kamer a dalších nástrojů. Když potřebujete datové sady šité na míru, které zvýší výkon vašich modelů, může být pořízení vlastních datových sad tím správným krokem. Své odborné znalosti nabízí několik poskytovatelů služeb třetích stran.

Aby bylo možné vyvinout vysoce výkonná řešení umělé inteligence, modely musí být vyškoleny na kvalitních spolehlivých souborech dat. Není však snadné získat bohaté a podrobné soubory dat, které pozitivně ovlivňují výsledky. Ale když se spojíte se spolehlivými poskytovateli dat, můžete vytvořit výkonný model umělé inteligence se silným datovým základem.

Máte na mysli skvělý projekt, ale čekáte na datové sady šité na míru pro trénování vašich modelů nebo se snažíte získat ten správný výsledek z vašeho projektu? Nabízíme rozsáhlé školicí datové sady pro různé potřeby projektů. Využijte potenciál Saip rozhovorem s jedním z našich vědci s údaji dnes a pochopení toho, jak jsme klientům v minulosti dodávali vysoce výkonné a kvalitní datové sady.

Sociální sdílení