- Sběr dat: Moje školení začalo rozmanitou škálou internetových textů. Měl bych však poznamenat, že i když jsem byl vyškolen na širokém datovém souboru, neznám podrobnosti o tom, které dokumenty byly součástí tohoto tréninkového souboru, ani nemám přístup k žádným konkrétním dokumentům nebo zdrojům.
- Počáteční školení (předtrénink): Tady jsem se naučil předvídat další slovo ve větě. Nezačal jsem umět anglicky ani žádný jiný jazyk. Místo toho jsem předpovídáním dalšího slova v milionech vět postupně poznával gramatiku, fakta o světě a některé schopnosti uvažování. To však také znamená, že jsem se mohl poučit ze zkreslených nebo nesprávných informací, protože data nebyla důkladně filtrována.
- Doladění: Po úvodním školení moji tvůrci z OpenAI poskytli další pokyny s konkrétnější datovou sadou, vytvořenou s pomocí lidských kontrolorů. Tito recenzenti se řídí pokyny k přezkoumání a hodnocení možných výstupů modelu pro řadu příkladných vstupů. Proces dolaďování je jakýmsi dialogem mezi modelem a recenzenty, který mi pomáhá lépe se sladit s lidskými hodnotami.
- Průběžné učení: I když se z důvodu ochrany soukromí neučím z jednotlivých interakcí, OpenAI neustále spolupracuje s týmem lidských recenzentů, aby poskytovali zpětnou vazbu a opakovaně vylepšovali na základě širších vzorců a poznatků.
- Příklad předtréninku: Předpokládejme, že máme větu: „Kočka seděla na __“. V předtréninkové fázi se model jako já naučí předpovídat další slovo ve větě, což může být „rohož“, „střecha“ nebo „strom“. To se učí zpracováním miliard vět z různých internetových textů, které nepřímo zahrnují lidskou interakci, když lidé vytvářeli původní obsah.
- Příklad jemného doladění: Po předtréninkové fázi model přechází do fáze jemného ladění. Zde je návod, jak by to mohlo fungovat:
Lidský recenzent má za úkol zkontrolovat možné výstupy modelu pro vstup, jako je „Přeložte následující anglický text do francouzštiny: 'Ahoj, jak se máš?'“. Model může vygenerovat několik odpovědí jako „Bonjour, comment ça va?“ nebo "Salut, komentář vas-tu?" atd.
Recenzent hodnotí tyto odpovědi na základě faktorů, jako je přesnost, plynulost a vhodnost. Tato hodnocení pomáhají modelu zobecnit a reagovat na podobné vstupy v budoucnu.
Pamatujte, že zde uvedené příklady jsou zjednodušené, aby ilustrovaly proces. Vlastní školení zahrnuje složité algoritmy a obrovské množství dat.
- Různé údaje: Nejde jen o objem dat, ale také o rozmanitost. Data musí být různorodá, aby pokryla širokou škálu témat, stylů a tónů vyskytujících se v lidské řeči.
- Kvalita dat: Kvalita dat používaných pro trénink může také ovlivnit, jak efektivně se model učí. Kvalitnější data mohou potenciálně snížit objem potřebný pro efektivní trénink.
- Architektura modelu: Architektura modelu (jako počet vrstev nebo parametrů v neuronové síti) může také ovlivnit, kolik dat je potřeba. Větší modely, jako GPT-3 nebo GPT-4, obvykle vyžadují více dat než menší modely.
- Cíle školení: Typ úloh, které má model provádět, může ovlivnit množství potřebných dat. Model navržený pro konkrétní úlohu může vyžadovat méně dat, pokud je dobře zacílen, zatímco model pro obecné účely, jako je GPT-3 nebo GPT-4, navržený tak, aby zvládl širokou škálu úloh, bude vyžadovat více dat pro širší pochopení.
Například v případě GPT-3 má model 175 miliard parametrů a byl trénován na stovkách gigabajtů textu. Tato čísla však plně nevystihují složitost procesu. Specifika tréninkového procesu, včetně přesného množství použitých dat, jsou proprietární detaily držené OpenAI a podobnými organizacemi.
- Začněte v malém: Zejména pro jednoduché problémy nebo počáteční prototypy modelu může být adekvátní menší datový soubor. Pokud například vytváříte základní klasifikátor obrázků, můžete začít s několika stovkami nebo tisíci obrázků na kategorii.
- Zvažte složitost: Složitější problémy obvykle vyžadují více dat. Pokud vyvíjíte model hlubokého učení nebo pracujete se složitým problémem, jako je zpracování přirozeného jazyka, možná budete potřebovat miliony datových bodů.
- Kvalita nad kvantitou: Kvalitní a relevantní data mohou být často prospěšnější než obrovské množství nekvalitních dat. Je zásadní zajistit, aby vaše data byla správně vyčištěna, opatřena poznámkami a reprezentovala problém, který se snažíte vyřešit.
- Vyrovnejte své třídy: U výukových úkolů pod dohledem se ujistěte, že máte pro každou třídu dobrou rovnováhu příkladů. Nevyvážená datová sada může vést k modelu, který funguje špatně na nedostatečně zastoupených třídách.
- Použít ověřovací a testovací sady: Část vaší datové sady by měla být vyhrazena pro validaci (ladění parametrů modelu) a testování (hodnocení výkonu modelu). Běžné rozdělení může být 70 % dat pro trénink, 15 % pro validaci a 15 % pro testování, i když se tyto poměry mohou lišit.
- Experimentujte a opakujte: Začněte s počátečním množstvím dat, trénujte svůj model, vyhodnoťte jeho výkon a opakovaně přidávejte další data, upravujte svůj model nebo vylepšujte kvalitu dat na základě výsledků.
Pamatujte, že více dat obvykle zlepšuje výkon modelů strojového učení, ale pouze do určité míry. Po určité době může být shromažďování většího množství dat časově i finančně náročnější než jeho hodnota a může být výhodnější zaměřit se na zlepšení kvality dat nebo zpřesnění architektury modelu.
- Předtrénink: V této fázi je model vystaven velkému množství internetových textových dat. Tato data nejsou explicitně anotována, ale model je trénován tak, aby předpovídal další slovo ve větě. To dává modelu obecné porozumění gramatice, faktům o světě a určité schopnosti uvažování.
- Doladění: Po předběžném školení je model dále zpřesňován na užší datové sadě generované s pomocí lidských kontrolorů. Tito recenzenti se řídí pokyny OpenAI, aby zkontrolovali a ohodnotili možné výstupy modelu pro řadu vstupů. V tomto smyslu lze proces jemného ladění chápat jako formu anotace, kdy lidští recenzenti vedou reakce modelu, pomáhají mu lépe se sladit s lidskými hodnotami a zajišťují, že se vyhne nevhodnému nebo nebezpečnému obsahu.
Takže zatímco počáteční datová sada použitá pro předtrénování není komentována v tradičním slova smyslu, proces jemného ladění zahrnuje formu anotace, kdy lidští recenzenti řídí chování modelu hodnocením různých výstupů.
Správnost: Recenzenti hodnotí, zda je výstup modelu věcně správný.
Příklad:
Vhodnost: Výstup modelu je hodnocen z hlediska vhodnosti ve vztahu k danému vstupu.
Příklad:
Bezpečnost: Výstupy jsou kontrolovány, aby bylo zajištěno, že neobsahují škodlivé pokyny nebo urážlivé výrazy.
Příklad:
Úplnost: To posuzuje, zda odpověď modelu plně odpovídá na dotaz uživatele.
Příklad:
Plynulost: Recenzenti ověřují, zda je výstup modelu jazykově plynulý a koherentní.
Příklad:
Tyto kategorie jsou pouze příklady. Vlastní proces dolaďování zahrnuje složitější systém hodnocení a neustálou zpětnou vazbu mezi recenzenty a vývojovým týmem AI. Cílem těchto anotací je učinit odpovědi modelu užitečnější, bezpečnější a v souladu s lidskými hodnotami.
OpenAI, organizace stojící za ChatGPT, nezveřejňuje přesný počet recenzentů zapojených do procesu dolaďování. Nicméně vzhledem k rozsahu a složitosti školení tak velkého jazykového modelu lze s jistotou říci, že proces pravděpodobně zahrnuje značný tým recenzentů.
Tito lidští recenzenti se řídí pokyny poskytnutými OpenAI, aby kontrolovali a hodnotili možné výstupy modelu. Je to nepřetržitý, opakující se proces, kde se zpětná vazba recenzentů využívá ke zlepšování a zpřesňování modelu v průběhu času. OpenAI udržuje silnou zpětnou vazbu s recenzenty, včetně týdenních schůzek k řešení otázek a poskytnutí vysvětlení.
- Složitost úkolu: Jednoduché úkoly, jako je označování obrázků nebo kategorizace textu, by zabraly na PDF méně času, což by jednomu anotátorovi umožnilo zpracovat více souborů. Na druhou stranu složité úkoly, jako je podrobná extrakce entit nebo sémantická analýza, by vyžadovaly více času na dokument, a tedy více anotátorů pro stejný objem PDF.
- Délka a složitost PDF: Anotace delšího nebo složitějšího PDF zabere více času než kratšího nebo jednoduššího.
- Požadavky na kvalitu: Pokud je vyžadována vysoká přesnost, může být nutné mít více anotátorů na PDF pro křížové ověření anotací.
- Časová omezení: Pokud je třeba poznámky dokončit rychle, bude potřeba více anotátorů.
Jako hypotetický příklad řekněme, že anotátor může anotovat 5 PDF za den pro konkrétní úkol a pracuje 5 dní v týdnu. V tomto případě by k anotaci 10,000 2000 PDF potřeboval jeden anotátor 8 XNUMX dní, tedy asi XNUMX let.
Pokud byste však měli tým 20 anotátorů, mohli úkol dokončit přibližně za 5 měsíců (za předpokladu 20 pracovních dnů v měsíci). Se 100 anotátory by se stejný úkol dal zvládnout zhruba za měsíc.
Pamatujte, že tato čísla jsou čistě ilustrativní a skutečná rychlost anotace bude záviset na faktorech uvedených výše. Kromě toho je pro úspěch jakéhokoli rozsáhlého anotačního projektu rozhodující řádné školení anotátorů a důsledná kontrola kvality.