Data školení AI

Datové války 2024: Etické a praktické zápasy školení AI

Pokud jste požádali modela Gen AI, aby napsal text k písni, jakou by měli Beatles, a pokud by to odvedlo působivou práci, má to svůj důvod. Nebo pokud jste požádali modelku, aby napsala prózu ve stylu vašeho oblíbeného autora a ona přesně kopírovala styl, má to svůj důvod.

Dokonce i jednoduše, jste v jiné zemi a když chcete přeložit název zajímavého občerstvení, které najdete na uličce supermarketu, váš smartphone detekuje štítky a hladce přeloží text.

Umělá inteligence stojí v centru všech takových možností, a to především proto, že modely umělé inteligence by byly trénovány na obrovském množství takových dat – v našem případě na stovkách písní The Beatles a pravděpodobně knihách vašeho oblíbeného spisovatele.

Se vzestupem generativní umělé inteligence je každý hudebníkem, spisovatelem, umělcem nebo vším. Modely Gen AI vytvářejí umělecká díla na míru během několika sekund v závislosti na výzvě uživatele. Mohou tvořit Van Goghova umělecká díla a dokonce nechat Al Pacina přečíst Podmínky služeb, aniž by tam byl.

Fascinace stranou, důležitým aspektem je zde etika. Je spravedlivé, že takové kreativní práce byly použity k výcviku AI modelů, které se postupně snaží nahradit umělce? Byl získán souhlas od vlastníků takového duševního vlastnictví? Byli spravedlivě odškodněni?

Vítejte v roce 2024: Rok datových válek

Během několika posledních let se data dále stala magnetem, který přitahuje pozornost firem, aby trénovaly své modely Gen AI. Jako nemluvně jsou modely umělé inteligence naivní. Je třeba je učit a následně trénovat. To je důvod, proč společnosti potřebují miliardy, ne-li miliony dat, aby uměle trénovaly modely tak, aby napodobovaly lidi.

Například GPT-3 byl trénován na miliardách (stovkách z nich) tokenů, což se volně překládá jako slova. Zdroje však odhalují, že biliony takových tokenů byly použity k trénování novějších modelů.

Kam jdou velké technologické firmy s tak obrovskými objemy požadovaných školicích datových sad?

Akutní nedostatek tréninkových dat

Ambice a objem jdou ruku v ruce. Jak podniky rozšiřují své modely a optimalizují je, vyžadují ještě více školicích dat. To by mohlo pramenit z požadavků na odhalení následujících modelů GPT nebo jednoduše poskytnout lepší a přesné výsledky.

Bez ohledu na případ je vyžadování velkého množství tréninkových dat nevyhnutelné.

Zde podniky čelí své první překážce. Jednoduše řečeno, internet je pro modely umělé inteligence příliš malý, aby se na něm dalo trénovat. To znamená, že společnostem docházejí stávající datové sady, aby mohly krmit a trénovat své modely.

Tento vyčerpávající zdroj děsí zúčastněné strany a technologické nadšence, protože by mohl potenciálně omezit vývoj a vývoj modelů umělé inteligence, které většinou úzce souvisejí s tím, jak značky umisťují své produkty a jak jsou některé znepokojivé problémy ve světě vnímány jako řešení pomocí AI. řešení.

Zároveň je tu také naděje v podobě syntetických dat nebo digitálního inbreedingu, jak tomu říkáme. Laicky řečeno, syntetická data jsou trénovací data generovaná AI, která se opět používají k trénování modelů.

I když to zní slibně, tech odborníci se domnívají, že syntéza takových tréninkových dat by vedla k tomu, co se nazývá habsburská umělá inteligence. To je hlavním problémem podniků, protože takové inbrední datové soubory mohou obsahovat faktické chyby, zaujatost nebo být jen nesmyslné, což negativně ovlivňuje výsledky modelů umělé inteligence.

Považujte to za hru Chinese Whisper, ale jediným zvratem je, že první slovo, které se dostane dál, může být také nesmyslné.

The Race to Sourcing AI Training Data

Získávání tréninkových dat AI Licencování je ideální způsob, jak získat tréninková data. I když jsou knihovny a repozitáře účinné, jsou omezené zdroje. To znamená, že nemohou stačit objemovým požadavkům velkých modelů. Zajímavá statistika říká, že nám do roku 2026 možná dojdou vysoce kvalitní data pro trénování modelů, přičemž dostupnost dat bude srovnatelná s jinými fyzickými zdroji v reálném světě.

Jedno z největších úložišť fotografií – Shutterstock má 300 milionů obrázků. I když to stačí k zahájení školení, testování, ověřování a optimalizace by opět potřebovaly dostatek dat.

K dispozici jsou však i jiné zdroje. Jediný háček je, že jsou barevně odlišeny šedou barvou. Hovoříme o veřejně dostupných datech z internetu. Zde jsou některá zajímavá fakta:

  • Více než 7.5 milionu blogových příspěvků se odehrává každý den
  • Na platformách sociálních médií, jako je Instagram, X, Snapchat, TikTok a další, je více než 5.4 miliardy lidí.
  • Na internetu existuje více než 1.8 miliardy webových stránek.
  • Jen na YouTube je každý den nahráno přes 3.7 milionu videí.

Kromě toho lidé veřejně sdílejí texty, videa, fotografie a dokonce i odborné znalosti prostřednictvím pouze zvukových podcastů.

Jedná se o explicitně dostupné části obsahu.

Takže jejich použití k trénování modelů umělé inteligence musí být spravedlivé, ne?

Toto je šedá zóna, o které jsme se zmínili dříve. Neexistuje žádný pevný názor na tuto otázku, protože technologické společnosti s přístupem k tak hojným objemům dat přicházejí s novými nástroji a změnami politik, aby tuto potřebu uspokojily.

Některé nástroje převádějí zvuk z videí YouTube na text a poté je používají jako tokeny pro účely školení. Podniky přehodnocují zásady ochrany osobních údajů a dokonce zacházejí do té míry, že využívají veřejná data k trénování modelů s předem stanoveným záměrem čelit soudním sporům.

Protimechanismy

Společnosti zároveň vyvíjejí to, čemu se říká syntetická data, kdy modely umělé inteligence generují texty, které lze opět použít k trénování modelů jako smyčky.

Na druhou stranu, aby se zabránilo šrotování dat a zabránilo podnikům ve zneužívání právních mezer, implementují webové stránky zásuvné moduly a kódy pro zmírnění botů upravujících data.

Jaké je konečné řešení?

Implikace umělé inteligence při řešení problémů v reálném světě byla vždy podpořena ušlechtilými úmysly. Proč se tedy získávání datových sad pro trénování takových modelů musí spoléhat na šedé modely?

Jak konverzace a debaty o odpovědné, etické a zodpovědné umělé inteligenci získávají na důležitosti a síle, je na společnostech všech měřítek, aby přešly na alternativní zdroje, které disponují technikami white-hat pro poskytování školicích dat.

To je kde Saip vyniká v. Shaip chápe převládající obavy související se získáváním dat a vždy obhajoval etické techniky a důsledně uplatňoval rafinované a optimalizované metody pro sběr a kompilaci dat z různých zdrojů.

Metodologie získávání datových sad White Hat

Metodiky získávání datových sad klobouků Náš proprietární nástroj pro sběr dat má lidi v centru cyklů identifikace dat a doručení. Chápeme citlivost případů použití, na kterých naši klienti pracují, a dopadu, který by naše datové sady měly na výsledky jejich modelů. Například zdravotnické datové soubory mají svou citlivost ve srovnání s datovými soubory pro počítačové vidění pro autonomní automobily.

To je přesně důvod, proč náš modus operandi zahrnuje pečlivé kontroly kvality a techniky k identifikaci a sestavení příslušných datových sad. To nám umožnilo poskytnout společnostem exkluzivní datové sady pro školení Gen AI v různých formátech, jako jsou obrázky, videa, zvuk, text a další specializované požadavky.

Naše filozofie

Pracujeme na základních filozofiích, jako je souhlas, soukromí a spravedlnost při shromažďování datových sad. Náš přístup také zajišťuje rozmanitost dat, takže nedochází k zavádění nevědomého zkreslení.

Zatímco se říše umělé inteligence připravuje na úsvit nové éry poznamenané poctivými praktikami, my v Shaip máme v úmyslu být vlajkonoši a předchůdci takových ideologií. Pokud jsou nepochybně spravedlivé a kvalitní datové sady to, co hledáte pro trénování svých modelů AI, kontaktujte nás ještě dnes.

Sociální sdílení