Shaip je nyní součástí ekosystému Ubiquity: Stejný tým – nyní s rozšířenými zdroji pro podporu zákazníků ve velkém měřítku. |
Počítačové vidění

31 bezplatných obrazových datových sad pro počítačové vidění, které vylepší váš projekt [aktualizováno 2025]

Algoritmus umělé inteligence je jen tak dobrý, jak dobrá jsou data, která do něj dodáváte.

Není to ani odvážné, ani netradiční tvrzení. Umělá inteligence se před několika desetiletími mohla zdát poněkud přitažená za vlasy, ale umělá inteligence a strojové učení od té doby ušly opravdu dlouhou cestu.

Počítačové vidění pomáhá počítačům rozumět a interpretovat popisky a obrázky. Když počítač natrénujete pomocí správného druhu obrazových datových sad, může získat schopnost detekovat, rozumět a identifikovat různé rysy obličeje, detekovat nemoci, řídit autonomní vozidla a také zachraňovat životy pomocí vícerozměrného skenování orgánů.

Předpokládá se, že dosáhne trh počítačového vidění 144.46 miliard USD do roku 2028 od skromného 7.04 miliardy USD v roce 2020, rostoucí na a CAGR 45.64 % mezi roky 2021 a 2028.

Datová sada obrázků, kterou používáte a trénujete své úlohy strojového učení a počítačového vidění, je klíčová pro úspěch vašeho projektu s umělou inteligencí. Kvalitní datovou sadu je poměrně obtížné získat. Použití rozmanité kolekce obrázků je nezbytné pro zajištění robustního trénování modelu a lepšího zohlednění složitosti reálného světa.

V závislosti na složitosti vašeho projektu může získání spolehlivých a relevantních datových sad pro účely počítačového vidění trvat několik dní až několik týdnů. Pro pokrytí různých úkolů počítačového vidění a reálných scénářů je nezbytná široká škála datových sad. Výzkumníci často hledají rozsáhlou datovou sadu pro výzkumné účely, aby zajistili komplexní vyhodnocení modelu a podpořili širokou škálu aplikací.

Zde vám poskytujeme řadu (kategorizovaných pro vaši jednoduchost) obrazových datových sad s otevřeným zdrojovým kódem, které můžete ihned použít.

Úkoly s obrazovými datovými sadami: Klasifikace, segmentace, detekce a další

Obrazové datové sady jsou páteří moderního počítačového vidění a pohánějí širokou škálu úkolů, které strojům umožňují interpretovat a chápat vizuální informace. Ať už vytváříte model pro autonomní vozidla, vyvíjíte technologii rozpoznávání obličeje nebo pracujete na analýze lékařských obrazů, správná datová sada obrázků je nezbytným nástrojem pro úspěch.

Klasifikace obrázků je jedním z nejzákladnějších úkolů počítačového vidění. V tomto procesu se model učí přiřazovat popisek celému obrázku na základě jeho obsahu. Například datová sada pro klasifikaci obrázků může modelu pomoci rozlišit mezi obrázky koček a psů nebo identifikovat různé druhy rostlin. Tento úkol je klíčový pro aplikace, jako je automatizované označování fotografií, diagnostika nemocí z lékařských snímků a benchmarky pro kategorizaci scén.

Detekce objektů jde o krok dál tím, že nejen identifikuje přítomnost objektů v obraze, ale také přesně určuje jejich polohu pomocí ohraničujících rámečků. Datové sady pro detekci objektů, jako například ty, které obsahují anotované obrazy s ohraničujícími rámečky, jsou zásadní pro aplikace, jako je detekce chodců v autonomních vozidlech, bezpečnostní dohled a analýza maloobchodu. Detekce objektů je také klíčovou součástí vývoje robustních algoritmů počítačového vidění pro reálné scénáře.

Sémantická segmentace zahrnuje zařazení každého pixelu v obraze do specifické kategorie, což poskytuje detailní pochopení scény. Tato segmentace trimapy na úrovni pixelů je obzvláště důležitá v úlohách, jako je lékařské zobrazování, kde je vyžadováno přesné vymezení orgánů nebo nádorů, a v městském prostředí pro autonomní řízení, kde je rozlišování mezi silnicemi, chodníky a vozidly zásadní.

Kromě těchto základních úkolů podporují obrazové datové sady také segmentaci instancí (rozlišování mezi jednotlivými objekty stejné třídy), popisování obrázků (generování popisného textu pro obrázky) a rozpoznávání obličejů (identifikace nebo ověřování lidských tváří v obrázcích). Každý z těchto úkolů počítačového vidění se spoléhá na vysoce kvalitní, anotované obrázky pro trénování a validaci modelů strojového učení.

Využitím rozmanitých a dobře anotovaných obrazových datových sad mohou datoví vědci a odborníci na strojové učení řešit řadu problémů s počítačovým viděním, od úloh rozpoznávání a klasifikace obrazu až po složité problémy se segmentací a detekcí. Správná datová sada nejen urychluje výzkum a vývoj, ale také zajišťuje, že systémy počítačového vidění fungují přesně v reálných aplikacích.

Úplný seznam obrazových datových sad pro trénování modelu počítačového vidění

Generál:

  1. IMAGEnet

    ImageNet je široce používaná datová sada a přichází s úžasnými 1.2 miliony obrázků rozdělených do 1000 kategorií. Tato datová sada je organizována podle hierarchie WorldNet a kategorizována do tří částí – trénovací data, popisky obrázků a ověřovací data.

  2. Kinetika 700

    Kinetics 700 je obrovská vysoce kvalitní datová sada s více než 650,000 700 klipy 700 různých tříd lidských akcí. Každá z hromadných akcí má asi XNUMX videoklipů. Klipy v datové sadě mají interakce člověk-objekt a člověk-člověk, což se ukazuje jako docela užitečné při rozpoznávání lidských činů ve videích.

  3. CIFAR-10

    CIFAR 10 je jedním z největších souborů dat počítačového vidění, který se může pochlubit 60000 32 barevnými obrázky 32 x 6000 reprezentujícími deset různých tříd. Každá třída má asi XNUMX obrázků používaných k trénování algoritmů počítačového vidění a strojového učení.

  4. Datový soubor obrázků zvířat Oxford-IIIT

    Datový soubor obrázků zvířat obsahuje 37 kategorií s 200 obrázky na třídu. Tyto obrázky se liší měřítkem, pozicí a osvětlením a jsou doprovázeny poznámkami pro plemeno, ROI hlavy a segmentaci trimap na úrovni pixelů.

  5. Otevřené obrázky Google

    S působivými 9 miliony adres URL jde o jednu z největších datových sad obrázků na seznamu, která obsahuje miliony obrázků označených v 6,000 XNUMX kategoriích.

  6. Obrázky rostlin

    Tato kompilace obsahuje několik obrazových datových souborů obsahujících působivý 1 milion rostlinných obrázků, které pokrývají přibližně 11 druhů.

  7. LSUN

    LSUN je rozsáhlá datová sada s miliony označených obrázků v různých kategoriích scén a objektů. Datová sada obsahuje specializovanou testovací sadu pro vyhodnocení modelu.

Rozpoznávání obličeje:

rozpoznávání obličejů se

  1. Označené Faces in the Wild

    Labeled Faced in the Wild je obrovský soubor dat obsahující více než 13,230 5,750 snímků téměř XNUMX XNUMX lidí zjištěných z internetu. Tato datová sada tváří je navržena tak, aby usnadnila studium neomezené detekce tváří.

  2. CASIA WebFace

    CASIA Web face je dobře navržená datová sada, která pomáhá strojovému učení a vědeckému výzkumu neomezeného rozpoznávání obličeje. S více než 494,000 10,000 obrázky téměř XNUMX XNUMX skutečných identit je ideální pro úlohy identifikace a ověřování obličejů.

  3. Dataset UMD Faces

    UMD čelí dobře anotované datové sadě, která obsahuje dvě části – statické obrázky a snímky videa. Soubor dat obsahuje více než 367,800 3.7 anotací obličejů a XNUMX milionu anotovaných video snímků předmětů.

  4. Detekce obličejové masky

    Tato datová sada obsahuje 853 obrázků rozdělených do tří tříd: „s maskou“, „bez masky“ a „nesprávně nošená maska“ spolu s jejich ohraničujícími rámečky ve formátu PASCAL VOC.

  5. FERETKA

    FERET (Facial Recognition Technology Database) je komplexní soubor obrazových dat obsahující více než 14,000 XNUMX anotovaných snímků lidských tváří.

Rozpoznávání rukopisu:

  1. Databáze MNIST

    MNIST je databáze obsahující vzorky ručně psaných číslic od 0 do 9 a obsahuje 60,000 10,000 a 1999 XNUMX tréninkových a testovacích obrázků. MNIST, který byl vydán v roce XNUMX, usnadňuje testování systémů zpracování obrazu v rámci Deep Learning.

  2. Datový soubor umělých znaků

    Artificial Characters Dataset jsou, jak název napovídá, uměle generovaná data, která deseti velkými písmeny popisují strukturu anglického jazyka. Dodává se s více než 6000 obrázky.

Detekce objektu:

  1. MS COCO

    MS COCO nebo Common Objects in Context je datová sada pro detekci a titulkování objektů.

    Má více než 328,000 80 snímků s detekcí klíčových bodů, detekcí více objektů, titulky a anotacemi segmentační masky. Dodává se s XNUMX kategoriemi objektů a pěti popisky na obrázek.

  2. LSUN

    LSUN, zkratka pro Large-scale Scene Understanding, má více než milion označených obrázků ve 20 kategoriích objektů a 10 scén. Některé kategorie mají téměř 300,000 300 obrázků, přičemž 1000 obrázků je speciálně pro ověření a XNUMX XNUMX obrázků pro testovací data.

  3. Domácí objekty

    Datový soubor Home Objects obsahuje anotované obrázky náhodných objektů z celého domu – kuchyně, obývacího pokoje a koupelny. Tato datová sada obsahuje také několik komentovaných videí a 398 nekomentovaných fotografií určených k testování.

  4. Vizuální genom

    Visual Genome je komplexní vizuální znalostní báze s více než 108,000 XNUMX obrázky s popisky. Poskytuje rozsáhlé anotace k objektům, atributům a vztahům, což ji činí cennou pro rozpoznávání objektů, popisování obrázků a multimodální učební úkoly.

Automobilový průmysl:

  1. Datová sada panoráma města

    Panoráma města je soubor dat, na který se lze dostat při hledání různých videosekvencí zaznamenaných z pouličních scén několika měst. Tyto snímky byly pořízeny po dlouhou dobu a za různých povětrnostních a světelných podmínek. Anotace jsou pro 30 tříd obrázků rozdělených do osmi různých kategorií.

  2. Barkley Deep Drive

    Barkley DeepDrive je speciálně navržen pro výcvik autonomních vozidel a má více než 100 tisíc komentovaných videosekvencí. Je to jeden z nejužitečnějších tréninkových dat pro autonomní vozidla při měnících se podmínkách vozovky a jízdy.

  3. Mapilární

    Mapillary má více než 750 milionů pouličních scén a dopravních značek po celém světě, což je velmi užitečné při trénování modelů vizuálního vnímání ve strojovém učení a algoritmech AI. Umožňuje vám vyvíjet autonomní vozidla, která vyhovují různým světelným a povětrnostním podmínkám a pohledům.

Lékařské zobrazování:

  1. Datový soubor otevřeného výzkumu Covid-19

    Tato původní datová sada má asi 6500 pixelových polygonálních segmentací plic o AP/PA rentgenových snímcích hrudníku. Kromě toho je k dispozici 517 snímků rentgenových snímků pacientů s Covid-19 se štítky obsahujícími jméno, místo, podrobnosti o přijetí, výsledek a další.

  2. NIH databáze 100,000 XNUMX rentgenových snímků hrudníku

    Databáze NIH je jedním z nejrozsáhlejších veřejně dostupných souborů dat obsahujících 100,000 XNUMX rentgenových snímků hrudníku a související data užitečná pro vědeckou a výzkumnou komunitu. Má dokonce snímky pacientů s pokročilými plicními onemocněními.

  3. Atlas digitální patologie

    Atlas of Digital Pathology nabízí několik histopatologických snímků, celkem více než 17,000 100, z téměř XNUMX anotovaných snímků různých orgánů. Tato datová sada je užitečná při vývoji softwaru pro počítačové vidění a rozpoznávání vzorů.

Rozpoznávání scény:

Rozpoznávání scény

  1. Rozpoznání vnitřní scény

    Indoor Scene Recognition je vysoce kategorizovaný datový soubor s téměř 15620 65 snímky objektů a vnitřních scenérií, které lze použít při strojovém učení a tréninku dat. Dodává se s více než 100 kategoriemi a každá kategorie má minimálně XNUMX obrázků.

  2. xView

    Jako jedna z nejznámějších veřejně dostupných datových sad obsahuje xView tuny anotovaných horních snímků z různých složitých a velkých scén. S asi 60 třídami a více než milionem instancí objektů je účelem této datové sady poskytnout lepší pomoc při katastrofách pomocí satelitních snímků.

  3. místa

    Places, datový soubor poskytnutý MIT, obsahuje více než 1.8 milionu obrázků z 365 různých kategorií scén. V každé z těchto kategorií je asi 50 obrázků pro ověření a 900 obrázků pro testování. Je možné naučit se funkce hloubkové scény pro vytvoření rozpoznávání scén nebo úloh vizuálního rozpoznávání.

  4. Databáze SUN

    Databáze SUN je komplexní benchmark pro kategorizaci scén, široce používaný v počítačovém vidění. Obsahuje tisíce obrázků z široké škály vnitřních i venkovních prostředí s podrobnými anotacemi pro každou scénu. Databáze SUN je uznávána pro pokrytí různých scén a slouží jako standardní reference pro vyhodnocování algoritmů pro porozumění scénám.

Zábava:

  1. IMDB WIKI datový soubor

    IMDB – Wiki je jednou z nejpopulárnějších veřejných databází tváří označených adekvátně věkem, pohlavím a jmény. Má také asi 20 tisíc tváří slavných a 62 tisíc z Wikipedie.

  2. Tváře celebrit

    Celeb Faces je rozsáhlá databáze s 200,000 XNUMX komentovanými obrázky celebrit. Obrázky přicházejí se šumem na pozadí a variacemi pozice, takže jsou cenné pro trénování testovacích sad v úlohách počítačového vidění. Je to velmi výhodné pro dosažení vyšší přesnosti při rozpoznávání obličeje, úpravách, lokalizaci částí obličeje a dalších.

  3. Datová sada YouTube-8M

    YouTube-8M je rozsáhlá datová sada videí s popisky, která obsahuje miliony ID videí z YouTube s vysoce kvalitními strojově generovanými anotacemi vizuálních entit. Tato datová sada je široce používána pro rozsáhlé algoritmy pro porozumění videím a trénování vizuální inteligence, protože propojuje video obsah s metadaty prostřednictvím ID videí z YouTube, což umožňuje škálovatelný sběr a anotaci video dat.

Nyní, když máte k dispozici obrovský seznam open-source obrazových datových sad, které pohánějí vaše stroje s umělou inteligencí, závisí výsledek vašich modelů umělé inteligence a strojového učení především na kvalitě datových sad, kterými je zásobujete a na kterých je trénujete. Pokud chcete, aby váš model umělé inteligence poskytoval přesné předpovědi, potřebuje kvalitní datové sady, které jsou agregovány, označeny a označeny k dokonalosti. Práce s těmito datovými sadami je vynikajícím způsobem, jak rozvíjet a zlepšovat své dovednosti strojového učení prostřednictvím praktických projektů z reálného světa. Abyste zesílili úspěch svého systému počítačového vidění, musíte používat kvalitní obrazové databáze relevantní pro vizi vašeho projektu.

Sociální sdílení