Otevřete datové sady

Objevte datové sady s otevřeným zdrojovým kódem, které vám pomohou trénovat modely ML

Datové sady s otevřeným zdrojovým kódem, které vám pomohou začít s modely AI/ML

Výstup z vašich modelů AI a ML je jen tak dobrý jako data, která používáte k jejich trénování - takže přesnost, kterou použijete při agregaci dat a označování a identifikaci těchto dat, je důležitá!

Takže pokud chcete zahájit novou iniciativu AI / ML a nyní si rychle uvědomujete, že nalezení vysoce kvalitních tréninkových dat bude jedním z náročnějších aspektů vašeho projektu, protože vysoce kvalitní datové sady jsou palivem, které udržuje AI / Běží motor ML. Shromáždili jsme seznam otevřených datových sad, které můžete zdarma používat a trénovat vaše modely AI / ML budoucnosti.

Specializace	Datový typ	Název datové sady	Průmysl / odbor	Anotace / případ použití	Popis	Odkaz
NLP	Text	Amazon Recenze	E-commerce	Analýza sentimentu	Sada recenzí a hodnocení 35 Mn z posledních 18 let ve formátu prostého textu s podrobnostmi o uživateli a produktu.	Odkaz
NLP	Text	Data odkazů na Wikipedii	obecně		Více než 4 Mn. články obsahující 1.9 miliardy. slovo, které obsahuje slova, fráze i odstavce.	Odkaz
NLP	Text	Standfordský sentimentální strom	Zábava	Analýza sentimentu	Datová sada anotací sentimentu pro více než 10,000 XNUMX recenzí od Rotten Tomatoes ve formátu souboru HTML	Odkaz
NLP	Text	Twitter Sentiment amerických leteckých společností	Letecká linka	Analýza sentimentu	Tweety z roku 2015 na US Airlines se rozdvojily do pozitivních, negativních a neutrálních tónů	Odkaz
CV	Obraz	Označené tváře ve volné přírodě	obecně	rozpoznání obličeje	Datová sada obsahující více než 13,000 XNUMX oříznutých tváří se dvěma různými obrázky pro trénink rozpoznávání obličeje.	Odkaz
CV	Video, obrázek	Datová sada UMDFaces	obecně	rozpoznání obličeje	Anotovaná datová sada obsahující více než 367,000 8,000 tváří od více než XNUMX XNUMX subjektů, která zahrnuje statické snímky a videozáznamy.	Odkaz
CV	Obraz	Imagenet	obecně		Datová sada s více než 14 mil. obrázky v různých formátech souborů uspořádané podle hierarchie WordNet.	Odkaz
CV	Obraz	Otevřené obrázky Google	obecně		9 mil. Adresy URL pro kategorizaci veřejných obrázků z více než 6,000 XNUMX kategorií.	Odkaz
NLP	Text	MIMIC databáze kritické péče	Zdravotní péče		Výpočtové datové sady fyziologie s de-identifikovanými daty od 40,000 XNUMX pacientů s kritickou péčí. Datová sada obsahuje informace, jako jsou demografické údaje, vitální funkce, léky atd.	Odkaz
CV	Obraz	Americký národní úřad pro cestovní ruch a cestovní ruch	Cestovní ruch		Poskytuje široké fotografie z odvětví cestovního ruchu s důvěryhodnými databázemi, které pokrývají témata jako příchozí a odchozí cestování a mezinárodní turistické informace.	Odkaz
NLP	Text	Katedra dopravy	Cestovní ruch		Datové sady cestovního ruchu, které zahrnují národní parky, registry řidičů, informace o mostech a železnici atd.	Odkaz
NLP	Audio	Korpus zvukových titulků Flickr	obecně		Více než 40k mluvených titulků z 8,000 fotografií určených pro bezkontaktní vzory řeči	Odkaz
NLP	Audio	Datová sada příkazů řeči	obecně	Rozpoznávání řeči, zvukové poznámky	1sekundové promluvy od tisíců jednotlivců k vybudování základního hlasového rozhraní.	Odkaz
NLP	Audio	Environmentální zvukové datové sady	obecně		Zvukové datové sady prostředí, které obsahují zvuk tabulek událostí a tabulek akustických scén.	Odkaz
NLP	Text	Datový soubor otevřeného výzkumu COVID-19	Zdravotní péče	Lékařská AI	Soubor dat výzkumu sestávající ze 45,000 19 vědeckých článků o COVID-XNUMX a rodině virů koronavirů.	Odkaz
CV	Obraz	Otevřená datová sada Waymo	Automobilový průmysl		Nejrozmanitější soubory údajů o autonomním řízení vydané společností Waymo	Odkaz
CV	Obraz	Vizuální genom	obecně	Titulky obrázků	Vizuální znalostní databáze s podrobnými titulky více než 100 XNUMX obrázků	Odkaz
CV	Obraz	Labelme	Veřejná vláda.		Velká sada anotovaných obrázků přístupných prostřednictvím programu Labelme Matlab	Odkaz
CV	Obraz	COIL 100	obecně		Více než 100 různých objektů fotografovaných z různých úhlů (tj. 360 stupňů)	Odkaz
CV	Obraz	Datová sada Stanford Dogs	obecně		Více než 20,500 120+ obrázků roztříděných do sady obrázků XNUMX různých plemen psů	Odkaz
CV	Obraz	Rozpoznání vnitřní scény	obecně	Rozpoznání scény	Specifická datová sada skládající se z 15620 obrazů ze 67 interiérových kategorií pro vytváření modelů rozpoznávání scén	Odkaz
CV	Obraz	VisualQA	obecně		Soubor dat, který obsahuje otevřené otázky týkající se 265,016 XNUMX fotografií, které vyžadují pochopení vize a porozumění jazyka, aby bylo možné odpovědět.	Odkaz
NLP	Text	Datová sada analýzy více domén Sentiment	E-commerce	Analýza sentimentu	Datová sada obsahující recenze produktů od Amazonu	Odkaz
NLP	Text	Recenze IMDB	Zábava	Analýza sentimentu	Datová sada obsahující 25000 XNUMX recenzí filmu pro analýzu sentimentu	Odkaz
NLP	Text	Sentiment 140	obecně	Analýza sentimentu	Datová sada obsahující 160,000 XNUMX tweetů s předem odstraněnými emotikony pro vyšší přesnost	Odkaz
NLP	Text	Korpus bloggerů	obecně	Analýza klíčů	Datová sada obsahující 681,288 200 blogových příspěvků z blogger.com, sestávající z minimálně XNUMX výskytů široce používaných anglických slov.	Odkaz
NLP	Text	Ohrožení	obecně	Chatbot školení	Datová sada s více než 200,000 XNUMX otázkami, které lze použít k trénování modelů strojového učení pro inteligentní automatickou odpověď	Odkaz
NLP	Text	Sbírka spamu SMS v angličtině	Telekomunikace	Rozpoznávání spamu	Soubor dat nevyžádané pošty sestávající z 5,574 XNUMX anglických SMS	Odkaz
NLP	Text	Recenze Yelpu	obecně	Analýza sentimentu	Datová sada s více než 5 mil. Recenzí publikovaná společností Yelp	Odkaz
NLP	Text	Spambase UCI	Enterprise	Rozpoznávání spamu	Velká sada dat nevyžádaných e-mailů, užitečná pro filtrování nevyžádané pošty.	Odkaz
CV	Video, obrázek	Berkeley DeepDrive BDD100k	Automobilový průmysl	Autonomní vozidla	Jeden z největších datových souborů pro AI s vlastním řízením, který obsahuje 1,100 hodin zážitků z řízení ve více než 100,000 XNUMX videích z různých časů dne z oblasti New Yorku a San Franciska.	Odkaz
CV	Video	Comma.ai	Automobilový průmysl	Autonomní vozidla	7hodinová datová sada pro jízdu po dálnici, která obsahuje informace o rychlosti, zrychlení, úhlu řízení a GPS souřadnicích vozu	Odkaz
CV	Video, obrázek	Datová sada panoráma	Automobilový průmysl	Sémantický štítek pro autonomní vozidlo	Datová sada 5,000 20,000 anotací na úrovni pixelů plus větší sada 50 XNUMX slabě anotovaných snímků ve stereofonních videosekvencích zaznamenaných z XNUMX různých měst	Odkaz
CV	Obraz	Datová sada dopravní značky KUL Belgium	Automobilový průmysl	Autonomní vozidla	Více než 10000 XNUMX anotací dopravních značek z regionu Flanders na základě fyzicky odlišných dopravních značek z celé Belgie.	Odkaz
CV	Obraz	LISA: Laboratoř pro inteligentní a bezpečné automobily, datové sady UC San Diego	Automobilový průmysl	Autonomní vozidla	Bohatá datová sada obsahující dopravní značky, detekci vozidel, semafory a vzorce trajektorie.	Odkaz
CV	Obraz	CIFAR-10	obecně	Rozpoznávání objektů	Datová sada obsahuje 50,000 10,000 obrázků a 60,000 32 testovacích obrázků (tj. 32 10 barevných obrázků XNUMX × XNUMX v XNUMX třídách) pro rozpoznávání objektů.	Odkaz
CV	Obraz	Módní MNIST	Móda		Datová sada obrázků, která se skládá z 60,000 10,000 příkladů a testovací sady 28 28 příkladů v obrázcích ve stupních šedi 10 × XNUMX, spojených se štítkem z XNUMX tříd.	Odkaz
CV	Obraz	Datová sada IMDB-Wiki	Zábava	rozpoznání obličeje	Velká datová sada obrazů obličeje se štítky, jako je pohlaví a věk. Z celkového počtu 523,051 460,723 snímků obličeje je 20,284 62,328 snímků získaných od XNUMX XNUMX osobností z IMDB a XNUMX XNUMX z Wikipedie.	Odkaz
CV	Video	Kinetika-700	obecně		Pro každou třídu akcí obsahuje vysoce kvalitní datový soubor 650,000 700 videoklipů a zahrnuje 600 tříd lidské akce s nejméně 10 videoklipy. Zde každý klip trvá přibližně XNUMX sekund.	Odkaz
CV	Obraz	MS Coco	obecně	Detekce objektů, segmentace	Datová sada obsahuje 328 tisíc obrazů a má celkem 2.5 Mn instancí a 91 obrazů objektů k trénování rozsáhlých modelů detekce, segmentace a titulkování dat ve velkém měřítku.	Odkaz
CV	Obraz	Datová sada MPII Human Pose	obecně		V datové sadě, která se používá k vyjádření odhadu lidské pózy, je zahrnuto přibližně 25 40 fotografií obsahujících více než 410 XNUMX jedinců s anotovanými klouby těla. Celkově tato datová sada pokrývá XNUMX lidských aktivit a každý obrázek je opatřen štítkem aktivity.	Odkaz
CV	Obraz	Otevřete obrázky	obecně	Anotace umístění objektu	Datová sada obrázků s přibližně 9 Mn obrázky opatřenými poznámkami se štítky na úrovni obrazu, ohraničujícími rámečky objektů, segmentací objektů atd. Datová sada se také skládá z 16 Mn. ohraničující rámečky pro 600 tříd objektů na obrázcích 1.9 Mn.	Odkaz
CV	Video	Otevřená platforma Apollo, Baidu Inc, Čína	Automobilový průmysl	Ohraničující box, LiDAR	Bohatá sada dat autonomního řízení, která poskytuje vývojářům požadovaná data v autonomním řízení, aby urychlila účinnost inovativní iterace.	Odkaz
CV	Video, obrázek	Argo, společnost Argo, USA	Automobilový průmysl	Ohraničující rámeček, optický tok, behaviorální štítek, sémantický štítek, značení jízdního pruhu	Datová sada s vlastním řízením, která se skládá z HD map s geometrickými a sémantickými metadaty, tj. Středy jízdních pruhů, směr jízdního pruhu a řiditelná oblast. Datová sada se používá k trénování modelů ML, aby bylo možné vytvořit přesnější algoritmy vnímání, které pomohou bezpečně se řídit samohybná vozidla.	Odkaz
CV	Video	Malý semafor společnosti Bosch, výzkum společnosti Bosch pro Severní Ameriku	Automobilový průmysl	Ohraničující rámeček	Soubor dat sestávající z 13427 1280 obrazů z kamery s rozlišením 720 * 24000 k vytvoření systému detekce semaforu na základě vidění. Datová sada má více než XNUMX XNUMX anotovaných semaforů.	Odkaz
CV	Video	Brain4Cars, Cornell Univ., Spojené státy	Automobilový průmysl	Behaviorální štítek	Datová sada obsahující řadu kabinových senzorů (kamery, hmatové senzory, inteligentní zařízení atd.) Za účelem získání užitečné statistiky o bdělosti řidiče. Naše algoritmy mohou detekovat řidiče, kteří jsou ospalí nebo roztržití, a posílit nezbytné alarmy ke zlepšení ochrany.	Odkaz
CV	Obraz	CULane, čínská Univ. Hongkongu, Pekingu, Číny	Automobilový průmysl	Značení jízdních pruhů	Datová sada Computer Vision o detekci jízdních pruhů, která zahrnuje 55 hodin videí, z nichž bylo extrahováno 133,235 88880 (9675 tréninkových sad, 34680 ověřovacích sad a XNUMX testovacích sad). Shromažďují jej kamery namontované na šesti různých vozidlech poháněných různými řidiči v Pekingu.	Odkaz
CV	Video	DAVIS, autor Univ. Curych, ETH ¨ Curych, Německo, Švýcarsko	Automobilový průmysl		Kompletní datová sada pro školení řidičů vozidel využívající kameru DAVIS event + frame. Údaje o vozidle, jako je řízení, plyn, GPS atd., Se používají k vyhodnocení fúze údajů o rámu a událostech pro automobilové aplikace.	Odkaz
CV	Video	DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., Čína	Automobilový průmysl	Mrak bodů, LiDAR	Skutečná data o řízení 1000 KM, která zahrnují zarovnané video, mračno bodů, GPS a chování řidiče pro podrobný výzkum chování při řízení.	Odkaz
CV	Video	Dr (eye) ve, od Univ. Modena a Reggio Emilia, Modena, Itálie	Automobilový průmysl	Behaviorální štítek	Datová sada obsahující 74 videosekvencí po 5 minutách, které byly anotovány ve více než 500,000 XNUMX snímcích. Datová sada se skládá z geograficky odkazovaných míst, rychlosti jízdy, kurzu a také označuje fixace pohledu řidičů a jejich časovou integraci poskytující mapy specifické pro daný úkol.	Odkaz
CV	Video	ETH Pedestrian (2009), autor: ETH Zurich, Curych, Švýcarsko	obecně	Ohraničující rámeček	Soubor dat 74 videosekvencí po 5 minutách, anotovaný ve více než 500,000 XNUMX snímcích. Datová sada poskytuje geograficky odkazované polohy, rychlost jízdy, směr a také označuje fixace pohledu řidičů a jejich časovou integraci, včetně map specifických pro daný úkol.	Odkaz
CV	Video	Ford (2009), autor Univ. z Michiganu, Michigan, USA	Automobilový průmysl	Bounding Box,, LiDAR	Soubor dat zkompilovaný automatizovaným pozemním vozidlem vyzbrojeným skenerem Velodyne 3D-lidar, dvěma tlačnými koly Rieg pro budoucnost, technickou a spotřebitelskou inerciální měřící jednotkou (IMU) a všesměrovým kamerovým systémem Point Gray Ladybug3.	Odkaz
CV	Video	HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Německo	obecně		Soubor několika milionů snímků ze zachycených video scén, které zahrnují širokou škálu různých povětrnostních podmínek, více vrstev pohybu a hloubky; situace ve městě a na venkově atd.	Odkaz
CV	Video	JAAD, York University, Ukrajina, Kanada	Automobilový průmysl	Ohraničující rámeček, popis chování	„JAAD je datový soubor pro studium společné pozornosti v kontextu autonomního řízení. Důraz je kladen na chování chodců a řidičů v místě přechodu a faktory, které je ovlivňují. Za tímto účelem poskytuje datový soubor JAAD bohatě anotovanou sbírku 346 krátkých videí klipy (dlouhé 5–10 s) extrahované z více než 240 hodin záznamu z jízdy z několika míst v Severní Americe a východní Evropě. Pro všechny chodce se používají ohraničující rámečky s okluzními značkami, díky nimž je tato datová sada vhodná pro detekci chodců. které interagují s řidičem nebo vyžadují jeho pozornost. U každého videa existuje několik značek (počasí, umístění atd.) a štítky chování s časovým razítkem (např. zastaveno, chodit, hledat atd.). pro každého chodce (např. věk, pohlaví, směr pohybu atd.), jakož i seznam viditelných prvků dopravní scény (např. stopku, dopravní signál atd.) v každém snímku. “	Odkaz
CV	Video	KAIST Urban, KAIST, Jižní Korea	obecně	LiDAR	Sběr dat zahrnuje řadu lokalizačních senzorů pro data LiDAR a stereofonní obrazy zaměřené na velmi složitou městskou oblast (např. Metropolitní oblasti, složité budovy a obytné oblasti).	Odkaz
CV	Obraz	Dopravní značka LISA, Univ. of California, San Diego, United States	Automobilový průmysl	Ohraničující rámeček	Sada datové sady obsahující videa a komentované rámečky obsahující americké dopravní značky. Vychází ve dvou fázích, v jedné pouze s obrázky a v druhé s obrázky a videem.	Odkaz
CV	Obraz	Mapillary Vistas, společnost Mapillary AB, Global	Automobilový průmysl	Sémantický štítek	Datová sada fotografie na úrovni ulice pro interpretaci pouličních scén po celém světě s lidskými anotacemi s přesností na pixely a instancemi.	Odkaz
CV	Video, obrázek	Semantic KITTI, University of Bonn, Karlsruhe, Německo	Automobilový průmysl	Ohraničující rámeček, sémantický štítek, značení jízdního pruhu	Datová sada, která obsahuje sémantickou anotaci pro všechny posloupnosti Odometry Benchmark. Datová sada anotuje různé typy pohybujícího se a nepohybujícího se provozu: včetně automobilů, kol, kol, chodců a cyklistů, což umožňuje studovat objekty ve scéně.	Odkaz
CV	Video	Stanford Track, Stanford Univ., Spojené státy	Automobilový průmysl	Detekce / klasifikace objektů LiDAR, GPS, kódy	Datová sada, která obsahuje 14,000 64 stop označených objektů, jak je pozoruje Velodyne HDL-2E S3 LIDAR v přírodních pouličních scénách, které lze použít k trénování modelů strojového učení pro XNUMXD rozpoznávání objektů.	Odkaz
CV	Video, obrázek	Boxy datová sada, společnost Bosch, Spojené státy americké	Automobilový průmysl	Detekce ohraničující krabice / vozidla	Datová sada pro detekci vozidel obsahující 2 miliony anotovaných vozidel pro výcvik a analýzu strategií rozpoznávání objektů pro samojízdné automobily na dálnicích.	Odkaz
CV	Video	TME Motorway, Czech Technical Univ., Northern Italy	Automobilový průmysl	Ohraničující rámeček	Datová sada 28 klipů po dobu celkem 27 minut rozdělená do více než 30,000 XNUMX rámečků anotací vozidla. Anotace byla vytvořena poloautomaticky pomocí dat z laserového skeneru. Tento sběr dat zahrnuje různé scénáře provozu, počet jízdních pruhů, zakřivení silnice a osvětlení, které pokrývají většinu podmínek úplného získání.	Odkaz
CV	Video	Unsupervised Llamas, od společnosti Bosch, Spojené státy	Automobilový průmysl	Značení jízdních pruhů, LiDAR	Datová sada Unsupervised Llamas byla anotována generováním automatických map řízení ve vysokém rozlišení, včetně značek jízdních pruhů založených na Lidaru. Autonomní vozidlo lze srovnat s těmito mapami a značky jízdního pruhu se promítnou do rámu kamery. 3D projekce je optimalizována minimalizací nesrovnalostí mezi již pozorovanými a předpokládanými značkami obrazu.	Odkaz
NLP	Audio	Facebook AI Vícejazyčný LibriSpeech (MLS)	obecně	Zvukové poznámky / Rozpoznávání řeči	Facebook AI Multilingual LibriSpeech (MLS), je rozsáhlá datová sada s otevřeným zdrojovým kódem navržená tak, aby pomohla pokročit ve výzkumu automatického rozpoznávání řeči (ASR). MLS poskytuje více než 50,000 8 hodin zvuku v XNUMX jazycích: angličtině, němčině, holandštině, francouzštině, španělštině, italštině, portugalštině a polštině.	Odkaz

Otevřete datové sady

Datové sady s otevřeným zdrojovým kódem, které vám pomohou začít s modely AI/ML

Datové služby AI

Speciality

Průmysl

Produkty

O nás

Zdroje

Kontaktujte nás