Otevřete datové sady
Objevte datové sady s otevřeným zdrojovým kódem, které vám pomohou trénovat modely ML
Datové sady s otevřeným zdrojovým kódem, které vám pomohou začít s modely AI/ML
Výstup z vašich modelů AI a ML je jen tak dobrý jako data, která používáte k jejich trénování - takže přesnost, kterou použijete při agregaci dat a označování a identifikaci těchto dat, je důležitá!
Takže pokud chcete zahájit novou iniciativu AI / ML a nyní si rychle uvědomujete, že nalezení vysoce kvalitních tréninkových dat bude jedním z náročnějších aspektů vašeho projektu, protože vysoce kvalitní datové sady jsou palivem, které udržuje AI / Běží motor ML. Shromáždili jsme seznam otevřených datových sad, které můžete zdarma používat a trénovat vaše modely AI / ML budoucnosti.
Specializace | Datový typ | Název datové sady | Průmysl / odbor | Anotace / případ použití | Popis | Odkaz |
---|---|---|---|---|---|---|
NLP | Text | Amazon Recenze | E-commerce | Analýza sentimentu | Sada recenzí a hodnocení 35 Mn z posledních 18 let ve formátu prostého textu s podrobnostmi o uživateli a produktu. | Odkaz |
NLP | Text | Data odkazů na Wikipedii | obecně | Více než 4 Mn. články obsahující 1.9 miliardy. slovo, které obsahuje slova, fráze i odstavce. | Odkaz | |
NLP | Text | Standfordský sentimentální strom | Zábava | Analýza sentimentu | Datová sada anotací sentimentu pro více než 10,000 XNUMX recenzí od Rotten Tomatoes ve formátu souboru HTML | Odkaz |
NLP | Text | Twitter Sentiment amerických leteckých společností | Letecká linka | Analýza sentimentu | Tweety z roku 2015 na US Airlines se rozdvojily do pozitivních, negativních a neutrálních tónů | Odkaz |
CV | Obraz | Označené tváře ve volné přírodě | obecně | rozpoznání obličeje | Datová sada obsahující více než 13,000 XNUMX oříznutých tváří se dvěma různými obrázky pro trénink rozpoznávání obličeje. | Odkaz |
CV | Video, obrázek | Datová sada UMDFaces | obecně | rozpoznání obličeje | Anotovaná datová sada obsahující více než 367,000 8,000 tváří od více než XNUMX XNUMX subjektů, která zahrnuje statické snímky a videozáznamy. | Odkaz |
CV | Obraz | Imagenet | obecně | Datová sada s více než 14 mil. obrázky v různých formátech souborů uspořádané podle hierarchie WordNet. | Odkaz | |
CV | Obraz | Otevřené obrázky Google | obecně | 9 mil. Adresy URL pro kategorizaci veřejných obrázků z více než 6,000 XNUMX kategorií. | Odkaz | |
NLP | Text | MIMIC databáze kritické péče | Zdravotní péče | Výpočtové datové sady fyziologie s de-identifikovanými daty od 40,000 XNUMX pacientů s kritickou péčí. Datová sada obsahuje informace, jako jsou demografické údaje, vitální funkce, léky atd. | Odkaz | |
CV | Obraz | Americký národní úřad pro cestovní ruch a cestovní ruch | Cestovní ruch | Poskytuje široké fotografie z odvětví cestovního ruchu s důvěryhodnými databázemi, které pokrývají témata jako příchozí a odchozí cestování a mezinárodní turistické informace. | Odkaz | |
NLP | Text | Katedra dopravy | Cestovní ruch | Datové sady cestovního ruchu, které zahrnují národní parky, registry řidičů, informace o mostech a železnici atd. | Odkaz | |
NLP | Audio | Korpus zvukových titulků Flickr | obecně | Více než 40k mluvených titulků z 8,000 fotografií určených pro bezkontaktní vzory řeči | Odkaz | |
NLP | Audio | Datová sada příkazů řeči | obecně | Rozpoznávání řeči, zvukové poznámky | 1sekundové promluvy od tisíců jednotlivců k vybudování základního hlasového rozhraní. | Odkaz |
NLP | Audio | Environmentální zvukové datové sady | obecně | Zvukové datové sady prostředí, které obsahují zvuk tabulek událostí a tabulek akustických scén. | Odkaz | |
NLP | Text | Datový soubor otevřeného výzkumu COVID-19 | Zdravotní péče | Lékařská AI | Soubor dat výzkumu sestávající ze 45,000 19 vědeckých článků o COVID-XNUMX a rodině virů koronavirů. | Odkaz |
CV | Obraz | Otevřená datová sada Waymo | Automobilový průmysl | Nejrozmanitější soubory údajů o autonomním řízení vydané společností Waymo | Odkaz | |
CV | Obraz | Vizuální genom | obecně | Titulky obrázků | Vizuální znalostní databáze s podrobnými titulky více než 100 XNUMX obrázků | Odkaz |
CV | Obraz | Labelme | Veřejná vláda. | Velká sada anotovaných obrázků přístupných prostřednictvím programu Labelme Matlab | Odkaz | |
CV | Obraz | COIL 100 | obecně | Více než 100 různých objektů fotografovaných z různých úhlů (tj. 360 stupňů) | Odkaz | |
CV | Obraz | Datová sada Stanford Dogs | obecně | Více než 20,500 120+ obrázků roztříděných do sady obrázků XNUMX různých plemen psů | Odkaz | |
CV | Obraz | Rozpoznání vnitřní scény | obecně | Rozpoznání scény | Specifická datová sada skládající se z 15620 obrazů ze 67 interiérových kategorií pro vytváření modelů rozpoznávání scén | Odkaz |
CV | Obraz | VisualQA | obecně | Soubor dat, který obsahuje otevřené otázky týkající se 265,016 XNUMX fotografií, které vyžadují pochopení vize a porozumění jazyka, aby bylo možné odpovědět. | Odkaz | |
NLP | Text | Datová sada analýzy více domén Sentiment | E-commerce | Analýza sentimentu | Datová sada obsahující recenze produktů od Amazonu | Odkaz |
NLP | Text | Recenze IMDB | Zábava | Analýza sentimentu | Datová sada obsahující 25000 XNUMX recenzí filmu pro analýzu sentimentu | Odkaz |
NLP | Text | Sentiment 140 | obecně | Analýza sentimentu | Datová sada obsahující 160,000 XNUMX tweetů s předem odstraněnými emotikony pro vyšší přesnost | Odkaz |
NLP | Text | Korpus bloggerů | obecně | Analýza klíčů | Datová sada obsahující 681,288 200 blogových příspěvků z blogger.com, sestávající z minimálně XNUMX výskytů široce používaných anglických slov. | Odkaz |
NLP | Text | Ohrožení | obecně | Chatbot školení | Datová sada s více než 200,000 XNUMX otázkami, které lze použít k trénování modelů strojového učení pro inteligentní automatickou odpověď | Odkaz |
NLP | Text | Sbírka spamu SMS v angličtině | Telecom | Rozpoznávání spamu | Soubor dat nevyžádané pošty sestávající z 5,574 XNUMX anglických SMS | Odkaz |
NLP | Text | Recenze Yelpu | obecně | Analýza sentimentu | Datová sada s více než 5 mil. Recenzí publikovaná společností Yelp | Odkaz |
NLP | Text | Spambase UCI | Enterprise | Rozpoznávání spamu | Velká sada dat nevyžádaných e-mailů, užitečná pro filtrování nevyžádané pošty. | Odkaz |
CV | Video, obrázek | Berkeley DeepDrive BDD100k | Automobilový průmysl | Autonomní vozidla | Jeden z největších datových souborů pro AI s vlastním řízením, který obsahuje 1,100 hodin zážitků z řízení ve více než 100,000 XNUMX videích z různých časů dne z oblasti New Yorku a San Franciska. | Odkaz |
CV | Video | Comma.ai | Automobilový průmysl | Autonomní vozidla | 7hodinová datová sada pro jízdu po dálnici, která obsahuje informace o rychlosti, zrychlení, úhlu řízení a GPS souřadnicích vozu | Odkaz |
CV | Video, obrázek | Datová sada panoráma | Automobilový průmysl | Sémantický štítek pro autonomní vozidlo | Datová sada 5,000 20,000 anotací na úrovni pixelů plus větší sada 50 XNUMX slabě anotovaných snímků ve stereofonních videosekvencích zaznamenaných z XNUMX různých měst | Odkaz |
CV | Obraz | Datová sada dopravní značky KUL Belgium | Automobilový průmysl | Autonomní vozidla | Více než 10000 XNUMX anotací dopravních značek z regionu Flanders na základě fyzicky odlišných dopravních značek z celé Belgie. | Odkaz |
CV | Obraz | LISA: Laboratoř pro inteligentní a bezpečné automobily, datové sady UC San Diego | Automobilový průmysl | Autonomní vozidla | Bohatá datová sada obsahující dopravní značky, detekci vozidel, semafory a vzorce trajektorie. | Odkaz |
CV | Obraz | CIFAR-10 | obecně | Rozpoznávání objektů | Datová sada obsahuje 50,000 10,000 obrázků a 60,000 32 testovacích obrázků (tj. 32 10 barevných obrázků XNUMX × XNUMX v XNUMX třídách) pro rozpoznávání objektů. | Odkaz |
CV | Obraz | Módní MNIST | Móda | Datová sada obrázků, která se skládá z 60,000 10,000 příkladů a testovací sady 28 28 příkladů v obrázcích ve stupních šedi 10 × XNUMX, spojených se štítkem z XNUMX tříd. | Odkaz | |
CV | Obraz | Datová sada IMDB-Wiki | Zábava | rozpoznání obličeje | Velká datová sada obrazů obličeje se štítky, jako je pohlaví a věk. Z celkového počtu 523,051 460,723 snímků obličeje je 20,284 62,328 snímků získaných od XNUMX XNUMX osobností z IMDB a XNUMX XNUMX z Wikipedie. | Odkaz |
CV | Video | Kinetika-700 | obecně | Pro každou třídu akcí obsahuje vysoce kvalitní datový soubor 650,000 700 videoklipů a zahrnuje 600 tříd lidské akce s nejméně 10 videoklipy. Zde každý klip trvá přibližně XNUMX sekund. | Odkaz | |
CV | Obraz | MS Coco | obecně | Detekce objektů, segmentace | Datová sada obsahuje 328 tisíc obrazů a má celkem 2.5 Mn instancí a 91 obrazů objektů k trénování rozsáhlých modelů detekce, segmentace a titulkování dat ve velkém měřítku. | Odkaz |
CV | Obraz | Datová sada MPII Human Pose | obecně | V datové sadě, která se používá k vyjádření odhadu lidské pózy, je zahrnuto přibližně 25 40 fotografií obsahujících více než 410 XNUMX jedinců s anotovanými klouby těla. Celkově tato datová sada pokrývá XNUMX lidských aktivit a každý obrázek je opatřen štítkem aktivity. | Odkaz | |
CV | Obraz | Otevřete obrázky | obecně | Anotace umístění objektu | Datová sada obrázků s přibližně 9 Mn obrázky opatřenými poznámkami se štítky na úrovni obrazu, ohraničujícími rámečky objektů, segmentací objektů atd. Datová sada se také skládá z 16 Mn. ohraničující rámečky pro 600 tříd objektů na obrázcích 1.9 Mn. | Odkaz |
CV | Video | Otevřená platforma Apollo, Baidu Inc, Čína | Automobilový průmysl | Ohraničující box, LiDAR | Bohatá sada dat autonomního řízení, která poskytuje vývojářům požadovaná data v autonomním řízení, aby urychlila účinnost inovativní iterace. | Odkaz |
CV | Video, obrázek | Argo, společnost Argo, USA | Automobilový průmysl | Ohraničující rámeček, optický tok, behaviorální štítek, sémantický štítek, značení jízdního pruhu | Datová sada s vlastním řízením, která se skládá z HD map s geometrickými a sémantickými metadaty, tj. Středy jízdních pruhů, směr jízdního pruhu a řiditelná oblast. Datová sada se používá k trénování modelů ML, aby bylo možné vytvořit přesnější algoritmy vnímání, které pomohou bezpečně se řídit samohybná vozidla. | Odkaz |
CV | Video | Malý semafor společnosti Bosch, výzkum společnosti Bosch pro Severní Ameriku | Automobilový průmysl | Ohraničující rámeček | Soubor dat sestávající z 13427 1280 obrazů z kamery s rozlišením 720 * 24000 k vytvoření systému detekce semaforu na základě vidění. Datová sada má více než XNUMX XNUMX anotovaných semaforů. | Odkaz |
CV | Video | Brain4Cars, Cornell Univ., Spojené státy | Automobilový průmysl | Behaviorální štítek | Datová sada obsahující řadu kabinových senzorů (kamery, hmatové senzory, inteligentní zařízení atd.) Za účelem získání užitečné statistiky o bdělosti řidiče. Naše algoritmy mohou detekovat řidiče, kteří jsou ospalí nebo roztržití, a posílit nezbytné alarmy ke zlepšení ochrany. | Odkaz |
CV | Obraz | CULane, čínská Univ. Hongkongu, Pekingu, Číny | Automobilový průmysl | Značení jízdních pruhů | Datová sada Computer Vision o detekci jízdních pruhů, která zahrnuje 55 hodin videí, z nichž bylo extrahováno 133,235 88880 (9675 tréninkových sad, 34680 ověřovacích sad a XNUMX testovacích sad). Shromažďují jej kamery namontované na šesti různých vozidlech poháněných různými řidiči v Pekingu. | Odkaz |
CV | Video | DAVIS, autor Univ. Curych, ETH ¨ Curych, Německo, Švýcarsko | Automobilový průmysl | Kompletní datová sada pro školení řidičů vozidel využívající kameru DAVIS event + frame. Údaje o vozidle, jako je řízení, plyn, GPS atd., Se používají k vyhodnocení fúze údajů o rámu a událostech pro automobilové aplikace. | Odkaz | |
CV | Video | DBNet, Shanghai Jiao Tong Univ., Xiamen Univ., Čína | Automobilový průmysl | Mrak bodů, LiDAR | Skutečná data o řízení 1000 KM, která zahrnují zarovnané video, mračno bodů, GPS a chování řidiče pro podrobný výzkum chování při řízení. | Odkaz |
CV | Video | Dr (eye) ve, od Univ. Modena a Reggio Emilia, Modena, Itálie | Automobilový průmysl | Behaviorální štítek | Datová sada obsahující 74 videosekvencí po 5 minutách, které byly anotovány ve více než 500,000 XNUMX snímcích. Datová sada se skládá z geograficky odkazovaných míst, rychlosti jízdy, kurzu a také označuje fixace pohledu řidičů a jejich časovou integraci poskytující mapy specifické pro daný úkol. | Odkaz |
CV | Video | ETH Pedestrian (2009), autor: ETH Zurich, Curych, Švýcarsko | obecně | Ohraničující rámeček | Soubor dat 74 videosekvencí po 5 minutách, anotovaný ve více než 500,000 XNUMX snímcích. Datová sada poskytuje geograficky odkazované polohy, rychlost jízdy, směr a také označuje fixace pohledu řidičů a jejich časovou integraci, včetně map specifických pro daný úkol. | Odkaz |
CV | Video | Ford (2009), autor Univ. z Michiganu, Michigan, USA | Automobilový průmysl | Bounding Box,, LiDAR | Soubor dat zkompilovaný automatizovaným pozemním vozidlem vyzbrojeným skenerem Velodyne 3D-lidar, dvěma tlačnými koly Rieg pro budoucnost, technickou a spotřebitelskou inerciální měřící jednotkou (IMU) a všesměrovým kamerovým systémem Point Gray Ladybug3. | Odkaz |
CV | Video | HCI Challenging Stereo, Bosch Corporation Research, Hildesheim, Německo | obecně | Soubor několika milionů snímků ze zachycených video scén, které zahrnují širokou škálu různých povětrnostních podmínek, více vrstev pohybu a hloubky; situace ve městě a na venkově atd. | Odkaz | |
CV | Video | JAAD, York University, Ukrajina, Kanada | Automobilový průmysl | Ohraničující rámeček, popis chování | „JAAD je datový soubor pro studium společné pozornosti v kontextu autonomního řízení. Důraz je kladen na chování chodců a řidičů v místě přechodu a faktory, které je ovlivňují. Za tímto účelem poskytuje datový soubor JAAD bohatě anotovanou sbírku 346 krátkých videí klipy (dlouhé 5–10 s) extrahované z více než 240 hodin záznamu z jízdy z několika míst v Severní Americe a východní Evropě. Pro všechny chodce se používají ohraničující rámečky s okluzními značkami, díky nimž je tato datová sada vhodná pro detekci chodců. které interagují s řidičem nebo vyžadují jeho pozornost. U každého videa existuje několik značek (počasí, umístění atd.) a štítky chování s časovým razítkem (např. zastaveno, chodit, hledat atd.). pro každého chodce (např. věk, pohlaví, směr pohybu atd.), jakož i seznam viditelných prvků dopravní scény (např. stopku, dopravní signál atd.) v každém snímku. “ | Odkaz |
CV | Video | KAIST Urban, KAIST, Jižní Korea | obecně | LiDAR | Sběr dat zahrnuje řadu lokalizačních senzorů pro data LiDAR a stereofonní obrazy zaměřené na velmi složitou městskou oblast (např. Metropolitní oblasti, složité budovy a obytné oblasti). | Odkaz |
CV | Obraz | Dopravní značka LISA, Univ. of California, San Diego, United States | Automobilový průmysl | Ohraničující rámeček | Sada datové sady obsahující videa a komentované rámečky obsahující americké dopravní značky. Vychází ve dvou fázích, v jedné pouze s obrázky a v druhé s obrázky a videem. | Odkaz |
CV | Obraz | Mapillary Vistas, společnost Mapillary AB, Global | Automobilový průmysl | Sémantický štítek | Datová sada fotografie na úrovni ulice pro interpretaci pouličních scén po celém světě s lidskými anotacemi s přesností na pixely a instancemi. | Odkaz |
CV | Video, obrázek | Semantic KITTI, University of Bonn, Karlsruhe, Německo | Automobilový průmysl | Ohraničující rámeček, sémantický štítek, značení jízdního pruhu | Datová sada, která obsahuje sémantickou anotaci pro všechny posloupnosti Odometry Benchmark. Datová sada anotuje různé typy pohybujícího se a nepohybujícího se provozu: včetně automobilů, kol, kol, chodců a cyklistů, což umožňuje studovat objekty ve scéně. | Odkaz |
CV | Video | Stanford Track, Stanford Univ., Spojené státy | Automobilový průmysl | Detekce / klasifikace objektů LiDAR, GPS, kódy | Datová sada, která obsahuje 14,000 64 stop označených objektů, jak je pozoruje Velodyne HDL-2E S3 LIDAR v přírodních pouličních scénách, které lze použít k trénování modelů strojového učení pro XNUMXD rozpoznávání objektů. | Odkaz |
CV | Video, obrázek | Boxy datová sada, společnost Bosch, Spojené státy americké | Automobilový průmysl | Detekce ohraničující krabice / vozidla | Datová sada pro detekci vozidel obsahující 2 miliony anotovaných vozidel pro výcvik a analýzu strategií rozpoznávání objektů pro samojízdné automobily na dálnicích. | Odkaz |
CV | Video | TME Motorway, Czech Technical Univ., Northern Italy | Automobilový průmysl | Ohraničující rámeček | Datová sada 28 klipů po dobu celkem 27 minut rozdělená do více než 30,000 XNUMX rámečků anotací vozidla. Anotace byla vytvořena poloautomaticky pomocí dat z laserového skeneru. Tento sběr dat zahrnuje různé scénáře provozu, počet jízdních pruhů, zakřivení silnice a osvětlení, které pokrývají většinu podmínek úplného získání. | Odkaz |
CV | Video | Unsupervised Llamas, od společnosti Bosch, Spojené státy | Automobilový průmysl | Značení jízdních pruhů, LiDAR | Datová sada Unsupervised Llamas byla anotována generováním automatických map řízení ve vysokém rozlišení, včetně značek jízdních pruhů založených na Lidaru. Autonomní vozidlo lze srovnat s těmito mapami a značky jízdního pruhu se promítnou do rámu kamery. 3D projekce je optimalizována minimalizací nesrovnalostí mezi již pozorovanými a předpokládanými značkami obrazu. | Odkaz |
NLP | Audio | Facebook AI Vícejazyčný LibriSpeech (MLS) | obecně | Zvukové poznámky / Rozpoznávání řeči | Facebook AI Multilingual LibriSpeech (MLS), je rozsáhlá datová sada s otevřeným zdrojovým kódem navržená tak, aby pomohla pokročit ve výzkumu automatického rozpoznávání řeči (ASR). MLS poskytuje více než 50,000 8 hodin zvuku v XNUMX jazycích: angličtině, němčině, holandštině, francouzštině, španělštině, italštině, portugalštině a polštině. | Odkaz |