Otevřete datové sady

Objevte datové sady s otevřeným zdrojovým kódem, které vám pomohou trénovat modely ML

Otevřete datové sady

Datové sady s otevřeným zdrojovým kódem, které vám pomohou začít s modely AI/ML

Výstup z vašich modelů AI a ML je jen tak dobrý jako data, která používáte k jejich trénování - takže přesnost, kterou použijete při agregaci dat a označování a identifikaci těchto dat, je důležitá!

Takže pokud chcete zahájit novou iniciativu AI / ML a nyní si rychle uvědomujete, že nalezení vysoce kvalitních tréninkových dat bude jedním z náročnějších aspektů vašeho projektu, protože vysoce kvalitní datové sady jsou palivem, které udržuje AI / Běží motor ML. Shromáždili jsme seznam otevřených datových sad, které můžete zdarma používat a trénovat vaše modely AI / ML budoucnosti.

SpecializaceDatový typNázev datové sadyPrůmysl / odborAnotace / případ použitíPopisOdkaz
NLPTextAmazon RecenzeE-commerceAnalýza sentimentuSada recenzí a hodnocení 35 Mn z posledních 18 let ve formátu prostého textu s podrobnostmi o uživateli a produktu.Odkaz
NLPTextData odkazů na WikipediiobecněVíce než 4 Mn. články obsahující 1.9 miliardy. slovo, které obsahuje slova, fráze i odstavce.Odkaz
NLPTextStandfordský sentimentální stromZábavaAnalýza sentimentuDatová sada anotací sentimentu pro více než 10,000 XNUMX recenzí od Rotten Tomatoes ve formátu souboru HTMLOdkaz
NLPTextTwitter Sentiment amerických leteckých společnostíLetecká linkaAnalýza sentimentuTweety z roku 2015 na US Airlines se rozdvojily do pozitivních, negativních a neutrálních tónůOdkaz
CVObraz Označené tváře ve volné příroděobecněrozpoznání obličejeDatová sada obsahující více než 13,000 XNUMX oříznutých tváří se dvěma různými obrázky pro trénink rozpoznávání obličeje.Odkaz
CVVideo, obrázekDatová sada UMDFacesobecněrozpoznání obličejeAnotovaná datová sada obsahující více než 367,000 8,000 tváří od více než XNUMX XNUMX subjektů, která zahrnuje statické snímky a videozáznamy.Odkaz
CVObraz ImagenetobecněDatová sada s více než 14 mil. obrázky v různých formátech souborů uspořádané podle hierarchie WordNet.Odkaz
CVObraz Otevřené obrázky Googleobecně9 mil. Adresy URL pro kategorizaci veřejných obrázků z více než 6,000 XNUMX kategorií.Odkaz
NLPTextMIMIC databáze kritické péčeZdravotní péčeVýpočtové datové sady fyziologie s de-identifikovanými daty od 40,000 XNUMX pacientů s kritickou péčí. Datová sada obsahuje informace, jako jsou demografické údaje, vitální funkce, léky atd.Odkaz
CVObrazAmerický národní úřad pro cestovní ruch a cestovní ruchCestovní ruchPoskytuje široké fotografie z odvětví cestovního ruchu s důvěryhodnými databázemi, které pokrývají témata jako příchozí a odchozí cestování a mezinárodní turistické informace.Odkaz
NLPTextKatedra dopravyCestovní ruchDatové sady cestovního ruchu, které zahrnují národní parky, registry řidičů, informace o mostech a železnici atd.Odkaz
NLPAudioKorpus zvukových titulků FlickrobecněVíce než 40k mluvených titulků z 8,000 fotografií určených pro bezkontaktní vzory řečiOdkaz
NLPAudioDatová sada příkazů řečiobecněRozpoznávání řeči, zvukové poznámky1sekundové promluvy od tisíců jednotlivců k vybudování základního hlasového rozhraní.Odkaz
NLPAudioEnvironmentální zvukové datové sadyobecněZvukové datové sady prostředí, které obsahují zvuk tabulek událostí a tabulek akustických scén.Odkaz
NLPTextDatový soubor otevřeného výzkumu COVID-19 Zdravotní péčeLékařská AISoubor dat výzkumu sestávající ze 45,000 19 vědeckých článků o COVID-XNUMX a rodině virů koronavirů.Odkaz
CVObrazOtevřená datová sada Waymo Automobilový průmyslNejrozmanitější soubory údajů o autonomním řízení vydané společností WaymoOdkaz
CVObrazVizuální genom obecněTitulky obrázkůVizuální znalostní databáze s podrobnými titulky více než 100 XNUMX obrázkůOdkaz
CVObrazLabelme Veřejná vláda.Velká sada anotovaných obrázků přístupných prostřednictvím programu Labelme MatlabOdkaz
CVObrazCOIL 100obecněVíce než 100 různých objektů fotografovaných z různých úhlů (tj. 360 stupňů)Odkaz
CVObrazDatová sada Stanford DogsobecněVíce než 20,500 120+ obrázků roztříděných do sady obrázků XNUMX různých plemen psůOdkaz
CVObrazRozpoznání vnitřní scényobecněRozpoznání scénySpecifická datová sada skládající se z 15620 obrazů ze 67 interiérových kategorií pro vytváření modelů rozpoznávání scénOdkaz
CVObrazVisualQAobecněSoubor dat, který obsahuje otevřené otázky týkající se 265,016 XNUMX fotografií, které vyžadují pochopení vize a porozumění jazyka, aby bylo možné odpovědět.Odkaz
NLPTextDatová sada analýzy více domén SentimentE-commerceAnalýza sentimentuDatová sada obsahující recenze produktů od AmazonuOdkaz
NLPTextRecenze IMDBZábavaAnalýza sentimentuDatová sada obsahující 25000 XNUMX recenzí filmu pro analýzu sentimentuOdkaz
NLPTextSentiment 140obecněAnalýza sentimentuDatová sada obsahující 160,000 XNUMX tweetů s předem odstraněnými emotikony pro vyšší přesnostOdkaz
NLPTextKorpus bloggerůobecněAnalýza klíčůDatová sada obsahující 681,288 200 blogových příspěvků z blogger.com, sestávající z minimálně XNUMX výskytů široce používaných anglických slov.Odkaz
NLPTextOhroženíobecněChatbot školeníDatová sada s více než 200,000 XNUMX otázkami, které lze použít k trénování modelů strojového učení pro inteligentní automatickou odpověďOdkaz
NLPTextSbírka spamu SMS v angličtiněTelekomunikaceRozpoznávání spamuSoubor dat nevyžádané pošty sestávající z 5,574 XNUMX anglických SMSOdkaz
NLPTextRecenze YelpuobecněAnalýza sentimentuDatová sada s více než 5 mil. Recenzí publikovaná společností YelpOdkaz
NLPTextSpambase UCIEnterpriseRozpoznávání spamuVelká sada dat nevyžádaných e-mailů, užitečná pro filtrování nevyžádané pošty.Odkaz
CVVideo, obrázekBerkeley DeepDrive BDD100kAutomobilový průmyslAutonomní vozidlaJeden z největších datových souborů pro AI s vlastním řízením, který obsahuje 1,100 hodin zážitků z řízení ve více než 100,000 XNUMX videích z různých časů dne z oblasti New Yorku a San Franciska.Odkaz
CVVideoComma.aiAutomobilový průmyslAutonomní vozidla 7hodinová datová sada pro jízdu po dálnici, která obsahuje informace o rychlosti, zrychlení, úhlu řízení a GPS souřadnicích vozuOdkaz
CVVideo, obrázekDatová sada panorámaAutomobilový průmyslSémantický štítek pro autonomní vozidloDatová sada 5,000 20,000 anotací na úrovni pixelů plus větší sada 50 XNUMX slabě anotovaných snímků ve stereofonních videosekvencích zaznamenaných z XNUMX různých městOdkaz
CVObrazDatová sada dopravní značky KUL BelgiumAutomobilový průmyslAutonomní vozidlaVíce než 10000 XNUMX anotací dopravních značek z regionu Flanders na základě fyzicky odlišných dopravních značek z celé Belgie.Odkaz
CVObrazLISA: Laboratoř pro inteligentní a bezpečné automobily, datové sady UC San DiegoAutomobilový průmyslAutonomní vozidlaBohatá datová sada obsahující dopravní značky, detekci vozidel, semafory a vzorce trajektorie.Odkaz
CVObrazCIFAR-10obecněRozpoznávání objektůDatová sada obsahuje 50,000 10,000 obrázků a 60,000 32 testovacích obrázků (tj. 32 10 barevných obrázků XNUMX × XNUMX v XNUMX třídách) pro rozpoznávání objektů.Odkaz
CVObrazMódní MNISTMódaDatová sada obrázků, která se skládá z 60,000 10,000 příkladů a testovací sady 28 28 příkladů v obrázcích ve stupních šedi 10 × XNUMX, spojených se štítkem z XNUMX tříd.Odkaz
CVObrazDatová sada IMDB-WikiZábavarozpoznání obličejeVelká datová sada obrazů obličeje se štítky, jako je pohlaví a věk. Z celkového počtu 523,051 460,723 snímků obličeje je 20,284 62,328 snímků získaných od XNUMX XNUMX osobností z IMDB a XNUMX XNUMX z Wikipedie.Odkaz
CVVideoKinetika-700obecněPro každou třídu akcí obsahuje vysoce kvalitní datový soubor 650,000 700 videoklipů a zahrnuje 600 tříd lidské akce s nejméně 10 videoklipy. Zde každý klip trvá přibližně XNUMX sekund.Odkaz
CVObrazMS CocoobecněDetekce objektů, segmentaceDatová sada obsahuje 328 tisíc obrazů a má celkem 2.5 Mn instancí a 91 obrazů objektů k trénování rozsáhlých modelů detekce, segmentace a titulkování dat ve velkém měřítku.Odkaz
CVObrazDatová sada MPII Human PoseobecněV datové sadě, která se používá k vyjádření odhadu lidské pózy, je zahrnuto přibližně 25 40 fotografií obsahujících více než 410 XNUMX jedinců s anotovanými klouby těla. Celkově tato datová sada pokrývá XNUMX lidských aktivit a každý obrázek je opatřen štítkem aktivity.Odkaz
CVObrazOtevřete obrázkyobecněAnotace umístění objektuDatová sada obrázků s přibližně 9 Mn obrázky opatřenými poznámkami se štítky na úrovni obrazu, ohraničujícími rámečky objektů, segmentací objektů atd. Datová sada se také skládá z 16 Mn. ohraničující rámečky pro 600 tříd objektů na obrázcích 1.9 Mn.Odkaz
CVVideoOtevřená platforma Apollo, Baidu Inc, ČínaAutomobilový průmyslOhraničující box, LiDARBohatá sada dat autonomního řízení, která poskytuje vývojářům požadovaná data v autonomním řízení, aby urychlila účinnost inovativní iterace.Odkaz
CVVideo, obrázekArgo, společnost Argo, USAAutomobilový průmyslOhraničující rámeček, optický tok, behaviorální štítek, sémantický štítek, značení jízdního pruhuDatová sada s vlastním řízením, která se skládá z HD map s geometrickými a sémantickými metadaty, tj. Středy jízdních pruhů, směr jízdního pruhu a řiditelná oblast. Datová sada se používá k trénování modelů ML, aby bylo možné vytvořit přesnější algoritmy vnímání, které pomohou bezpečně se řídit samohybná vozidla.Odkaz
CVVideoMalý semafor společnosti Bosch, výzkum společnosti Bosch pro Severní AmerikuAutomobilový průmyslOhraničující rámečekSoubor dat sestávající z 13427 1280 obrazů z kamery s rozlišením 720 * 24000 k vytvoření systému detekce semaforu na základě vidění. Datová sada má více než XNUMX XNUMX anotovaných semaforů.Odkaz
CVVideoBrain4Cars, Cornell Univ., Spojené státyAutomobilový průmyslBehaviorální štítekDatová sada obsahující řadu kabinových senzorů (kamery, hmatové senzory, inteligentní zařízení atd.) Za účelem získání užitečné statistiky o bdělosti řidiče. Naše algoritmy mohou detekovat řidiče, kteří jsou ospalí nebo roztržití, a posílit nezbytné alarmy ke zlepšení ochrany.Odkaz
CVObrazCULane, čínská Univ. Hongkongu, Pekingu, ČínyAutomobilový průmyslZnačení jízdních pruhůDatová sada Computer Vision o detekci jízdních pruhů, která zahrnuje 55 hodin videí, z nichž bylo extrahováno 133,235 88880 (9675 tréninkových sad, 34680 ověřovacích sad a XNUMX testovacích sad). Shromažďují jej kamery namontované na šesti různých vozidlech poháněných různými řidiči v Pekingu.Odkaz
CVVideoDAVIS, autor Univ. Curych, ETH ¨ Curych, Německo, ŠvýcarskoAutomobilový průmyslKompletní datová sada pro školení řidičů vozidel využívající kameru DAVIS event + frame. Údaje o vozidle, jako je řízení, plyn, GPS atd., Se používají k vyhodnocení fúze údajů o rámu a událostech pro automobilové aplikace.Odkaz
CVVideoDBNet, Shanghai Jiao Tong Univ., Xiamen Univ., ČínaAutomobilový průmyslMrak bodů, LiDARSkutečná data o řízení 1000 KM, která zahrnují zarovnané video, mračno bodů, GPS a chování řidiče pro podrobný výzkum chování při řízení.Odkaz
CVVideoDr (eye) ve, od Univ. Modena a Reggio Emilia, Modena, ItálieAutomobilový průmyslBehaviorální štítekDatová sada obsahující 74 videosekvencí po 5 minutách, které byly anotovány ve více než 500,000 XNUMX snímcích. Datová sada se skládá z geograficky odkazovaných míst, rychlosti jízdy, kurzu a také označuje fixace pohledu řidičů a jejich časovou integraci poskytující mapy specifické pro daný úkol.Odkaz
CVVideoETH Pedestrian (2009), autor: ETH Zurich, Curych, ŠvýcarskoobecněOhraničující rámečekSoubor dat 74 videosekvencí po 5 minutách, anotovaný ve více než 500,000 XNUMX snímcích. Datová sada poskytuje geograficky odkazované polohy, rychlost jízdy, směr a také označuje fixace pohledu řidičů a jejich časovou integraci, včetně map specifických pro daný úkol.Odkaz
CVVideoFord (2009), autor Univ. z Michiganu, Michigan, USAAutomobilový průmyslBounding Box,, LiDARSoubor dat zkompilovaný automatizovaným pozemním vozidlem vyzbrojeným skenerem Velodyne 3D-lidar, dvěma tlačnými koly Rieg pro budoucnost, technickou a spotřebitelskou inerciální měřící jednotkou (IMU) a všesměrovým kamerovým systémem Point Gray Ladybug3.Odkaz
CVVideoHCI Challenging Stereo, Bosch Corporation Research, Hildesheim, NěmeckoobecněSoubor několika milionů snímků ze zachycených video scén, které zahrnují širokou škálu různých povětrnostních podmínek, více vrstev pohybu a hloubky; situace ve městě a na venkově atd.Odkaz
CVVideoJAAD, York University, Ukrajina, KanadaAutomobilový průmyslOhraničující rámeček, popis chování„JAAD je datový soubor pro studium společné pozornosti v kontextu autonomního řízení. Důraz je kladen na chování chodců a řidičů v místě přechodu a faktory, které je ovlivňují. Za tímto účelem poskytuje datový soubor JAAD bohatě anotovanou sbírku 346 krátkých videí klipy (dlouhé 5–10 s) extrahované z více než 240 hodin záznamu z jízdy z několika míst v Severní Americe a východní Evropě. Pro všechny chodce se používají ohraničující rámečky s okluzními značkami, díky nimž je tato datová sada vhodná pro detekci chodců. které interagují s řidičem nebo vyžadují jeho pozornost. U každého videa existuje několik značek (počasí, umístění atd.) a štítky chování s časovým razítkem (např. zastaveno, chodit, hledat atd.). pro každého chodce (např. věk, pohlaví, směr pohybu atd.), jakož i seznam viditelných prvků dopravní scény (např. stopku, dopravní signál atd.) v každém snímku. “Odkaz
CVVideoKAIST Urban, KAIST, Jižní KoreaobecněLiDARSběr dat zahrnuje řadu lokalizačních senzorů pro data LiDAR a stereofonní obrazy zaměřené na velmi složitou městskou oblast (např. Metropolitní oblasti, složité budovy a obytné oblasti).Odkaz
CVObrazDopravní značka LISA, Univ. of California, San Diego, United StatesAutomobilový průmyslOhraničující rámečekSada datové sady obsahující videa a komentované rámečky obsahující americké dopravní značky. Vychází ve dvou fázích, v jedné pouze s obrázky a v druhé s obrázky a videem.Odkaz
CVObrazMapillary Vistas, společnost Mapillary AB, GlobalAutomobilový průmyslSémantický štítekDatová sada fotografie na úrovni ulice pro interpretaci pouličních scén po celém světě s lidskými anotacemi s přesností na pixely a instancemi.Odkaz
CVVideo, obrázekSemantic KITTI, University of Bonn, Karlsruhe, NěmeckoAutomobilový průmyslOhraničující rámeček, sémantický štítek, značení jízdního pruhuDatová sada, která obsahuje sémantickou anotaci pro všechny posloupnosti Odometry Benchmark. Datová sada anotuje různé typy pohybujícího se a nepohybujícího se provozu: včetně automobilů, kol, kol, chodců a cyklistů, což umožňuje studovat objekty ve scéně.Odkaz
CVVideoStanford Track, Stanford Univ., Spojené státyAutomobilový průmyslDetekce / klasifikace objektů LiDAR, GPS, kódyDatová sada, která obsahuje 14,000 64 stop označených objektů, jak je pozoruje Velodyne HDL-2E S3 LIDAR v přírodních pouličních scénách, které lze použít k trénování modelů strojového učení pro XNUMXD rozpoznávání objektů.Odkaz
CVVideo, obrázekBoxy datová sada, společnost Bosch, Spojené státy americkéAutomobilový průmyslDetekce ohraničující krabice / vozidlaDatová sada pro detekci vozidel obsahující 2 miliony anotovaných vozidel pro výcvik a analýzu strategií rozpoznávání objektů pro samojízdné automobily na dálnicích.Odkaz
CVVideoTME Motorway, Czech Technical Univ., Northern ItalyAutomobilový průmyslOhraničující rámečekDatová sada 28 klipů po dobu celkem 27 minut rozdělená do více než 30,000 XNUMX rámečků anotací vozidla. Anotace byla vytvořena poloautomaticky pomocí dat z laserového skeneru. Tento sběr dat zahrnuje různé scénáře provozu, počet jízdních pruhů, zakřivení silnice a osvětlení, které pokrývají většinu podmínek úplného získání.Odkaz
CVVideoUnsupervised Llamas, od společnosti Bosch, Spojené státyAutomobilový průmyslZnačení jízdních pruhů, LiDARDatová sada Unsupervised Llamas byla anotována generováním automatických map řízení ve vysokém rozlišení, včetně značek jízdních pruhů založených na Lidaru. Autonomní vozidlo lze srovnat s těmito mapami a značky jízdního pruhu se promítnou do rámu kamery. 3D projekce je optimalizována minimalizací nesrovnalostí mezi již pozorovanými a předpokládanými značkami obrazu.Odkaz
NLPAudioFacebook AI Vícejazyčný LibriSpeech (MLS)obecněZvukové poznámky / Rozpoznávání řečiFacebook AI Multilingual LibriSpeech (MLS), je rozsáhlá datová sada s otevřeným zdrojovým kódem navržená tak, aby pomohla pokročit ve výzkumu automatického rozpoznávání řeči (ASR). MLS poskytuje více než 50,000 8 hodin zvuku v XNUMX jazycích: angličtině, němčině, holandštině, francouzštině, španělštině, italštině, portugalštině a polštině. Odkaz