Otevřete datové sady
Objevte datové sady s otevřeným zdrojovým kódem, které vám pomohou trénovat modely ML
Datové sady s otevřeným zdrojovým kódem, které vám pomohou začít s modely AI/ML
Výstup z vašich modelů AI a ML je jen tak dobrý jako data, která používáte k jejich trénování - takže přesnost, kterou použijete při agregaci dat a označování a identifikaci těchto dat, je důležitá!
Takže pokud chcete zahájit novou iniciativu AI / ML a nyní si rychle uvědomujete, že nalezení vysoce kvalitních tréninkových dat bude jedním z náročnějších aspektů vašeho projektu, protože vysoce kvalitní datové sady jsou palivem, které udržuje AI / Běží motor ML. Shromáždili jsme seznam otevřených datových sad, které můžete zdarma používat a trénovat vaše modely AI / ML budoucnosti.
| Specializace | Datový typ | Název datové sady | Průmysl / odbor | Anotace / případ použití | Odkaz |
|---|---|---|---|---|---|
| +NLP | Text | Amazon Recenze | E-commerce | Analýza sentimentu | Odkaz |
| Popis | Sada recenzí a hodnocení 35 Mn z posledních 18 let ve formátu prostého textu s podrobnostmi o uživateli a produktu. | ||||
| +NLP | Text | Data odkazů na Wikipedii | obecně | Odkaz | |
| Popis | Více než 4 miliony článků obsahujících 1.9 miliardy slov z Wikipedie. Každý článek obsahuje hypertextové odkazy na související entitu. | ||||
| +NLP | Text | Standfordský sentimentální strom | Zábava | Analýza sentimentu | Odkaz |
| Popis | Soubor dat s anotacemi sentimentu pro více než 10 000 vět s recenzemi filmů z webu Rotten Tomatoes. Dostupné na úrovni frází – každá věta je analyzována na podfráze binarizací analyzačních stromů ve formátu Penn Treebank. | ||||
| +NLP | Text | Twitter Sentiment amerických leteckých společností | Letecká linka | Analýza sentimentu | Odkaz |
| Popis | Tweety o US Airlines z roku 2015 se rozdělily na pozitivní, neutrální a negativní. | ||||
| +CV | Obraz | Imagenet | obecně | Odkaz | |
| Popis | Datová sada s více než 14 miliony obrázků v různých formátech souborů namapovaných na přibližně 21 000 synsetů. Synsety jsou synonymum s přidruženými entitami prezentovanými jako obrázek. 1 milion obrázků má ohraničující rámečky a více než 1 milion obrázků má prvky SIFT. | ||||
| +CV | Obraz | Otevřené obrázky Google | obecně | Odkaz | |
| Popis | Datová sada podobná ImageNet s 600 kategoriemi. K dispozici ve vývojovém, validačním a trénovacím rozdělení. Některé obrázky také obsahují ohraničující rámečky a vizuální vztahy. | ||||
| +NLP | Text | Dialogy z Cornellova filmu | Zábava | Dialogy | Odkaz |
| Popis | Sbírka fiktivních rozhovorů s metadaty postav a filmů. Každý řádek představuje dialog mezi dvěma lidmi ve formátu otázek a odpovědí. | ||||
| Popis | Datová sada otázek a odpovědí s otázkami a odpověďmi z portálu Yahoo Answers v období od dubna 2007 do října 2007. | ||||
| +NLP | Text | MS MARCO | obecně | Odpověď na otázku | Odkaz |
| Popis | Datová sada otázek a odpovědí s anotacemi z protokolů webového vyhledávání Bingu. Každá otázka obsahuje odpověď od uživatele a také webové pasáže, které odpověď obsahují. | ||||
| +NLP | Text | Datová sada přirozených otázek | obecně | Odpověď na otázku | Odkaz |
| Popis | Tato datová sada, kterou zveřejnila společnost Google, obsahuje skutečné uživatelské dotazy a odpovědi z článků na Wikipedii. | ||||
| +NLP | Text | DBPedia | obecně | Znalosti Graf | Odkaz |
| Popis | Strukturované vykreslení Wikipedie s entitami a vztahy extrahovanými jako graf znalostí. | ||||
| +NLP | Text | YAGO | obecně | Znalosti Graf | Odkaz |
| Popis | Graf znalostí obsahující entity a vztahy z Wikipedie, WordNetu a GeoNames. | ||||
| +NLP | Text | FreeBase | obecně | Znalosti Graf | Odkaz |
| Popis | Znalostní báze získaná z crowdsourcingu, která se skládá z entit a vztahů a je nyní začleněna do grafu znalostí Google. | ||||
| +NLP | Text | Ontonóty | obecně | Sémantické označování rolí | Odkaz |
| Popis | Korpus se syntaktickými, sémantickými a diskurzivními anotacemi používanými ve sdílených úkolech CoNLL. | ||||
| +NLP | Text | CoNLL 2003 | obecně | Uznání pojmenované entity | Odkaz |
| Popis | Anglická datová sada s anotacemi pro pojmenované entity, jako je osoba, organizace a místo. | ||||
| +CV | Obraz | Kokos | obecně | Detekce objektů | Odkaz |
| Popis | Běžné objekty v kontextu: bohatě anotovaná datová sada pro detekci objektů, segmentaci a popisování. | ||||
| +CV | Obraz | PASCAL VOC | obecně | Detekce objektů | Odkaz |
| Popis | Srovnávací datová sada pro detekci a segmentaci objektů. | ||||
| +CV | Obraz | Pohledy na město | Autonomní řízení | Sémantická segmentace | Odkaz |
| Popis | Datová sada pro pochopení městské scény s anotacemi na úrovni pixelů pro 30 tříd. | ||||
| +CV | Obraz | MNIST | obecně | Klasifikace číslic | Odkaz |
| Popis | Datová sada ručně psaných číslic s 60 000 trénovacími a 10 000 testovacími obrázky o rozměrech 28x28 pixelů. | ||||
| +CV | Obraz | Móda-MNIST | Maloobchod | Klasifikace obrazu | Odkaz |
| Popis | Datová sada obrázků článků Zalando ve stejném formátu jako MNIST, používaná jako náhrada pro benchmarking. | ||||
| +NLP | Audio | LibriSpeech | obecně | ASR | Odkaz |
| Popis | Korpus čtené anglické řeči odvozené z audioknih, s 1000 hodinami řeči a souvisejících textů. | ||||
| +NLP | Audio | TED-LIUM | obecně | ASR | Odkaz |
| Popis | Přepsané přednášky TED se zvukem a zarovnanými transkripcemi pro výzkum rozpoznávání řeči. | ||||
| +NLP | Audio | TIMIT | obecně | Rozpoznávání fonémů | Odkaz |
| Popis | Foneticky přepsaná řeč mluvčích americké angličtiny, široce používaná pro úkoly rozpoznávání fonémů. | ||||
| +NLP | Audio | Obyčejný hlas | obecně | ASR | Odkaz |
| Popis | Vícejazyčný korpus čtené řeči, který přispívají dobrovolníci z celého světa. | ||||
| +NLP | Audio | VoxCeleb | obecně | Rozpoznávání reproduktorů | Odkaz |
| Popis | Rozsáhlý datový soubor pro identifikaci mluvčích shromážděný z videí na YouTube. | ||||
| +NLP | Text | Výpis z Wikipedie | obecně | Jazykové modelování | Odkaz |
| Popis | Plné texty článků z Wikipedie, pravidelně aktualizované, používané pro předtrénování jazykových modelů. | ||||
| +NLP | Text | Gigaword | Novinky | Jazykové modelování | Odkaz |
| Popis | Komplexní archiv textových dat zpravodajských agentur od různých zpravodajských agentur. | ||||
| +NLP | Text | Recenze IMDB | Zábava | Analýza sentimentu | Odkaz |
| Popis | Velký soubor dat pro recenze filmů pro binární klasifikaci sentimentu. | ||||
| +CV | Video | Kinetika-700 | obecně | Rozpoznávání akcí | Odkaz |
| Popis | Rozsáhlá, vysoce kvalitní datová sada videoklipů z YouTube pokrývající 700 tříd lidských činností. | ||||
| +CV | Video | 101 UCF | obecně | Rozpoznávání akcí | Odkaz |
| Popis | Soubor dat realistických akčních videí se 101 kategoriemi akcí. | ||||
| +CV | Video | HMDB51 | obecně | Rozpoznávání akcí | Odkaz |
| Popis | Velká databáze videí s lidským pohybem s 51 kategoriemi pohybu. | ||||
| Popis | Databáze fotografií obličejů určená pro studium neomezeného rozpoznávání obličejů. | ||||
| +CV | Obraz | CASIA-WebFace | obecně | face Recognition | Odkaz |
| Popis | Datová sada s miliony obrázků obličejů pro trénování modelů hloubkového rozpoznávání obličejů. | ||||
| +NLP | Text | SQUAD | obecně | Porozumění čtení | Odkaz |
| Popis | Datová sada pro zodpovídání otázek ze Stanfordu: otázky kladené crowdworkery na základě souboru článků na Wikipedii. | ||||
| Popis | Datová sada pro strojové porozumění s otázkami a odpověďmi založenými na zpravodajských článcích CNN. | ||||
| +NLP | Text | MultiNLI | obecně | Odvozování přirozeného jazyka | Odkaz |
| Popis | Datová sada pro odvozování větných párů přirozeného jazyka napříč různými žánry. | ||||
| +NLP | Text | SNLI | obecně | Odvozování přirozeného jazyka | Odkaz |
| Popis | Stanfordský inferenční korpus pro přirozený jazyk s dvojicemi vět označenými jako důsledek, rozpor nebo neutrální. | ||||
| Popis | Sbírka více než 100 milionů tokenů extrahovaných ze sady ověřených dobrých a doporučených článků na Wikipedii. | ||||
| Popis | Soubor dat s 16 185 obrázky 196 tříd automobilů. | ||||
| +CV | Obraz | Oxfordské květiny 102 | Botanika | Jemnozrnná klasifikace | Odkaz |
| Popis | 102 kategorií květin běžně se vyskytujících ve Spojeném království. | ||||
| +CV | Obraz | CIFAR-10 | obecně | Klasifikace obrazu | Odkaz |
| Popis | Obrázky 10 tříd: letadlo, automobil, pták, kočka, jelen, pes, žába, kůň, loď a nákladní automobil. | ||||
| +CV | Obraz | CIFAR-100 | obecně | Klasifikace obrazu | Odkaz |
| Popis | Datová sada podobná CIFAR-10, ale se 100 jemně odstupňovanými třídami. | ||||
| +CV | Obraz | Rozvržení osoby VOC | obecně | Odhad pozice | Odkaz |
| Popis | Část PASCAL VOC zaměřená na anotace rozvržení osob, jako je hlava, ruce a nohy. | ||||
| +CV | Obraz | MPII Lidská póza | obecně | Odhad pozice | Odkaz |
| Popis | Přibližně 25 000 obrázků obsahujících přes 40 000 lidí s anotovanými tělesnými klouby. | ||||
| Popis | Sbírka článků zpravodajské agentury Reuters pro výzkum kategorizace textu. | ||||
| +NLP | Text | 20 diskusních skupin | obecně | Klasifikace textu | Odkaz |
| Popis | Sbírka 20 000 dokumentů diskusních skupin rozdělených do 20 různých diskusních skupin. | ||||