NLP Dataset pro ML

15 nejlepších datových sad NLP, které vás naučí modely zpracování přirozeného jazyka

Zpracování přirozeného jazyka je důležitou součástí brnění strojového učení. Aby však model dobře fungoval, potřebuje obrovské množství dat a školení. Jedním z významných problémů s NLP je nedostatek tréninkových datových sad, které mohou pokrýt rozsáhlé oblasti zájmu v rámci domény.

Pokud v tomto rozsáhlém oboru začínáte, může pro vás být vytváření datových sad náročné a prakticky zbytečné. Zvlášť když je kvalita NLP dostupné datové sady pro trénování modelů strojového učení na základě jejich účelu.

Trh NLP má v letech 11.7 a 2018 růst o CAGR 2026 % a dosáhnout 28.6 miliard USD do roku 2026. Díky rostoucí poptávce po NLP a strojovém učení je nyní možné získat kvalitní datové sady pro analýzu sentimentu, recenze, analýzu otázek a odpovědí a datové sady pro analýzu řeči.

Datové sady NLP pro strojové učení, kterým můžete věřit

Vzhledem k tomu, že téměř každý den vychází nespočet datových sad – zaměřených na různé potřeby – může být obtížné získat kvalitní, spolehlivé a nejlepší datové sady. Zde jsme vám usnadnili práci, protože jsme vám představili vybrané datové sady oddělené podle kategorií, kterým slouží.

obecně

Spambase, vytvořená v laboratořích Hewlett-Packard, má sbírku nevyžádaných e-mailů od uživatelů, jejichž cílem je vyvinout personalizovaný spamový filtr. Má více než 4600 pozorování z e-mailových zpráv, z nichž téměř 1820 je spam.

Datový soubor Enron má rozsáhlou sbírku anonymizovaných „skutečných“ e-mailů dostupných veřejnosti pro trénování jejich modelů strojového učení. Může se pochlubit více než půl milionem e-mailů od více než 150 uživatelů, převážně od vrcholového vedení Enronu. Tato datová sada je k dispozici pro použití ve strukturovaných i nestrukturovaných formátech. Chcete-li zvýraznit nestrukturovaná data, musíte použít techniky zpracování dat.

  • Datová sada Recommender Systems (Link)

Datová sada Recommender System je obrovská sbírka různých datových sad obsahujících různé funkce, jako např.

  • Hodnocení k produktu
  • Hodnocení hvězdičkami
  • Fitness sledování
  • Údaje o skladbě
  • Sociální sítě
  • Časová razítka
  • Interakce uživatele/položky
  • GPS data

Analýza sentimentu

  • Slovníky pro filmy a finance (Link)

Analýza sentimentu
Datový soubor Dictionaries for Movies and Finance poskytuje doménové slovníky pro pozitivní nebo negativní polaritu ve výplních Finance a recenzích filmů. Tyto slovníky jsou čerpány z výplní IMDb a US Form-8.

Sentiment 140 má více než 160,000 6 tweetů s různými emotikony rozdělenými do XNUMX různých polí: datum tweetu, polarita, text, uživatelské jméno, ID a dotaz. Tato datová sada vám umožňuje objevit sentiment značky, produktu nebo dokonce tématu na základě aktivity na Twitteru. Protože se tato datová sada vytváří automaticky, na rozdíl od jiných tweetů anotovaných člověkem, klasifikuje tweety s pozitivními emocemi a negativními emocemi jako nepříznivé.

  • Vícedoménová datová sada Sentiment (Link)

Tento soubor dat o sentimentu ve více doménách je úložištěm recenzí Amazon na různé produkty. Některé kategorie produktů, jako jsou knihy, mají hodnocení v řádu tisíců, zatímco jiné mají jen několik stovek recenzí. Kromě toho lze recenze s hodnocením hvězdičkami převést na binární štítky.

Pojďme dnes diskutovat o vašem požadavku na školení AI.

Text

Korpus WiKi QA, vytvořený na pomoc při výzkumu otázek a odpovědí v otevřené doméně, je jedním z nejrozsáhlejších veřejně dostupných souborů dat. Sestaven z protokolů dotazů vyhledávače Bing a přichází s dvojicemi otázek a odpovědí. Obsahuje více než 3000 otázek a 1500 označených odpovědí.

  • Dataset zpráv o právním případu (Link)

Datový soubor Legal Case Reports má sbírku 4000 právních případů a lze jej použít k trénování automatické sumarizace textu a analýzy citací. Používá se každý dokument, slogany, citační třídy, citační fráze a další.

Datová sada Jeopardy je sbírka více než 200,000 XNUMX otázek obsažených v populární televizní kvízové ​​show, kterou shromáždil uživatel Redditu. Každý datový bod je klasifikován podle data vysílání, čísla epizody, hodnoty, kola a otázky/odpovědi.

Zvuková řeč

  • Mluvené korporace Wikipedie (Link)

Zvuková řeč Tato datová sada je ideální pro každého, kdo chce jít nad rámec angličtiny. Tato datová sada obsahuje sbírku článků mluvených v holandštině, němčině a angličtině. Má rozmanitou škálu témat a sady řečníků trvající stovky hodin.

Anglický datový soubor 2000 HUB5 obsahuje 40 přepisů telefonních hovorů v anglickém jazyce. Data poskytuje National Institute of Standards and Technology a jeho hlavním zaměřením je rozpoznávání konverzační řeči a převod řeči na text.

Dataset LibriSpeech je sbírka téměř 1000 hodin anglické řeči převzaté a řádně rozdělené podle témat do kapitol ze zvukových knih, což z ní činí dokonalý nástroj pro zpracování přirozeného jazyka.

Hodnocení

Datová sada Yelp má rozsáhlou sbírku asi 8.5 milionu recenzí více než 160,000 200,000 podniků, jejich recenzí a uživatelských dat. Recenze mohou být použity k trénování vašich modelů na analýzu sentimentu. Kromě toho má tato datová sada také více než XNUMX XNUMX obrázků pokrývajících osm metropolitních lokalit.

Recenze IMDB patří mezi nejoblíbenější datové soubory obsahující informace o obsazení, hodnocení, popis a žánr pro více než 50 tisíc filmů. Tuto datovou sadu lze použít k testování a trénování vašich modelů strojového učení.

  • Datový soubor recenzí a hodnocení Amazon (Link)

Soubor údajů o recenzích a hodnocení Amazonu obsahuje cennou sbírku metadat a recenzí různých produktů od Amazonu shromážděných od roku 1996 do roku 2014 – asi 142.8 milionů záznamů. Metadata zahrnují cenu, popis produktu, značku, kategorii a další, zatímco recenze mají kvalitu textu, užitečnost textu, hodnocení a další.

Na jakém datovém souboru jste se tedy rozhodli trénovat svůj model strojového učení?

Jak půjdeme, necháme vás s a profesionální tip. 

Než si vyberete datovou sadu NLP pro své potřeby, důkladně si projděte soubor README. Datová sada bude obsahovat všechny potřebné informace, které byste mohli potřebovat, jako je obsah datové sady, různé parametry, podle kterých byla data kategorizována, a pravděpodobné případy použití datové sady.

Bez ohledu na modely, které postavíte, existuje vzrušující vyhlídka na těsnější a vnitřnější integraci našich strojů do našich životů. S NLP se mnohonásobně rozšiřují možnosti pro podnikání, filmy, rozpoznávání řeči, finance a další. Pokud hledáte více takových datových sad Klikněte zde.

Sociální sdílení

Mohlo by se vám také líbit