Co je NLP?
NLP (Natural Language Processing) pomáhá počítačům porozumět lidské řeči. Je to jako učit počítače číst, rozumět a reagovat na text a řeč tak, jak to dělají lidé.
Co umí NLP?
- Proměňte chaotický text na organizovaná data
- Uvědomte si, zda jsou komentáře pozitivní nebo negativní
- Překlad mezi jazyky
- Vytvářejte souhrny dlouhých textů
- A mnohem víc!
- Začínáme s NLP:
Chcete-li vytvořit dobré systémy NLP, potřebujete spoustu příkladů, abyste je mohli trénovat – stejně jako to, jak se lidé lépe učí s více praxí. Dobrou zprávou je, že existuje mnoho bezplatných zdrojů, kde můžete najít tyto příklady: Objímání obličeje, Kaggle si GitHub
Velikost a růst NLP trhu:
Od roku 2023 byl trh zpracování přirozeného jazyka (NLP) oceněn na přibližně 26 miliard USD. Očekává se, že výrazně poroste, se složenou roční mírou růstu (CAGR) asi 30 % od roku 2023 do roku 2030. Tento růst je poháněn rostoucí poptávkou po aplikacích NLP v odvětvích, jako je zdravotnictví, finance a služby zákazníkům.
Jak si vybrat dobrý datový soubor NLP, zvažte následující faktory:
- Relevance: Ujistěte se, že datová sada odpovídá vašemu konkrétnímu úkolu nebo doméně.
- Velikost: Větší datové sady obecně zlepšují výkon modelu, ale vyvažují velikost s kvalitou.
- Rozmanitost: Hledejte datové sady s různými jazykovými styly a kontexty, abyste zvýšili robustnost modelu.
- Kvalita: Zkontrolujte dobře označená a přesná data, abyste se vyhnuli zavádění chyb.
- Přístupnost: Zajistěte, aby byla datová sada dostupná pro použití, a zvažte veškerá licenční omezení.
- Předběžné zpracování: Určete, zda datová sada vyžaduje významné čištění nebo předběžné zpracování.
- Podpory Společenství: Oblíbené datové sady mají často více zdrojů a podpory komunity, což může být užitečné.
Vyhodnocením těchto faktorů můžete vybrat datovou sadu, která nejlépe vyhovuje potřebám vašeho projektu
33 nejdůležitějších otevřených datových sad pro NLP
obecně
Spambase UCI (Link)
Spambase, vytvořená v laboratořích Hewlett-Packard, má sbírku nevyžádaných e-mailů od uživatelů, jejichž cílem je vyvinout personalizovaný spamový filtr. Má více než 4600 pozorování z e-mailových zpráv, z nichž téměř 1820 je spam.
Datová sada Enron (Link)
Datový soubor Enron má rozsáhlou sbírku anonymizovaných „skutečných“ e-mailů dostupných veřejnosti pro trénování jejich modelů strojového učení. Může se pochlubit více než půl milionem e-mailů od více než 150 uživatelů, převážně od vrcholového vedení Enronu. Tato datová sada je k dispozici pro použití ve strukturovaných i nestrukturovaných formátech. Chcete-li zvýraznit nestrukturovaná data, musíte použít techniky zpracování dat.
Datová sada Recommender Systems (Link)
Datová sada Recommender System je obrovská sbírka různých datových sad obsahujících různé funkce, jako např.
- Hodnocení k produktu
- Hodnocení hvězdičkami
- Fitness sledování
- Údaje o skladbě
- Sociální sítě
- Časová razítka
- Interakce uživatele/položky
- GPS data
Penn Treebank (Link)
Tento korpus z Wall Street Journal je oblíbený pro testování modelů sekvenčního značení.
NLTK (Link)
Tato knihovna Pythonu poskytuje přístup k více než 100 korpusům a lexikálním zdrojům pro NLP. Zahrnuje také knihu NLTK, školení pro používání knihovny.
Univerzální závislosti (Link)
UD poskytuje konzistentní způsob, jak anotovat gramatiku, se zdroji ve více než 100 jazycích, 200 stromových bank a podporou více než 300 členů komunity.
Analýza sentimentu
Slovníky pro filmy a finance (Link)
Datový soubor Dictionaries for Movies and Finance poskytuje doménové slovníky pro pozitivní nebo negativní polaritu ve výplních Finance a recenzích filmů. Tyto slovníky jsou čerpány z výplní IMDb a US Form-8.Sentiment 140 (Link)
Sentiment 140 má více než 160,000 6 tweetů s různými emotikony rozdělenými do XNUMX různých polí: datum tweetu, polarita, text, uživatelské jméno, ID a dotaz. Tato datová sada vám umožňuje objevit sentiment značky, produktu nebo dokonce tématu na základě aktivity na Twitteru. Protože se tato datová sada vytváří automaticky, na rozdíl od jiných tweetů anotovaných člověkem, klasifikuje tweety s pozitivními emocemi a negativními emocemi jako nepříznivé.
Vícedoménová datová sada Sentiment (Link)
Tento soubor dat o sentimentu ve více doménách je úložištěm recenzí Amazon na různé produkty. Některé kategorie produktů, jako jsou knihy, mají hodnocení v řádu tisíců, zatímco jiné mají jen několik stovek recenzí. Kromě toho lze recenze s hodnocením hvězdičkami převést na binární štítky.
Standford Sentiment TreeBank (Link)
Tato datová sada NLP od Rotten Tomatoes obsahuje delší fráze a podrobnější textové příklady.
Korpus autorství blogu (Link)
Tato sbírka obsahuje blogové příspěvky s téměř 1.4 miliony slov, každý blog je samostatný datový soubor.
Dataset OpinRank (Link)
300,000 XNUMX recenzí od Edmunds a TripAdvisor, uspořádaných podle modelu auta nebo destinace a hotelu.
Text
-
Korpus Wiki QA (Link)
Korpus WiKi QA, vytvořený na pomoc při výzkumu otázek a odpovědí v otevřené doméně, je jedním z nejrozsáhlejších veřejně dostupných souborů dat. Sestaven z protokolů dotazů vyhledávače Bing a přichází s dvojicemi otázek a odpovědí. Obsahuje více než 3000 otázek a 1500 označených odpovědí.
-
Dataset zpráv o právním případu (Link)
Datový soubor Legal Case Reports má sbírku 4000 právních případů a lze jej použít k trénování automatické sumarizace textu a analýzy citací. Používá se každý dokument, slogany, citační třídy, citační fráze a další.
-
Ohrožení (Link)
Datová sada Jeopardy je sbírka více než 200,000 XNUMX otázek obsažených v populární televizní kvízové show, kterou shromáždil uživatel Redditu. Každý datový bod je klasifikován podle data vysílání, čísla epizody, hodnoty, kola a otázky/odpovědi.
-
20 diskusních skupin (Link)
Sbírka 20,000 20 dokumentů zahrnuje XNUMX diskusních skupin a témat, která podrobně popisují témata od náboženství po populární sporty.
-
Zpravodajský soubor agentury Reuters (Link)
Tato datová sada, která se poprvé objevila v roce 1987, byla označena, indexována a sestavena pro účely strojového učení.
-
ArXiv (Link)
Tato podstatná 270 GB datová sada obsahuje kompletní text všech výzkumných prací arXiv.
-
Jednání Evropského parlamentu Paralelní korpus (Link)
Větné dvojice z parlamentních jednání obsahují záznamy z 21 evropských jazyků, včetně některých méně běžných jazyků pro korpusy strojového učení.
-
Benchmark miliardy slov (Link)
Tato datová sada jazykového modelování, odvozená z WMT 2011 News Crawl, obsahuje téměř jednu miliardu slov pro testování inovativních technik jazykového modelování.
Zvuková řeč
-
Mluvené korporace Wikipedie (Link)
-
2000 HUB5 anglicky (Link)
Anglický datový soubor 2000 HUB5 obsahuje 40 přepisů telefonních hovorů v anglickém jazyce. Data poskytuje National Institute of Standards and Technology a jeho hlavním zaměřením je rozpoznávání konverzační řeči a převod řeči na text.
-
LibriSpeech (Link)
Dataset LibriSpeech je sbírka téměř 1000 hodin anglické řeči převzaté a řádně rozdělené podle témat do kapitol ze zvukových knih, což z ní činí dokonalý nástroj pro zpracování přirozeného jazyka.
-
Volná datová sada mluvených číslic (Link)
Tato datová sada NLP obsahuje více než 1,500 XNUMX nahrávek mluvených číslic v angličtině.
-
M-AI Labs Speech Dataset (Link)
Datový soubor nabízí téměř 1,000 XNUMX hodin zvuku s přepisy, které zahrnují více jazyků a jsou kategorizovány podle mužských, ženských a smíšených hlasů.
-
Databáze hlučné řeči (odkaz)
Tato datová sada obsahuje paralelní hlučné a čisté nahrávky řeči, určené pro vývoj softwaru pro vylepšení řeči, ale také užitečné pro trénování řeči v náročných podmínkách.
Hodnocení
-
Recenze Yelpu (Link)
Datová sada Yelp má rozsáhlou sbírku asi 8.5 milionu recenzí více než 160,000 200,000 podniků, jejich recenzí a uživatelských dat. Recenze mohou být použity k trénování vašich modelů na analýzu sentimentu. Kromě toho má tato datová sada také více než XNUMX XNUMX obrázků pokrývajících osm metropolitních lokalit.
-
Recenze IMDB (Link)
Recenze IMDB patří mezi nejoblíbenější datové soubory obsahující informace o obsazení, hodnocení, popis a žánr pro více než 50 tisíc filmů. Tuto datovou sadu lze použít k testování a trénování vašich modelů strojového učení.
-
Datový soubor recenzí a hodnocení Amazon (Link)
Soubor údajů o recenzích a hodnocení Amazonu obsahuje cennou sbírku metadat a recenzí různých produktů od Amazonu shromážděných od roku 1996 do roku 2014 – asi 142.8 milionů záznamů. Metadata zahrnují cenu, popis produktu, značku, kategorii a další, zatímco recenze mají kvalitu textu, užitečnost textu, hodnocení a další.
Otázka a odpověď
-
Stanfordská datová sada otázek a odpovědí (SQuAD) (Link)
Tato datová sada pro čtení s porozuměním obsahuje 100,000 50,000 odpovědných otázek a XNUMX XNUMX nezodpověditelných, všechny vytvořené davovými pracovníky Wikipedie.
-
Přirozené otázky (Link)
Tato školicí sada obsahuje více než 300,000 7,800 příkladů školení, 7,800 XNUMX příkladů vývoje a XNUMX XNUMX testovacích příkladů, každý s dotazem Google a odpovídající stránkou Wikipedie.
-
TriviaQA (Link)
Tato náročná sada otázek má 950,000 XNUMX párů QA, včetně podmnožin ověřených lidmi i strojově generovaných.
-
CLEVR (kompoziční jazyk a elementární vizuální uvažování) (Link)
Tato datová sada s vizuálními otázkami obsahuje 3D vykreslené objekty a tisíce otázek s podrobnostmi o vizuální scéně.
Na jakém datovém souboru jste se tedy rozhodli trénovat svůj model strojového učení?
Jak půjdeme, necháme vás s a profesionální tip.
Než si vyberete datovou sadu NLP pro své potřeby, důkladně si projděte soubor README. Datová sada bude obsahovat všechny potřebné informace, které byste mohli potřebovat, jako je obsah datové sady, různé parametry, podle kterých byla data kategorizována, a pravděpodobné případy použití datové sady.
Bez ohledu na modely, které postavíte, existuje vzrušující vyhlídka na těsnější a vnitřnější integraci našich strojů do našich životů. S NLP se mnohonásobně rozšiřují možnosti pro podnikání, filmy, rozpoznávání řeči, finance a další.