Datové sady rukopisu

15 nejlepších open-source datových sad rukopisu pro trénování vašich modelů ML

Obchodní svět se transformuje fenomenálním tempem, ale tato digitální transformace není zdaleka tak rozsáhlá, jak bychom si přáli. Lidé stále manipulují s fyzickými dokumenty ve svých každodenních operacích, od velkých korporací po malé podniky. I když se frekvence používání výrazně snížila, nezmizelo to úplně. Namísto časově náročného procesu skenování dokumentů pro digitální použití pomocí nejnovějších OCR je časově efektivní a efektivní.

Nárůst používání optického rozpoznávání znaků lze přičíst především nárůstu výroby systémů automatického rozpoznávání. V důsledku toho je globální tržní hodnota technologie OCR pevně stanovena $ 8.93 miliardy v roce 2021 se předpokládá, že mezi lety 15.4 a 2022 poroste CAGR o 2030 %.

Ale co přesně je technologie OCR? A proč je to změna hry pro podniky vyvíjející efektivní modely umělé inteligence? Pojďme to zjistit.

Co je OCR?

Alternativně označované jako rozpoznávání textu, OCR neboli optické rozpoznávání znaků je program, který extrahuje tištěná nebo psaná data z naskenovaných dokumentů, souborů PDF obsahujících pouze obrázky a ručně psaných poznámek do strojově čitelného formátu. Software vyjme každé písmeno z obrázku a spojí je do slov a vět, čímž usnadňuje digitální přístup k dokumentům a jejich úpravy.

Co jsou to open-source datové sady?

Existuje několik míst, kde má technologie OCR velký potenciál využít. Některá místa zahrnují letiště, vydávání elektronických knih, reklamy, banky a systémy dodavatelského řetězce. Aby však aplikace sloužily svému účelu, musí být vyškoleny v konkrétních projektech Datové sady pro optické rozpoznávání znaků.

Efektivita aplikace do značné míry závisí na kvalitě datového souboru a použité metodice školení. Nicméně, najít kvalitní digitální a ručně psané datové sady je pro aplikaci obtížná. Mnoho společností tedy místo proprietárních datových sad používá open source nebo volně použitelné datové sady.

Výhody a výzvy open-source datových sad

Podniky musí proti sobě postavit výhody a výzvy, aby pochopily, zda se musí rozhodnout pro volně dostupná data pro své aplikace ML.

Výhody

  • Data jsou snadno dostupná. Díky dostupnosti dat se výrazně snižují náklady na vývoj aplikace.
  • Čas a úsilí vynaložené na sběr dat pro aplikaci jsou výrazně sníženy, protože datová sada je snadno dostupná.
  • Existuje množství komunitních fór nebo skupin nápovědy, které pomáhají učit se, přizpůsobovat a optimalizovat datovou sadu.
  • Jednou z hlavních výhod open-source datové sady je, že neklade žádná omezení na přizpůsobení.
  •   Open-Source data jsou přístupná velké části populace, což umožňuje analýzu a inovace bez peněžních překážek.

Výzvy

  • Data specifická pro projekt je obtížné získat. Kromě toho existuje možnost chybějících informací a nesprávného použití dostupných údajů.
  • Získávání proprietárních dat vyžaduje čas a úsilí a je nákladné
  • I když může být snazší získat data, náklady na znalosti a analýzy mohou převážit počáteční výhodu.
  • Jiní vývojáři také využívají stejná data k vývoji aplikací.
  • Tyto datové sady jsou vysoce zranitelné vůči narušení bezpečnosti, soukromí a souhlasu.

15 nejlepších datových sad rukopisu a OCR pro strojové učení

Open-Source datové sady OCR

Pro vývoj aplikací pro rozpoznávání textu je k dispozici mnoho open source datových sad. Některé z 15 nejlepších jsou

  1. Datový soubor ICDAR

    Mezinárodní konference pro analýzu a rozpoznávání dokumentů má úložiště 229 školicích a 233 testovacích obrázků spolu s anotacemi. Slouží jako měřítko pro hodnocení detekce textu.

  2. IIIT 5K-Word datový soubor

    IIIT 5K-word převzato z vyhledávání obrázků Google je sbírka slov z vývěsních štítů, billboardů, poznávacích značek a plakátů. Obsahuje 5K oříznuté obrázky slov, což z něj dělá jednu z nejrozsáhlejších sbírek dostupných datových sad pro rozpoznávání textu.

  3. Databáze NIST

    NIST nebo National Institute of Science nabízí bezplatnou sbírku více než 3600 vzorků rukopisu s více než 810,000 XNUMX obrázky znaků.

  4. Databáze MNIST

    Databáze MNIST, odvozená ze speciální databáze 1 a 3 NSIT, je kompilovanou sbírkou 60,000 10,000 ručně psaných čísel pro trénovací sadu a XNUMX XNUMX příkladů pro sadu testů. Tato databáze s otevřeným zdrojovým kódem pomáhá trénovat modely, aby rozpoznávaly vzory, a přitom tráví méně času předzpracováním.

  5. Detekce textu

    Databáze s otevřeným zdrojovým kódem, datová sada Detekce textu, obsahuje asi 500 vnitřních a venkovních obrázků vývěsních štítů, dveřních štítků, výstražných štítků a dalších.

  6. Stanford OCR

    Tato volně dostupná datová sada, kterou vydal Stanford, je ručně psaná sbírka slov od MIT Spoken Language Systems Group.

  7. DDI-100

    DDI-100, jinak nazývaný Dataset deformovaných obrazů dokumentů, je sbírka více než 6658 stránek dokumentů s několika geometrickými vzory a použitými deformacemi. Kromě toho má DDI-100 více než 99870 XNUMX obrázků, razítek, textových masek a ohraničovacích rámečků.

  8. RoadText-1K

    RoadText-1K, jedna z největších datových sad, která pomáhá trénovat modely pro detekci textu ve videích, obsahuje 1000 videoklipů doplněných textovou anotací ohraničujícího rámečku a přepisem textu v každém snímku videa.

  9. MSRA-TD500

    Obsahuje 300 školení a 200 textových obrázků; MSRA-TD500 obsahuje znaky z čínského a anglického jazyka a je opatřena poznámkami na úrovni vět.

  10. Datová sada MJSynth

    Tento datový soubor slov, který poskytuje Oxfordská univerzita, obsahuje téměř 9 milionů synteticky generovaných obrázků pokrývajících více než 90 tisíc slov v anglickém jazyce.

  11. Text Street View

    Tato datová sada shromážděná ze snímků Google Street View obsahuje obrázky detekce textu hlavně z tabulí a značek na úrovni ulic.

  12. Databáze dokumentů

    Databáze dokumentů je sbírka 941 ručně psaných dokumentů, včetně tabulek, vzorců, nákresů, diagramů, seznamů a dalších, od 189 autorů.

  13. Matematické výrazy

    The Mathematics Expressions je databáze, která obsahuje 101 matematických symbolů a 10,000 XNUMX výrazů.

  14. Street View čísla domů

    Tato čísla domů Street View, získaná z Google Street View, je databází obsahující 73257 číslic čísel ulic.

  15. Přírodní prostředí OCR

    Natural Environment OCR je datová sada téměř 660 obrázků z celého světa a 5238 textových anotací.

To byly některé z nejlepších open-source datových sad pro trénování modelů ML pro aplikace detekce textu. Výběr té, která odpovídá potřebám vaší firmy a aplikace, může vyžadovat čas a úsilí. Než se však rozhodnete pro ten správný, musíte s těmito datovými sadami experimentovat.

Abychom vám pomohli pokročit směrem ke spolehlivé a efektivní aplikaci pro detekci textu, je Shaip – ​​špičkový poskytovatel technologických řešení. Využíváme naše technické zkušenosti k vytváření přizpůsobitelných, optimalizovaných a efektivní tréninkové datové sady OCR pro různé klientské projekty. Chcete-li plně porozumět našim schopnostem, kontaktujte nás ještě dnes.

Sociální sdílení