Nárůst používání optického rozpoznávání znaků lze přičíst především nárůstu výroby systémů automatického rozpoznávání. V důsledku toho je globální tržní hodnota technologie OCR pevně stanovena $ 8.93 miliardy v roce 2021 se předpokládá, že mezi lety 15.4 a 2022 poroste CAGR o 2030 %.
Ale co přesně je technologie OCR? A proč je to změna hry pro podniky vyvíjející efektivní modely umělé inteligence? Pojďme to zjistit.
Co je OCR (optické rozpoznávání znaků)?
OCR je technologie, která převádí různé typy dokumentů, jako jsou naskenované papírové dokumenty, soubory PDF nebo obrázky textu, na upravitelná a prohledávatelná data. Funguje podle:
- Analýza struktury textu v obrázku
- Rozdělení textu na řádky a znaky
- Převedení těchto vizuálních znaků na strojově čitelný text
Mezi běžné použití patří:
- Převod naskenovaných dokumentů na upravitelné textové soubory
- Digitalizace tištěných knih
- Extrahování textu z fotografií
- Převod ručně psaných receptů na digitální text
- Rozpoznávání SPZ
Výhody a výzvy open-source datových sad
Podniky musí proti sobě postavit výhody a výzvy, aby pochopily, zda se musí rozhodnout pro volně dostupná data pro své aplikace ML.
Výhody
- Data jsou snadno dostupná. Díky dostupnosti dat se výrazně snižují náklady na vývoj aplikace.
- Čas a úsilí vynaložené na sběr dat pro aplikaci jsou výrazně sníženy, protože datová sada je snadno dostupná.
- Existuje množství komunitních fór nebo skupin nápovědy, které pomáhají učit se, přizpůsobovat a optimalizovat datovou sadu.
- Jednou z hlavních výhod open-source datové sady je, že neklade žádná omezení na přizpůsobení.
- Open-Source data jsou přístupná velké části populace, což umožňuje analýzu a inovace bez peněžních překážek.
Výzvy
- Data specifická pro projekt je obtížné získat. Kromě toho existuje možnost chybějících informací a nesprávného použití dostupných údajů.
- Získávání proprietárních dat vyžaduje čas a úsilí a je nákladné
- I když může být snazší získat data, náklady na znalosti a analýzy mohou převážit počáteční výhodu.
- Jiní vývojáři také využívají stejná data k vývoji aplikací.
- Tyto datové sady jsou vysoce zranitelné vůči narušení bezpečnosti, soukromí a souhlasu.
22 nejlepších datových sad rukopisu a OCR pro strojové učení
Pro vývoj aplikací pro rozpoznávání textu je k dispozici mnoho open source datových sad. Některé z 22 nejlepších jsou
Databáze NIST
NIST nebo National Institute of Science nabízí bezplatnou sbírku více než 3600 vzorků rukopisu s více než 810,000 XNUMX obrázky znaků.
Databáze MNIST
Databáze MNIST, odvozená ze speciální databáze 1 a 3 NSIT, je kompilovanou sbírkou 60,000 10,000 ručně psaných čísel pro trénovací sadu a XNUMX XNUMX příkladů pro sadu testů. Tato databáze s otevřeným zdrojovým kódem pomáhá trénovat modely, aby rozpoznávaly vzory, a přitom tráví méně času předzpracováním.
Detekce textu
Databáze s otevřeným zdrojovým kódem, datová sada Detekce textu, obsahuje asi 500 vnitřních a venkovních obrázků vývěsních štítů, dveřních štítků, výstražných štítků a dalších.
Stanford OCR
Tato volně dostupná datová sada, kterou vydal Stanford, je ručně psaná sbírka slov od MIT Spoken Language Systems Group.
Text Street View
Tato datová sada shromážděná ze snímků Google Street View obsahuje obrázky detekce textu hlavně z tabulí a značek na úrovni ulic.
Databáze dokumentů
Databáze dokumentů je sbírka 941 ručně psaných dokumentů, včetně tabulek, vzorců, nákresů, diagramů, seznamů a dalších, od 189 autorů.
Matematické výrazy
The Mathematics Expressions je databáze, která obsahuje 101 matematických symbolů a 10,000 XNUMX výrazů.
Street View čísla domů
Tato čísla domů Street View, získaná z Google Street View, je databází obsahující 73257 číslic čísel ulic.
Přírodní prostředí OCR
Natural Environment OCR je datová sada téměř 660 obrázků z celého světa a 5238 textových anotací.
Matematické výrazy
Více než 10,000 101 výrazů s více než XNUMX matematickými symboly.
Ručně psané čínské znaky
Datový soubor 909,818 10 ručně psaných čínských znaků, což odpovídá asi XNUMX zpravodajským článkům.
Arabsky tištěný text
Lexikon 113,284 10 slov s použitím XNUMX arabských písem.
Ručně psaný anglický text
Ručně psaný anglický text na tabuli s více než 1700 záznamy.
3000 obrázků prostředí
3000 snímků z různých prostředí, včetně venkovních a vnitřních scén za různého osvětlení.
Data Chars74K
74,000 XNUMX obrázků anglických a kannadských číslic.
IAM (Rukopis IAM)
Databáze IAM obsahuje 13,353 657 ručně psaných textových obrázků od XNUMX autorů z korpusu britské angličtiny Lancaster-Oslo/Bergen.
FUNSD (Form Understanding in Noisy Scanned Documents)
FUNSD obsahuje 199 anotovaných, naskenovaných formulářů s různorodým a hlučným vzhledem, náročným na pochopení formulářů.
Text OCR
TextOCR srovnává rozpoznávání textu na libovolném tvaru textu scény v přirozených obrázcích.
Twitter 100 tis
Twitter100k je velká datová sada pro slabě kontrolované vyhledávání napříč médii.
SSIG-SegPlate – Segmentace znaků SPZ (LPCS)
Tato datová sada vyhodnocuje segmentaci znaků SPZ (LPCS) se 101 denními snímky vozidel.
105,941 12 snímků Přírodní scény Data OCR ve XNUMX jazycích
Data zahrnují 12 jazyků (6 asijských, 6 evropských) a různé přírodní scény a úhly. Obsahuje ohraničovací rámečky na úrovni řádků a textové přepisy. Je to užitečné pro vícejazyčné úlohy OCR.
Indická datová sada obrázků vývěsních štítů
Datový soubor obsahuje obrázky indických dopravních značek pro klasifikaci a detekci, pořízené za různých povětrnostních podmínek během dne, večera a noci.
To byly některé z nejlepších open-source datových sad pro trénování modelů ML pro aplikace detekce textu. Výběr té, která odpovídá potřebám vaší firmy a aplikace, může vyžadovat čas a úsilí. Než se však rozhodnete pro ten správný, musíte s těmito datovými sadami experimentovat.
[Přečtěte si také: Infografika OCR – definice, výhody, výzvy a případy použití]
Abychom vám pomohli pokročit směrem ke spolehlivé a efektivní aplikaci pro detekci textu, je Shaip – špičkový poskytovatel technologických řešení. Využíváme naše technické zkušenosti k vytváření přizpůsobitelných, optimalizovaných a efektivních datových sad OCR pro různé klientské projekty. Chcete-li plně porozumět našim schopnostem, kontaktujte nás ještě dnes.