Anotace dat – NER

Poznámky k pojmenované entitě (NER) pro klinickou NLP

Ner anotace

Dobře komentovaná klinická textová data se zlatým standardem pro trénování/vývoj klinického NLP pro vytvoření další verze Healthcare API

Význam klinického zpracování přirozeného jazyka (NLP) byl v posledních letech stále více uznáván a vedl k transformačním pokrokům. Klinické NLP umožňuje počítačům pochopit bohatý význam, který se skrývá za lékařskou písemnou analýzou pacienta. Klinické NLP může mít více případů použití, od analýzy zdraví populace přes zlepšení klinické dokumentace až po rozpoznávání řeči až po shodu klinických studií atd.

Chcete-li vyvinout a trénovat jakékoli klinické modely NLP, potřebujete přesné, nezaujaté a dobře anotované soubory dat v obrovských objemech. Zlatý standard a různorodá data pomáhají zvýšit přesnost a vyvolání NLP motorů.

Hlasitost

Počet anotovaných dokumentů
10
Počet anotovaných stránek
10 +
Trvání projektu
< 1 měsíců

Výzvy

Klient se těšil, že bude trénovat a rozvíjet svou platformu zpracování přirozeného jazyka (NLP) s novými typy entit a také identifikovat vztah mezi různými typy. Kromě toho hodnotili dodavatele, kteří nabízeli vysokou přesnost, dodržovali místní zákony a měli požadované lékařské znalosti pro anotaci velkého souboru dat.

Úkolem bylo označit a okomentovat až 20,000 15,000 označených záznamů, včetně až 5,000 1 označených záznamů z dat elektronických zdravotních záznamů lůžkových a ambulantních zařízení (EHR) a až 2 XNUMX označených záznamů z přepsaných lékařských diktátů, rovnoměrně rozmístěných napříč (XNUMX) zeměpisnými původy a ( XNUMX) dostupné lékařské obory.

Abychom tedy shrnuli výzvy:

  • Uspořádejte heterogenní klinická data pro trénování platformy NLP
  • Identifikujte vztah mezi různými entitami, abyste získali kritické informace
  • Schopnost a odbornost označovat / komentovat široký soubor komplexních klinických dokumentů
  • Udržování kontroly nad náklady na označování/anotaci velkého objemu dat pro školení klinického NLP ve stanoveném časovém rámci
  • Označte entity v klinickém datovém souboru, který se skládá ze 75 % EHR a 25 % diktátových záznamů.
  • Zrušení identifikace dat v době doručení

Další výzvy v porozumění přirozenému jazyku

Dvojznačnost

Slova jsou jedinečná, ale mohou mít různé významy v závislosti na kontextu, což vede k nejednoznačnosti na lexikální, syntaktické a sémantické úrovni.

Synonymie

Stejnou myšlenku můžeme vyjádřit různými termíny, které jsou zároveň synonymy: velký a velký znamená totéž při popisu předmětu.

Koreference

Proces hledání všech výrazů, které odkazují na stejnou entitu v textu, se nazývá koreference rozlišení.

Osobnost, záměr, emoce

V závislosti na osobnosti mluvčího, jeho záměru a emocích mohou být pro stejnou myšlenku vyjádřeny odlišně.

Řešení

K dispozici je velké množství lékařských dat a znalostí ve formě lékařských dokumentů, ale hlavně v nestrukturovaném formátu. Pomocí Anotace lékařské entity / Anotace Rozpoznání pojmenované entity (NER) byl Shaip schopen převést nestrukturovaná data do strukturovaného formátu anotací užitečných informací z různých typů klinických záznamů. Jakmile byly entity identifikovány, byl také zmapován vztah mezi nimi, aby bylo možné identifikovat kritické informace.

Náplň práce: Anotace zmínka o zdravotnickém subjektu

9 Typy entit

  • Zdravotní stav
  • Lékařský postup
  • Anatomická struktura
  • Medicína
  • Zdravotnické zařízení
  • Měření těla
  • Zneužití drog
  • Laboratorní údaje
  • Funkce těla

17 Modifikátory

  • Modifikátory léků: Síla, Jednotka, Dávka, Od, Frekvence, Cesta, Trvání, Stav
  • Modifikátory měření těla: Hodnota, Jednotka, Výsledek
  • Modifikátory procedur: Metoda
    • Modifikátor laboratorních dat: Lab Value, Lab Unit, Lab Result
  • Přísnost
  • Výsledek postupu

27 Vztahy a stav pacienta

Výsledek

Anotovaná data by byla použita k vývoji a školení Klientovy klinické NLP platformy, která by byla začleněna do další verze jejich Healthcare API. Výhody, které klient získal, byly:

  • Data označená/anotovaná splňovala standardní pokyny Zákazníka pro anotaci dat.
  • Heterogenní datové soubory byly použity k trénování platformy NLP pro větší přesnost.
  • Vztah mezi různými entitami, tj. Anatomická stavba těla <> Zdravotnický prostředek, Zdravotní stav <> Zdravotnický prostředek, Zdravotní stav <> Léky, Zdravotní stav <> Byly identifikovány postupy pro odvození kritických lékařských informací.
  • Široká množina dat, která byla označena/anotována, byla v době dodání také deidentifikována.

Naše spolupráce se společností Shaip výrazně pokročila v našem projektu v oblasti ambientní technologie a konverzační umělé inteligence v rámci zdravotnictví. Jejich odborné znalosti v oblasti vytváření a přepisu syntetických zdravotnických dialogů poskytly pevný základ a ukázaly potenciál syntetických dat při překonávání regulačních problémů. Se společností Shaip jsme tyto překážky překonali a jsme nyní o krok blíže k realizaci naší vize intuitivních řešení zdravotní péče.

Zlatá - 5 hvězdiček

Zrychlete svou konverzační AI
vývoj aplikací o 100%