Syntetická data

Co znamenají syntetická data ve věku obav o ochranu osobních údajů

Rozhodování založené na datech je dnes mantrou podnikového úspěchu a dokonalosti. Od fintech a výroby po maloobchod a dodavatelský řetězec, každé odvětví se veze na vlně velkých dat a pomocí svých pokročilých analytických modelů a algoritmů dosahuje rozhodování na základě statistik. V oblasti zdravotnictví se to stává ještě přínosnějším a život zachraňujícím, protože slouží jako základ inovací a vědeckého pokroku. 

S tak obrovským rozsahem přicházejí také výzvy. Vzhledem k tomu, že poptávka po zdravotnických údajích pro různé účely narůstá, roste také pravděpodobnost úniku dat a zneužití citlivých informací. A Zpráva z roku 2023 odhaluje že bylo odcizeno přes 133 milionů lékařských záznamů a dat, což představuje nový rekord v oblasti narušení dat ve zdravotnictví. 

Schválení nařízení HIPAA bylo uklidňujícím krokem v optimalizaci soukromí zdravotních údajů, což samostatně a výrazně snížení úniků dat o 48 %. Zprávy také ukazují, že 61 % všech úniků dat poukazuje na nedbalost zaměstnanců a profesionálů v této oblasti. 

K dalšímu omezení takových útoků a hromadnému odhalení zranitelností přichází syntetické údaje o pacientech. Jak se říká: „Moderní problémy vyžadují moderní řešení,“ začátek zdravotní péče o syntetická data umožňuje zdravotníkům posilovat data pacientů a používat modely umělé inteligence, které jim pomáhají při generování čerstvých dat.

V tomto článku se ponoříme hluboko do pochopení toho, co syntetické generování dat je vše o a jeho nesčetných aspektech. 

Syntetická data pacientů: co to je?

Syntéza je proces vytváření něčeho nového kombinací existujících prvků. Ve stejném kontextu se syntetická data pacientů vztahují k uměle vytvořeným datům z již existujících skutečných dat pacientů.

V tomto procesu statistické modely a algoritmy studují velké objemy dat pacientů, pozorují vzory a charakteristiky a generují datové sady, které emulují skutečná data. Některé z běžných technik používaných při generování umělých dat pacientů zahrnují:

  • Generative Adversarial Networks (GNN)
  • Statistické modely 
  • Metody anonymizace dat a další

Syntetická data jsou vynikající a vzduchotěsnou technikou, která potlačí obavy o soukromí související s možností odhalení informací o pacientovi, které lze znovu identifikovat. Abychom porozuměli výhodám takových dat, podívejme se na některé z nejvýznamnějších případů použití.

Případy použití syntetických dat

Případy použití syntetických dat

R&D Nových Drog A Léků

Generování dat z klinických studií je diskrétní a organizace často skrývají kritické informace. Pro účely výzkumu a vývoje je však interoperabilita dat klíčová pro umožnění průlomů. Vytváření syntetických dat může výzkumníkům pomoci využít je ke skrytí životně důležitých částí zpětně dohledatelných informací a dat ze sila ke společnému studiu lékových reakcí a protivníků, formulací, výsledků korelací a dalších.

Ochrana osobních údajů a dodržování předpisů

Zatímco existují rozhovory o potřebě centralizovaných cloudových systémů EHR, existují také regulační problémy týkající se ochrany soukromí a bezpečnosti. I když je datová interoperabilita nevyhnutelná, zúčastněné strany v celém spektru zdravotní péče musí být při sdílení údajů o pacientech maximálně ostražité. Syntetická data mohou pomoci skrýt citlivé aspekty a přitom zachovat klíčové kontaktní body a sloužit jako ideální reprezentativní datové sady. 

Zmírnění předsudků ve zdravotnictví

Ve zdravotnictví je zavádění zkreslení vrozené a nevyhnutelné. Pokud například v určité geografické oblasti dojde k epidemii, která postihne muže ve věku 35 až 50 let, je pro tuto konkrétní osobu standardně zavedena předpojatost. Zatímco ženy a děti jsou vůči tomuto průlomu stále zranitelné, výzkumníci potřebují objektivní půdu, aby svá zjištění doložili. Syntetická data mohou pomoci při eliminaci zkreslení a poskytování vyvážených reprezentací. 

Škálovatelné datové sady pro školení ve zdravotnictví

Kvůli předpisům, jako je GDPR, HIPAA a další, zůstává dostupnost datových sad pro trénování pokročilých modelů strojového učení nativního zdravotnictví skromná. Systémy umělé inteligence (AI) a modely strojového učení vyžadují obrovské objemy tréninkových dat, aby se neustále zlepšovaly v poskytování přesných výsledků.

Generování syntetických dat je v tomto prostoru požehnáním, které umožňuje organizacím vytvářet umělá data přizpůsobená jejich objemovým požadavkům, specifikacím a výsledkům a současně podporovat etické používání syntetických dat

Nedostatky a úskalí syntetických dat zdravotní péče

Skutečnost, že existují systémy a moduly pro umělé generování údajů o pacientech a zdravotní péči ze stávajících datových sad, je uklidňující. Tato technika však není bez spravedlivého podílu nedostatků. Pojďme pochopit, co jsou zač.

Tady není žádný standardní praxe – neboli standardizační techniky - vytvářet, sdílet a vyhodnocovat syntetická data. To ztěžuje spolupráci a interoperabilitu.

Na opačném konci spektra existují stejně výkonné a sofistikované systémy zpětný inženýr syntetická data a odhalit skutečná data pacientů.

Tady není žádný moderování nebo kontrola aby bylo zajištěno etické používání syntetických dat.

Přestože jde o autonomní proces, musí existovat a člověk ve smyčce zajistit, aby model zachytil kritické prvky požadované pro úkol nebo výzkum. Pokud například model nahradí sinus migrénou ve sloupci kritického stavu, celý výzkumný proces se otočí novým směrem.

Shaip a jeho role v demokratizaci dat školení ve zdravotnictví

V Shaip nejen ctíme zázrak syntetická zdravotnická data ale buďte také ostražití před jeho úzkými hrdly a nezamýšlenými výsledky. To je důvod, proč náš proces generování syntetických zdravotnických dat vyžaduje systematický a přísný postup, abychom zajistili škálovatelné a spolehlivé tréninkové datové sady. 


Naše protokoly „human-in-the-loop“ a intervence pro zajištění kvality dále zajišťují kvalitní syntetické datové soubory pro potřeby vašeho projektu. Základní hodnota syntetických dat spočívá v podpoře vědeckého pokroku, nikoli na úkor soukromí jednotlivce. Naše vize je v souladu s touto filozofií a naše postupy k jejímu dosažení.

Sociální sdílení