Datové sady pro zdravotnictví

Nejlepší datové sady pro zdravotnictví s otevřeným zdrojovým kódem pro projekty strojového učení

 • Globální systém zdravotní péče denně produkuje obrovské množství lékařských dat, která mají potenciál být využita pro aplikace strojového učení. Ve všech průmyslových odvětvích jsou data považována za vzácné aktivum, které společnostem umožňuje získat konkurenční výhodu, a v sektoru zdravotnictví tomu není jinak.

Tento článek se výstižně zaměří na překážky, se kterými se setkáváme při nakládání s lékařskými údaji, a poskytne souhrn veřejně přístupných zdravotnických datových souborů.

Význam datových sad pro zdravotnictví

Význam zdravotnických datových sad

Soubory údajů o zdravotní péči jsou soubory informací o pacientech, jako jsou lékařské záznamy, diagnózy, léčba, genetická data a podrobnosti o životním stylu. Jsou velmi důležité v dnešním světě, kde se AI používá stále více. Zde je důvod:

Pochopení zdraví pacienta:

Soubory údajů o zdravotní péči poskytují lékařům úplný obraz o zdravotním stavu pacienta. Například údaje o pacientově lékařské anamnéze, lécích a životním stylu mohou pomoci předpovědět, zda by mohl dostat chronické onemocnění. To umožňuje lékařům včas zasáhnout a vytvořit léčebný plán pouze pro tohoto pacienta.

Pomáháme lékařskému výzkumu:

Studiem zdravotnických datových souborů se mohou lékařští výzkumníci podívat na to, jak jsou pacienti s rakovinou léčeni a jak se zotavují. Mohou najít léčbu, která nejlépe funguje v reálném světě. Například při pohledu na vzorky nádorů v biobankách a historii léčby pacientů se vědci mohou dozvědět, jak specifické mutace a rakovinné proteiny reagují na různé způsoby léčby. Tento přístup založený na datech pomáhá najít trendy, které vedou k lepším výsledkům pacientů.

Lepší diagnostika a léčba:

Lékaři používají nástroje umělé inteligence, aby se podívali na zdravotnické datové sady a našli důležité vzorce. To jim pomáhá lépe diagnostikovat a léčit nemoci. V radiologii dokáže umělá inteligence najít problémy při skenování rychleji a přesněji než lidé. To znamená, že lékaři mohou dříve odhalit nemoci a dříve zahájit správnou léčbu. Anotace lékařských snímků může vést k rychlejší a lepší diagnostice, což zlepšuje zdraví pacienta.

Pomáháme iniciativám veřejného zdraví:

Představte si malé město, kde odborníci na zdravotnictví používali soubory dat ke sledování propuknutí chřipky. Podívali se na vzory a našli oblasti, které byly ovlivněny. S těmito údaji zahájili cílené očkovací akce a zdravotní osvětové kampaně. Tento přístup založený na datech pomohl potlačit chřipku. Ukazuje, jak mohou soubory údajů o zdravotní péči aktivně vést a zlepšovat iniciativy v oblasti veřejného zdraví.

Open Source lékařské datové sady pro strojové učení

Otevřené datové sady jsou nezbytné, aby každý model strojového učení dobře fungoval. Strojové učení se již používá v biologických vědách, zdravotnictví a medicíně a vykazuje skvělé výsledky. Pomáhá předpovídat nemoci a pochopit, jak se šíří. Strojové učení také dává nápady, jak se můžeme správně postarat o nemocné, staré a nemocné lidi v komunitě. Bez dobrých datových sad by tyto modely strojového učení nebyly možné.

Obecné a veřejné zdraví:

 • data.gov: Zaměřuje se na zdravotnická data orientovaná na USA, která lze snadno vyhledávat pomocí více parametrů. Soubory dat jsou navrženy tak, aby zlepšily blahobyt jednotlivců s bydlištěm v USA; tyto informace by však mohly být přínosné i pro další sady školení ve výzkumu nebo v dalších oblastech veřejného zdraví.
 • WHO: Nabízí datové sady zaměřené na globální zdravotní priority. Platforma obsahuje uživatelsky přívětivou vyhledávací funkci a vedle datových sad poskytuje cenné poznatky pro komplexní pochopení aktuálních témat.
 • Re3Data: Nabízí data zahrnující více než 2,000 XNUMX výzkumných subjektů rozdělených do několika širokých oblastí. I když ne všechny datové soubory jsou volně přístupné, platforma jasně označuje strukturu a umožňuje snadné vyhledávání na základě faktorů, jako jsou poplatky, požadavky na členství a omezení autorských práv.
 • Databáze lidské úmrtnosti nabízí přístup k údajům o úmrtnosti, počtech obyvatel a různým zdravotním a demografickým statistikám pro 35 zemí.
 • CHDS: Datové soubory Child Health and Development Studies mají za cíl prozkoumat mezigenerační přenos nemocí a zdraví. Zahrnuje soubory dat pro výzkum nejen genomické exprese, ale také vlivu sociálních, environmentálních a kulturních faktorů na nemoci a zdraví.
 • Merck Molecular Activity Challenge: Představuje datové sady navržené k podpoře aplikace strojového učení při objevování léků simulací potenciálních interakcí mezi různými kombinacemi molekul.
 • 1000 Genom Project: Obsahuje sekvenační data od 2,500 26 jedinců z XNUMX různých populací, což z něj dělá jedno z největších dostupných úložišť genomu. K této mezinárodní spolupráci lze přistupovat prostřednictvím AWS. (Všimněte si, že granty jsou k dispozici pro genomové projekty.)

Soubory obrazových dat pro vědy o živé přírodě, zdravotnictví a lékařství:

 • Otevřete Neuro: Jako bezplatná a otevřená platforma sdílí OpenNeuro širokou škálu lékařských snímků, včetně MRI, MEG, EEG, iEEG, ECoG, ASL a PET dat. S 563 soubory lékařských dat pokrývajících 19,187 XNUMX účastníků slouží jako neocenitelný zdroj pro výzkumné pracovníky a zdravotnické pracovníky.
 • Oáza: Tato datová sada pocházející z Open Access Series of Imaging Studies (OASIS) se snaží poskytovat veřejnosti zdarma data neurozobrazování ve prospěch vědecké komunity. Zahrnuje 1,098 2,168 subjektů v 1,608 XNUMX MR sezeních a XNUMX XNUMX PET sezeních a nabízí velké množství informací pro výzkumníky.
 • Neuroimaging iniciativa Alzheimerovy choroby: The Alzheimer's Disease Neuroimaging Initiative (ADNI) představuje data shromážděná výzkumníky z celého světa, kteří se věnují definování progrese Alzheimerovy choroby. Soubor dat zahrnuje komplexní sbírku MRI a PET snímků, genetické informace, kognitivní testy a biomarkery CSF a krve, což usnadňuje mnohostranný přístup k pochopení tohoto složitého stavu.

Nemocniční datové sady:

 • Katalog dat poskytovatele: Přístup a stahování komplexních datových sad poskytovatelů v oblastech včetně dialyzačních zařízení, lékařských praxí, domácích zdravotních služeb, hospicové péče, nemocnic, lůžkové rehabilitace, nemocnic pro dlouhodobě nemocné, pečovatelských domů s rehabilitačními službami, nákladů na návštěvy lékařů a adresářů dodavatelů.
 • Projekt nákladů a využití zdravotní péče (HCUP): Tato komplexní celostátní databáze byla vytvořena s cílem identifikovat, sledovat a analyzovat národní trendy ve využívání zdravotní péče, přístupu, poplatcích, kvalitě a výsledcích. Každý soubor lékařských dat v rámci HCUP obsahuje informace na úrovni setkání o všech pobytech pacientů, návštěvách pohotovostních oddělení a ambulantních operacích v nemocnicích v USA, což poskytuje velké množství dat pro výzkumníky a tvůrce politik.
 • MIMIC databáze kritické péče: Tento volně dostupný soubor lékařských dat, který vyvinulo MIT pro účely počítačové fyziologie, obsahuje neidentifikovaná zdravotní data od více než 40,000 XNUMX pacientů v kritické péči. Soubor dat MIMIC slouží jako cenný zdroj pro výzkumníky, kteří studují kritickou péči a vyvíjejí nové výpočetní metody.

Datové sady o rakovině:

 • CT lékařské snímky: Tento soubor dat, navržený tak, aby usnadnil alternativní metody pro zkoumání trendů v datech CT snímků, obsahuje CT skeny pacientů s rakovinou se zaměřením na faktory, jako je kontrast, modalita a věk pacienta. Výzkumníci mohou tato data využít k vývoji nových zobrazovacích technik a analýze vzorců v diagnostice a léčbě rakoviny.
 • International Collaboration on Cancer Reporting (ICCR): Soubory lékařských dat v rámci ICCR byly vyvinuty a poskytovány za účelem podpory přístupu založeného na důkazech k hlášení rakoviny po celém světě. Standardizací hlášení rakoviny se ICCR snaží zlepšit kvalitu a srovnatelnost údajů o rakovině napříč institucemi a zeměmi.
 • SEER Výskyt rakoviny: Tato data o rakovině, poskytnutá vládou USA, jsou segmentována pomocí základních demografických rozdílů, jako je rasa, pohlaví a věk. Datový soubor SEER umožňuje výzkumníkům zkoumat výskyt rakoviny a míru přežití v různých podskupinách populace, což poskytuje informace o iniciativách veřejného zdraví a prioritách výzkumu.
 • Soubor dat rakoviny plic: Tento bezplatný soubor dat obsahuje informace o případech rakoviny plic pocházejících z roku 1995. Výzkumníci mohou tato data použít ke studiu dlouhodobých trendů ve výskytu, léčbě a výsledcích rakoviny plic a také k vývoji nových diagnostických a prognostických nástrojů.

Další zdroje pro údaje o zdravotní péči:

 • Kaggle: Univerzální úložiště datových sad – Kaggle zůstává vynikající platformou pro širokou škálu datových sad, neomezující se na sektor zdravotnictví. Ideální pro ty, kteří se rozvětvují do různých předmětů nebo potřebují různé datové sady pro trénování modelů, je Kaggle oblíbeným zdrojem.
 • Subreddit: Pokladnice řízená komunitou – Správné diskuse na subredditu mohou být zlatým dolem pro otevřené datové sady. Pro úzce specializované nebo specifické dotazy, které nejsou řešeny veřejnými datovými sadami, může mít odpověď komunita Reddit.

Urychlete své projekty umělé inteligence ve zdravotnictví pomocí prémiových lékařských datových sad společnosti Shaip připravených k použití

Datový soubor konverzace lékaře a pacienta

Naše datová sada obsahuje zvukové soubory rozhovorů mezi lékaři a pacienty ohledně jejich zdraví a léčebných plánů. Soubory pokrývají 31 různých lékařských specializací.

Co obsahuje?

 • 257,977 XNUMX hodin skutečného zvuku lékařských diktátů k trénování modelů řeči ve zdravotnictví
 • Zvuk z různých zařízení, jako jsou telefony, digitální rekordéry, řečové mikrofony a chytré telefony
 • Zvuk a přepisy s odstraněnými osobními údaji v souladu se zákony na ochranu soukromí

Obrazová datová sada CT SCAN

Nabízíme špičkové obrazové datové sady CT skenů pro výzkum a lékařskou diagnostiku. Máme tisíce vysoce kvalitních snímků od skutečných pacientů, zpracovaných nejmodernějšími technikami. Naše datové soubory pomáhají lékařům a výzkumníkům lépe porozumět různým zdravotním problémům, jako je rakovina, mozkové poruchy a srdeční choroby.

Údaje naznačují, že nejběžnějšími CT vyšetřeními jsou hrudník (6000) a hlava (4350), přičemž významný počet vyšetření se provádí také pro břicho, pánev a další části těla. Tabulka také ukazuje, že určitá specializovaná vyšetření, jako je CT Covid HRCT a angiopulmonální vyšetření, se primárně provádějí v Indii, Asii, Evropě a dalších zemích.

Datový soubor elektronických zdravotních záznamů (EHR).

Elektronické zdravotní záznamy (EHR) jsou digitální verze pacientovy lékařské anamnézy. Zahrnují informace, jako jsou diagnózy, léky, léčebné plány, data očkování, alergie, lékařské snímky (jako jsou CT skeny, MRI a rentgenové snímky), laboratorní testy a další.

Naše funkce datové sady EHR připravené k použití:

 • Více než 5.1 milionu záznamů a zvukových souborů lékařů zahrnujících 31 lékařských specializací
 • Autentické lékařské záznamy ideální pro trénink klinického NLP a dalších modelů Document AI
 • Metadata včetně anonymizovaných MRN, data přijetí a propuštění, délka pobytu, pohlaví, třída pacienta, plátce, finanční třída, stav, dispozice propuštění, věk, DRG, popis DRG, úhrada, AMLOS, GMLOS, riziko úmrtnosti, závažnost onemocnění, grouper a nemocniční PSČ
 • Záznamy pokrývající všechny třídy pacientů: hospitalizovaný, ambulantní (klinický, rehabilitační, opakující se, chirurgická denní péče) a pohotovost
 • Dokumenty s údaji umožňujícími osobní identifikaci (PII) byly redigovány v souladu s pokyny HIPAA Safe Harbor

Obrazová datová sada MRI

Dodáváme prémiové obrazové datové sady MRI na podporu lékařského výzkumu a diagnózy. Naše rozsáhlá sbírka obsahuje tisíce snímků s vysokým rozlišením od skutečných pacientů, všechny zpracované pomocí nejmodernějších metod. Využitím našich datových souborů mohou zdravotníci a výzkumní pracovníci prohloubit své znalosti o široké škále zdravotních stavů, což v konečném důsledku povede k lepším výsledkům pacientů.

MRI obrazová datová sada různých částí těla, přičemž páteř a mozek mají nejvyšší počty, každý 5000. Data jsou distribuována v Indii, Střední Asii a Evropě a regionech Střední Asie.

Datový soubor rentgenového snímku

Nejkvalitnější datové soubory rentgenových snímků pro výzkum a lékařskou diagnostiku. Máme tisíce snímků ve vysokém rozlišení od skutečných pacientů, zpracovaných pomocí nejmodernějších technik. S Shaip máte přístup ke spolehlivým lékařským údajům, abyste zlepšili svůj výzkum a výsledky pacientů.

Distribuce datového souboru rentgenového záření napříč různými částmi těla, přičemž hrudník má nejvyšší počet 1000 ve Střední Asii. Dolní a horní končetiny mají celkem 850, každá je rozdělena mezi střední Asii a střední Asii a regiony Evropy.

Sociální sdílení