Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

15 apr 2014

Wat als u op basis van opgeslagen patiëntengegevens nauwkeurig kunt bepalen welke patiënten een verhoogd risico lopen op bijvoorbeeld Hepatitis C (een virale leverontsteking waarvan mensen niet altijd weten dat ze ermee besmet zijn)? Glazen-bol-toekomstmuziek?

Dat gelukkig niet; risicogroepen zijn nu al wel te identificeren, maar nog niet nauwkeurig genoeg. Een lijst met risicofactoren (drugsgebruiker of verhoogde lever-enzymen bijvoorbeeld) is een goede start, maar u mist de groep mensen die niet op deze punten scoren, maar wel een risico lopen doordat ze bijvoorbeeld vanwege een tatoeage of piercing besmet kunnen zijn geraakt.

Een grote bron aan informatie die vaak nu niet gebruikt wordt, kan hiervoor het verschil maken: de artsenaantekeningen.

Artsenaantekeningen: een rijkdom aan ongestructureerde data

Tussen de 10 en 15 % van de medische gegevens bestaat uit gestructureerde data. Labresultaten bijvoorbeeld en demografische gegevens van de patiënten, maar ook ICD-10-codes: allemaal gestructureerde gegevens. Het grootste deel (80 tot 95%) van de medische gegevens is echter ongestructureerd. Radiologierapporten, ontslagbrieven, aantekeningen van artsen, enzovoorts. En hier zit de echte rijkdom aan data, in de ongestructureerde gegevens. Met een nieuwe technologie (iKnow) kunnen deze grote hoeveelheden ongestructureerde gegevens geanalyseerd worden. Waardoor bijvoorbeeld een beter inzicht in de behandeling van patiënten ontstaat. Maar er kunnen ook voorspellingen mee gedaan worden.

Wie valt buiten de boot?

Drugsgebruikers, Hiv-patiënten, mensen die net in een land geweest zijn waar Hepatitis C veel voorkomt, mannen die seks hebben met andere mannen: allemaal factoren die het risico op Hepatitis C vergroten. Dit zijn gegevens die vastgelegd kunnen zijn van patiënten die onder behandeling zijn. Maar hiermee bent u er nog niet. Stel dat een patiënt een tatoeage en/of piercing heeft. Een acupunctuur-behandeling heeft ondergaan, of een tijdje in de gevangenis heeft gezeten, of andere bijzondere levensomstandigheden heeft die de kans op Hepatitis C vergroten? Gegevens die niet op de standaard vragenformulieren staan, of een ICD-10 hebben. Maar wel in de aantekeningen van de arts kunnen staan. Ook die teksten kunnen nu meegenomen worden in de analyse van een patiëntendossier.

Top-down of bottom-up?

Met de traditionele tools voor tekstanalyse worden databases gescand op bepaalde woorden en woordgroepen die in een ontologie zijn opgenomen, zoals “Hiv”, “Hepatitis “C, “seks”, “drugs”. Maar het kost veel tijd om goede woordenlijsten samen te stellen en de resultaten die uit de analyses komen, zijn vaak ellenlange overzichten van patiënten waarvoor één of meer van die factoren geldt. Handig, maar u mist ook resultaten omdat u heel gericht met behulp van vastgestelde zoekwoorden gezocht hebt naar patiëntendossiers waarin die elementen voorkomen: Top-down dus.

Op zoek naar relaties

De iKnow-technologie werkt precies andersom. Het vertrekt vanuit de data, zonder te weten wat er in een bepaald domein aanwezig is. Het detecteert alle zinvolle woordgroepen en de relaties tussen die woordgroepen en legt die vast, zonder doel van te voren. Dit proces heet smart-indexing waarbij de technologie zich richt op de linguïstische representatie van relaties. Meestal zijn dat werkwoordsvormen, soms is het een zelfstandig naamwoord, afhankelijk van de context waarin het zich bevindt. Zodra de linguïstische representaties van relaties gevonden zijn, zijn alle andere woorden of woordgroepen zinvolle woordgroepen die verwijzen naar specifieke concepten. Op die manier bouwt de technologie aan een smart-index.

Bijvoorbeeld in de volgende zin: “Twee patiënten hebben last van maagpijn”. De technologie haalt hier de volgende elementen uit en slaat die op in de smart-index:

Het concept “twee patiënten”
De relatie “hebben last van”
Het concept “maagpijn”

Zodra u die smart-index op een grote dataset loslaat, kunt u hier handige analyses mee maken en die voor verschillende doeleinden gebruiken.

Elementen ontdekken in het elektronisch dossier van een patiënt

Bijvoorbeeld voor het doorzoeken van een elektronisch patiëntendossier: Uit een toplijst met veel voorkomende woorden in de artsverslagen van een patiënt gemaakt door de smart-index, blijkt bijvoorbeeld dat het woord pijn door de patiënt veel genoemd wordt, waarbij maagpijn vaker in zijn dossier voorkomt dan pijn op de borst. Dit geeft een goed startpunt voor een verder onderzoek van het patiëntendossier. Deze resultaten komen uit de data, en niet door zelf specifiek naar het woord “pijn” te zoeken.

Patiënten identificeren

Een andere bruikbare toepassing van de technologie is het selecteren van patiënten en patiëntengroepen uit grote datasets met gestructureerde en ongestructureerde gegevens.

Een bestralingsinstituut in Nederland wilde graag meer weten over de werking van een bepaald diabetesmedicijn tijdens de behandeling van nek- en halskanker. De specifieke vraag was: toon alle patiënten die metformin gebruiken, getest zijn op diabetes en de diagnose nek-halskanker hebben.

Als er alleen op de medicijnnaam gezocht zou worden, zouden in de zoekresultaten ook de patiënten voorkomen die gestopt zijn met het medicijn. Door de smart-index op de dataset los te laten, kon de zoekvraag verfijnd worden, is er ook informatie uit de artsaantekeningen gehaald en ontstond er zo een overzicht van de patiënten die aan alle drie de voorwaarden voldoen. Vervolgens kunnen de patiëntencodes aangeklikt worden die linken naar de zinsneden van de artsaantekeningen waarin die elementen voorkomen.

Patronen herkennen

Maar de techniek kan ook gebruikt worden om predictive models op te bouwen, zoals door een huisartsenpraktijk in België gedaan is, die wilde onderzoeken welke patiënten een verhoogd risico lopen op het besmet raken met Hepatitis C. De praktijk wilde daarvoor de complete patiëntendossiers gebruiken. Het grootste deel van de lijst risicofactoren voor deze virale leverontsteking bestaat uit gestructureerde data, zoals gestegen lever-enzymen. Maar juist andere belangrijke factoren als wel of geen piercing, tatoeage, of gevangenisverblijf staan niet in de gestructureerde dataset met codes, maar kunnen wel in het ongestructureerde deel van het patiëntendossier voorkomen, in de artsaantekeningen.

Door de smart-index los te laten op die gegevens en te combineren met de gestructureerde gegevens uit de dossiers, konden meerdere patiënten als risicovol geïdentificeerd worden. Deze patiënten konden vervolgens getest worden op Hepatitis C. Op deze manier zijn patiënten te identificeren die voorheen, zonder de analyse van de ongestructureerde gegevens, waarschijnlijk niet als risicovol aangemerkt zouden worden.

Aan de slag met die gegevens!

Wilt u ook aan de slag met de enorme hoeveelheden ongestructureerde medische gegevens die aanwezig zijn binnen uw zorginstelling, uw zorgregio of uw onderzoeksinstituut? Om patronen te herkennen in ziektebeelden en behandelingen? Of om risicogroepen nauwkeurig vast te kunnen stellen? En patiënten op tijd te kunnen behandelen? Neem gerust contact met ons op, we kijken graag samen verder naar wat er mogelijk is op het gebied van predictive analytics.

InterSystems