Automatische bottom-up tekstanalyse: een wereld van verschil

19 mei 2015

Binnen organisaties is gemiddeld 30% van de gegevens gestructureerd opgeslagen in databases. Het overgrote deel van de gegevens is echter verspreid over formulieren, e-mails en bestanden. Hoe haal je nou informatie uit die enorme berg aan gegevens zonder dat het veel geld en moeite kost? Door de binnen de organisatie aanwezige teksten automatisch te analyseren en de inhoud te categoriseren met een innovatieve tekstanalyse-tool. Dit kan zeer interessante informatie opleveren, bijvoorbeeld uit artsenverslagen in patiëntendossiers.

Analyse van cijfers...

De afgelopen decennia hebben de ontwikkelingen op het gebied van business intelligence zich voornamelijk toegespitst op getallen en cijfers. Vooral de financiële sector heeft veel behoefte aan en beschikt over cijfermatige data. Uit die gegevens kan voor hen veel relevante en bruikbare informatie gehaald worden.

...én letters

In de medische sector wordt ook veel gewerkt met getallen, denk aan laboratorium-resultaten. Maar er wordt niet alleen gewerkt met getallen. Een groot - en essentieel - deel van de digitaal opgeslagen medische informatie bestaat uit teksten (artsenverslagen, e-mails, aantekeningen). En die gegevens worden nog niet optimaal gebruikt.

Groeiend aantal branches maakt gebruik van tekstanalyse

In verschillende branches wordt er inmiddels steeds vaker gewerkt met tekstanalyse-tools. Denk bijvoorbeeld aan de opsporingsdiensten (die zoeken naar subversieve activiteiten en bewijslast), het bankwezen (dossieranalyse voor risico-inschatting van de leningenportefeuille), marketing (peilen van de stemming over producten en diensten op de social media), callcentra (analyse van de transcripties van telefoongesprekken), juristen (zoeken naar verbanden tussen rechtszaken), et cetera.

Digitalisering biedt mogelijkheden

Nu er ook in de zorgsector steeds meer gedigitaliseerd wordt, is de vraag naar tools die de teksten in bijvoorbeeld een patiëntendossier kunnen 'begrijpen', enorm toegenomen. Voor het analyseren van dit soort ongestructureerde gegevens is een tekstanalyse-tool dan heel bruikbaar.

Automatisch verbanden leggen

Voorheen was het analyseren van teksten alleen mogelijk door naar trefwoorden en woordcombinaties te zoeken. Hierdoor moest er vooraf bepaald worden waarnaar er gezocht zou gaan worden, vaak aan de hand van een thesaurus of taxonomie. Met de toepassing die InterSystems ontwikkeld heeft ( iKnow), is het ook mogelijk om teksten te analyseren zonder een vooraf opgestelde thesaurus. De software gaat zelf op zoek naar concepten en analyseert deze vervolgens. Een enorme vooruitgang.

Van zoeken naar exploreren

Hierin zit het grote verschil met oudere tekstanalyse-toepassingen; in plaats van het automatisch zoeken in teksten naar woorden, worden de teksten met de iKnow-tool geëxploreerd. Dirk van Hyfte, senior adviseur Biomedical Informatics van Intersystems. "Bij zoeken start je vanuit een bepaalde voorkeur, een bepaald onderwerp. Je wilt bijvoorbeeld weten wat er in jouw data over hypertensie te vinden is. Dat is dus een gestuurde operatie. Bij exploratie ligt het initiatief aan de andere kant, bij de analyse-tool, in ons geval iKnow. Onze tool geeft op basis van zelf opgebouwde kennis aan wat belangrijk is in de teksten, welke concepten veel naar voren komen. Een groot verschil met zoeken dus."

Het belang van de context en woordgroepen

De iKnow-tekstanalyse-tool onderzoekt woordgroepen en de context daaromheen. "Neem bijvoorbeeld het automatische highlighten in medische dossiers wat veel gedaan wordt door software-tools. Als je daar goed naar kijkt, zie je direct hoe semantisch fout dat is. De software heeft de opdracht om overal het woord hypertensie te kleuren. Dat zal in 70 procent van de gevallen best goed gaan, maar in de overige 30 procent dus niet. Er staat bijvoorbeeld in de tekst: ‘De patiënt heeft geen last van hypertensie’. Of: ‘De patiënt heeft acute pulmonale hypertensie’. Maar dat is een bepaalde vorm die niet zomaar vergeleken kan worden met een algemene hoge bloeddruk. Daarom zijn die woordgroepen zo belangrijk”, legt Van Hyfte uit.

Verrassende uitkomsten

Dit bottom-up exploreren van teksten heeft veel voordelen. Onderzoekers stuiten bijvoorbeeld hierdoor op aspecten die nooit gevonden hadden kunnen worden met een top-down-architectuur, die start vanuit taxonomieën met medische termen. "Top-down staat voor vooraf gedefinieerde vragen. Daarom kan een datawarehouse alleen antwoord geven op vragen die van tevoren zijn bedacht en ingebouwd. Bottom-up staat voor onbevooroordeeld, en het exploreren overlaten aan de tool." Met bottom-up exploratie ontdekt de IT-manager ook wat er nou eigenlijk allemaal in de dataverzameling zit, dikwijls met verrassende uitkomsten.

Betere data

Tekstanalyse is niet alleen handig voor de categorisering van de gegevens en om te ontdekken wat voor data er nou allemaal aanwezig is binnen een organisatie. Het is ook een heel bruikbare tool voor het verbeteren van de kwaliteit van de te analyseren teksten. Is bijvoorbeeld bij de digitalisering alles uit de ruwe files in de database terechtgekomen? En vindt er bij de gegevensinvoer niet te veel copy-paste plaats? Dit kan dan weer een aanleiding zijn extra aandacht te besteden aan het data-entry-proces.

InterSystems