Analyser le Big Data non structuré

30 déc. 2014

Des piles de dossiers médicaux aux nouvelles connaissances utiles

Les sources de données peuvent être très diverses : des rangées de nombres structurées aux textes non structurés tels que les notes. Rien que cette dernière catégorie peut s'avérer une source très utile d'information. À condition que les données puissent être analysées rapidement et facilement. Il existe pour ce faire une technologie astucieuse : une forme spéciale d'analyse de texte qui permet de filtrer rapidement et de manière automatique des concepts se trouvant dans de grandes quantités de sources de données non structurées.

Notes

Dans les environnements médicaux, on trouve beaucoup de sources de données structurées utiles, comme l'évolution des résultats de tests à travers le temps et les champs de données codés. Mais l'information la plus précieuse se retrouve souvent dans les notes d'un spécialiste : des données relatives à un entretien avec le patient, des impressions, la pose d'un diagnostic, la demande écrite pour un test, les conclusions tirées de différents résultats de tests, etc.

Bien que ces notes soient de plus en plus souvent numérisées, elles ne sont encore que trop rarement analysées. Et c'est bien dommage. Ces énormes quantités de données non structurées pourraient toutefois être utilisées en ayant recours à des techniques d'analyse de texte.

La puissance de l'analyse de texte

Si l'on veut uniquement savoir le nombre de mots que contient un document, ou combien de fois ce mot apparaît, l'analyse de texte n'est pas vraiment nécessaire. On peut le déterminer à l'aide d'un algorithme mathématique très simple. Mais qu'en est-il si nous voulons répondre à des questions plus complexes, telles que :

Combien de fois certains symptômes et médicaments apparaissent-ils simultanément dans des dossiers médicaux ?
Un texte exprime-t-il un sentiment positif ou négatif et sur quels concepts ce sentiment est-il axé?
Combien de textes traitent chaque mois de la neurochirurgie ?

Pour ce genre de questions, l'on peut avoir recours à l'analyse de texte. Dans ce cas, l'analyse de texte revient à extraire des données structurées d'un texte non structuré. Par exemple, si un texte est analysé dans le but de savoir s'il est positif ou non, le résultat affichera une valeur de données structurées : la valeur « oui » ou « non ».

L'avantage de l’obtention de données structurées à l'aide d'une analyse de texte est que ces nouvelles données créées de manière structurée peuvent être facilement combinées avec d'autres sources de données structurées et peuvent être alors traitées avec des algorithmes connus.

Plus qu'un thésaurus

La plupart des instruments d'analyse de texte requiert toutefois un travail préparatoire : un index, un thésaurus et une ontologie doivent être établis avant que le véritable travail d'analyse ne commence. Ensuite, l'objectif de l'analyse doit être clairement défini.

Les dossiers médicaux peuvent par exemple être analysés afin de collecter de nouvelles informations sur les effets d'un certain médicament sur les patients souffrant de diabète. Mais lorsqu'il faut rechercher des modèles historiques dans les effets secondaires faisant suite à une opération chirurgicale, un autre thésaurus est nécessaire, même si les mêmes patients sont analysés. La mise en place du thésaurus nécessaire pour une telle analyse de texte limite donc la liberté d'analyse et, partant, les résultats possibles.

La vitesse est essentielle

De plus, ce type d'analyse de texte « traditionnelle » demande souvent beaucoup de temps. Du temps dont on ne dispose pas toujours. Imaginez qu'un patient est amené aux urgences. Si les docteurs doivent intervenir rapidement, ils ont rarement le temps de lire le dossier médical dans son intégralité. Ce dont ils ont besoin, c'est d'un résumé de tous les aspects importants relatifs au patient : souffre-t-il de diabète ? Sa pression artérielle est-elle généralement élevée ? Quels médicaments prend-il ? Est-il venu ici auparavant ? La création d'un thésaurus pour l'analyse des documents disponibles prendrait dans ce cas beaucoup trop de temps.

Examiner rapidement de grandes quantités de textes

Il faut donc une technologie qui permette d'analyser rapidement les textes sans avoir à préparer le travail à l'aide d'un index et d'un thésaurus, et d'effectuer une analyse de manière autonome. Il existe pour ce faire une forme spéciale d'analyse de texte : l'exploration de texte.

Identifier des concepts

InterSystems a développé une technologie (iKnow) qui scinde les textes en phrases, puis en concepts et relations. En décomposant une phrase, le système examine d'abord les relations qu'elle contient. Il est ainsi possible d'établir une relation entre les concepts d'une phrase et des verbes. Mais des relations peuvent aussi se faire avec d'autres constructions de phrase.

En identifiant les relations dans une phrase, il y a plus de chances de mettre en lumière les concepts souhaités. Dans la phrase « Le patient a pris des hypotenseurs », iKnow considère le temps passé du verbe « prendre » comme une relation qui sépare les concepts de « patient » et « hypotenseur ». Dans iKnow, on définit cela comme un ordre concept-relation-concept (CRC). De plus, iKnow laisse automatiquement tomber tous les articles superflus dans les phrases, tels que « le » et « un ».

Établir des relations

Il est possible d'établir des relations avec d'autres constructions de phrase également. Dans le passage « Traitements tels que la physiothérapie... », il existe une relation entre « traitements » et « physiothérapie ». Autre exemple : « La douleur dans le bas-ventre ». Ici, le mot « dans » induit une relation entre les concepts « douleur » et « bas-ventre ». La conception d'iKnow lui permet de reconnaître différentes constructions linguistiques afin d'établir des relations.

Contexte et fréquences

Ce processus, par lequel iKnow identifie des entités, décompose des phrases en graphiques où des concepts sont associés entre eux à l'aide de relations. Les graphes, les métadonnées de contexte et les fréquences qu'iKnow collecte de cette manière peuvent être utilisés pour des analyses plus poussées au sein d'un texte et entre différents blocs de texte.

De grands volumes de textes peuvent ainsi être analysés automatiquement, sans thésaurus ni ontologie, selon les concepts les plus importants. En ayant recours à cette forme spéciale d'analyse de texte, il est par exemple possible d'extraire rapidement les éléments les plus importants d'une pile de dossiers médicaux ou de résumer de grands volumes de texte.

Comment utiliser la technologie iKnow ?

La technologie iKnow est intégrée dans InterSystems Caché^®, la base de données pour applications médicales la plus utilisée.

Pour en savoir plus :

La plateforme de gestion de données InterSystems IRIS

David Majster

Pour en savoir plus sur l'auteur