NLP in Aktion: So finden wir die richtigen Worte im Kampf gegen COVID-19

Ich hoffe, Sie erfreuen sich guter Gesundheit, wenn Sie diesen Artikel lesen. Das neuartige Coronavirus stellt unsere Gesellschaft und Wirtschaft vor ungekannte Herausforderungen. Vielleicht müssen Sie mit kleinen Kindern zu Hause bleiben, die Ihre Noise-Cancelling-Kopfhörer an die Grenze ihrer Leistungsfähigkeit treiben. Oder Sie wohnen allein und bleiben via Skype, WhatsApp und dem guten alten Telefon mit Freunden und Familie in Kontakt.

In diesen schwierigen Zeiten werden wir erfinderisch – wir suchen nach kreativen Wegen, um unsere Kinder bei Laune zu halten, entdecken bisher unbekannte Spazierwege und stürzen uns in neue Hobbys, über die wir uns in Onlineartikeln oder Webinaren informieren. Einige von uns haben dabei einen echten Forscherdrang entwickelt und begeben sich auf die Suche nach Dingen, die wirklichen Wert für sie besitzen – ohne vorab im Detail zu wissen, wonach sie genau suchen oder worum es sich bei diesem „Ding“ handeln könnte.

Für echte Forscher und Wissenschaftler ist das der Alltag: Sie durchforsten vorhandene Wissensbestände und halten nach Erkenntnissen Ausschau, die ihnen als Inspiration für neue Experimente dienen, aus denen sie dann neuen Nutzen ziehen können.

COVID-19 Forschern steht riesiger Datensatz zur Verfügung

Vor einem Monat erfuhr ich, dass das Allen Institute for AI der Öffentlichkeit einen großen Datensatz an wissenschaftlichen Forschungsartikeln zum Thema COVID-19 und Coronaviren kostenfrei zur Verfügung gestellt hatte. Das Institut wollte auf diese Weise Innovationen zur Eindämmung der Pandemie fördern und beschleunigen. Dafür verzichtete es auf Abonnementeinnahmen und Lizenzauflagen, die ansonsten den Zugang zur Wissensdatenbank einschränken.

Der Korpus umfasst insgesamt 44.000 wissenschaftliche Artikel. Das würde sicher auch Ihre Kinder auf Trab halten, bis die Schulen wieder öffnen (man stelle sich vor, wie viel Spaß ein Zweijähriger mit einem solchen Berg an Papier plus einer Schere hätte!). Der ein oder andere würde sicher auch Lust auf einen Spaziergang verspüren, um diesem Berg an Forschungsergebnissen zu entfliehen. Aus einem anderen Blickwinkel betrachtet handelt es sich dabei auch um eine technologische Herausforderung, und genau aus diesem Grund hat das Allen Institute den Korpus der Öffentlichkeit zugänglich gemacht. Denn um den riesigen Datensatz effizient nach relevanten Informationen zu durchforsten, bedarf es einer intelligenten Nutzung von Technologie. Und genau diesem Anspruch fühlten wir uns bei InterSystems auch verpflichtet.

Mit NLP den Datenschatz nutzbar machen

Seit zehn Jahren bereits nutze ich Natural-Language-Processing-Technologie (NLP) von InterSystems zur Bottom-up-Analyse von unstrukturiertem Text. Was NLP von InterSystems einzigartig macht, ist der Fokus auf Muster in der natürlichen Sprache. Entsprechend wird kein Expertenwissen zu einem bestimmten Fachgebiet oder Vokabular benötigt. So kann die Analyse vollkommen neutral und objektiv erfolgen, da keine (vermeintlichen) Vorkenntnisse den Blick trüben. Folgerichtig ist die Technologie besonders gut geeignet, um Datenbestände zu untersuchen, mit deren Inhalten man nicht näher vertraut ist – wie in meinem Fall bei 44.000 Publikationen zum Thema Coronaviren.

Also machte ich mich daran, unser NLP-Tool – das quelloffen verfügbar ist – auf den Korpus des Allen Institute anzuwenden. Das Ergebnis veröffentlichte ich als „Content Navigator“ auf Open Exchange – für jeden kostenfrei zugänglich.

Was zunächst als oberflächliche Plausibilitätsprüfung gedacht war, funktionierte erstaunlich gut. Deshalb entschlossen wir uns, unser Experiment den Teilnehmern des vom Massachusetts Institute of Technology (MIT) ausgerichteten COVID-19 Challenge Hackathon zur Verfügung zu stellen, wo es von mehreren Teams genutzt wurde. Inzwischen sind der Code sowie eine gehostete Version des Content Navigators für jeden verfügbar, der tiefer in diesen enormen Wissensschatz eintauchen will. Außerdem suchen wir aktiv nach Usern, die einen Schritt weitergehen wollen und den Code in eigene Lösungen einbetten – am besten eine solche, die dazu beiträgt, die Pandemie zu stoppen, damit wir alle bald wieder regelmäßiger das Haus verlassen können.

Wenn Sie helfen wollen, freuen wir uns auf Ihre Nachricht! Schreiben Sie eine E-Mail an IRIS@InterSystems.com oder hinterlassen Sie eine Nachricht im GitHub Repository mit Fragen, Ideen und anderem Feedback. Jetzt ist die Zeit für Innovationen, die uns aus der Krise führen.

Benjamin DeBoe

Benjamin DeBoe ist Produktmanager im Bereich Datenplattformen bei InterSystems und in seiner Position verantwortlich für Skalierbarkeit und Analytics. Er stieß im Rahmen der iKnow-Akquisition im Jahr 2010 zu InterSystems und verfügt über umfangreiche Kenntnisse in verschiedenen Datenbanktechnologien. Zuvor arbeitete Benjamin hauptsächlich in den Bereichen Data Warehousing, Natural Language Processing und Analytics.

Kommentar verfassen

*