世界が大変な状況にありますが、広く皆様が健康でこれをお読みになっていることを願っています。COVID-19パンデミックは、私たちの社会と経済に前例のない方法で挑戦しています。皆様は、ノイズキャンセリングヘッドホンの限界を試す幼い子供たちと一緒に避難しているかもしれません。あるいは一人で、スカイプやWhatsApp、信頼できる古い電話などのツールに頼って、親しい友人と連絡を取り合っているかもしれません。
このような複雑な時は、私たちが革新を進めることができる時です―子供たちを忙しくさせるための新しい方法を見つけたり、近くのよい散歩の場所を見つけたり、記事を読んだり、ウェビナーを見たりして、学べる新しい趣味に出会ったり。私たちの多くは研究者になって、何を探しているのかを前もって正確に知ることなく、自分にとって価値のある「もの」を見つけ出そうとしています。
実際の研究者やその他の知識ある専門家は、ほぼ毎日このような作業を行っており、利用可能な知識を頼りに、掘り下げるべき情報の塊を見つけ、最終的には価値を生み出す新しい実験のためのインスピレーションを見つけています。
約1ヶ月前、私はアレン AI 研究所が COVID-19 とコロナウイルスに関する科学研究論文の大規模なデータセットを無料で利用できるようにしたことを知りました。彼らの目標は、利用可能な知識へのアクセスを制限していたサブスクリプションや他のライセンスの障壁を取り除くことで、パンデミックと戦うためのイノベーションを奨励し、加速させることでした。
ここで44,000の科学論文を読むことができます。これは確かに、学校が再開するまで子供たちを忙しくさせてくれるだろうし(2歳児がこれとハサミを使ってどれだけ楽しんでくれるか想像してみてください!)、多くの人が、このような膨大な研究の山から逃れるために散歩に出かけるかもしれません。しかし、これはまた技術的な課題を示しています。アレン研究所がこれを公開したのは本質的にそのためです。この膨大なデータセットをオンラインで公開することは、テクノロジーの賢い使い方が求められます。それこそが、私たちがやらなければならないと感じたことなのです。
私は10年前から、フリーテキストのボトムアップ分析に注力したインターシステムズの自然言語処理(NLP)技術に携わってきました。これがユニークなのは、自然言語のパターンに注目していることです。つまり、偏りがなく、コロナウイルスに関する44,000件の科学論文のように、そもそも馴染みのないデータを見るのに特に便利なのです。
そこで私は、 オープンソースで利用可能な自然言語処理ツールをアレン研究所の研究書に適用し、「コンテンツナビゲーター」として Open Exchange 上で公開しました(誰でも無料で利用できます)。
簡単な動作チェックで始めたことが非常にうまく機能することが判明し、MIT の COVID-19 チャレンジハッカソンの参加者のためのリソースとしてこの実験をホストすることにしました。ここで、いつくかのチームがこれを使用しました。そして、私たちは現在、この大規模な知識リポジトリを掘り下げたい人にコードとこの コンテンツナビゲーターのホスト版を提供しています。また、これをさらに一歩進めて、このコードをソリューションに組み込みたいユーザーを積極的に探しています。特に、パンデミックを終わらせて、私たち全員を再び家から出すのに役立つものであればなおさらです。
ご支援いただけるようでしたら、私たちにご連絡ください。IRIS@InterSystems.com にメールを送るか、GitHub リポジトリに質問やアイデア、その他のフィードバックを投稿してください。今こそイノベーションを起こし、この危機を乗り切る時です。
ベンジャミン・デボー
インターシステムズ 、データプラットフォームのプロダクトマネージャで、拡張性と分析を担当。iKnow社の合弁により2010年にインターシステムズ 入社。さまざまなデータベース技術、特にデータウェアハウス、自然言語処理、分析一般の分野で活躍。