データのパワーを利用して、水道水の不正使用を特定

2020年 1月 16日

はじめに　－　課題　

この惑星の水供給の12％を担う国ブラジルでは、重大な水管理の課題に直面しています。よく知られた衛生問題に加え、この国のインフラの問題は、不正使用などの供給面での課題を引き起こしています。

水道水の不正使用は、特にその追跡と特定は難しく、長期に渡って解決できないこともしばしば起こります。特に、人口の多い地域で、住民の家や水道メーターのチェックをすることが難しい地域では、それは顕著です。その代わりに、企業が素早く特定して、すでに起きている供給不足やコミュニティでの費用負担に影響のある水道水の不正使用をなくす方法を確立する必要があります。

この課題解決に、ブラジル、マットグロッソのある水道事業者は、最近 ScientificCloudのデータ技術者グループと協業をしました。目的は、家の所在地や不動産の属性に基づきデータパターンを追跡して、不正水使用をより特定することのできるソリューションの開発です。サンパウロにある科学企業が、機械学習(ML)と人工知能(AI)を使ったアプリケーションの開発と配備を行い、ScientificCloud が、初めてこうした問題の理解をしました。

課題の特定

組織的なサイロは、ワークプレイスで新しいソリューションの開発と配備の大きな妨げとなっています。IT 部門は、たった1つの事を見つけるだけだと言われます。それは、彼らが開発するツールは、まったく異なるものを意図している、ということです。マトグロッソのプロジェクト計画を作り上げる時には、私たちが密に協業するITとイノベーションチームから、請求や運営システムといった私たちが開発しているツールが最も影響があるチームまで、すべての事業部と話す必要があることは分かっていました。

こうした議論を経て、データには優先順位が付けられ、組織を横断してそれぞれ分析されていることが分かりました。情報の収集、保存、分析のための統一リソースを確実に開発するには、データの特定と統合が非常に重要でした。

問題に取り組む

データの収集と管理は、特に、毎日膨大な情報を処理することを考えると、水道事業者にとって課題となります。このプロジェクトでは、所有者の記述、住所などの情報は存在しましたが、中央データベースにはありませんでした。抽出するものに最も関連のある情報のデータ分析と特定は、不可能に近い状態でした。

ScientificCloud は、すべての自動化の導入に先立って、基盤構築が必要でした。まずは、 InterSystems IRIS Data Platform™を利用して単一のデータベースの構築をし、これによって、大量のデータを扱い、バッチデータ、APIデータ、ログデータといった複数のソースと統合をすることができます。Google API を使用して、各家の所在地をフィルタしたり特定を行うことができました。これは、水道水の不正使用の分類を可能にする各家のよりよい理解と特徴分析を行うために大きな前進でした。

新しく発見されたデータによって、ML アルゴリズムの開発が可能になりました。これは、Python で構築し、Tensorflow アルゴリズムを実行しました。Google Map から衛星画像を取り出し、不動産の画像とのクロスリファレンスとして使用されます。最終的に、これによって、測量士が200世帯もの潜在的不正使用をなくすことができました。これまで利用可能であったものより非常に合理的なデータセットです。この有限なデータセットで、チームは、角地であったり水泳用プールの所有といった共通不動産属性などの新しい洞察を発見しました。MLモデルは、Python で構築し、Tensorflow アルゴリズムを実行しています。データベースは、膨大な量のデータが扱え、バッチデータ、APIデータ、ログデータといった複数のソースとの統合ができるかどうかで、決定しました。

継続的な反復

ML アプリケーションのように、正確性の確保には、アルゴリズムの継続的なテストと再構築は重要です。特に、データは時間経過とともに進化して行きます。こうしたことによって、最終的には、データサイエンティストチームは、新しい洞察を加えるといった強みが生み出されます。新規雇用なしに、チームは効率性を上げ、新しい洞察を加えて行きました。過去の投資のわずか10%ほどで、同じ KPI シフトを達成することができたのです。

結論

マットグロッソプロジェクトのケースでは、クリーンデータが成功の鍵となりました。これなしには、間違ったデータで何時間も分析に時間を費やし、不正確な意思決定のリスクが増大します。正しいデータが特定できれば、チームは、迅速に ML アルゴリズムを構築して、正確なアウトカムを生成し、最終的には、すべての ML のアプリケーションの主要なゴールであるいくつか、よりよい洞察、時間の短縮、正確な予測を達成できました。

皆さまの組織でデータ駆動型ソリューションを開発される場合、先ずは、1歩戻ってリアルなビジネス課題を特定する必要があります。組織内の異なる部門に、夜まで忙しい理由、または、彼らのところで改善可能なプロセスは何かを尋ねて下さい。そこから、情報分析支援に適正な人選をして、目指すアウトカムに最も有用なデータが何かを特定してください。

著者について

Luciano Kalatalos 氏。ScientifiCloud の創始者でありチーフデータサイエンティスト。ScientifiCloud は、ブラジルサンパウロを拠点とするデータサイエンスのスタートアップ企業で、さまざまな業界で、テクノロジを活用してビジネス課題を解決する支援を行っています。ScientifiCloud 設立以前は、IBM や EMC などの企業で、データおよび分析の業務を行っていました。

Guest Blogger

この著者の他の記事を読む