2部構成の第1部
Philip Howard, Bloor Research International Ltd.
ビジネスユーザーはすべてを求めています。 彼らは、社内外からあらゆる種類のデータを取り込み、それらをブレンドして分析し、その結果を意思決定のためだけでなく、業務プロセスにも役立てたいと考えています。 いつでも、どこでも、どんなデータでも。 これが、現在のデータベースの進化を支える最初のドライバーです。
しかし、それだけではありません。 企業は、少なくとも企業データの一部をクラウドに置くことで、コストと敏捷性を大幅に節約できることに気づいています。 通常これは、一部のデータをオンプレミスで保持し、他のデータをクラウドに保存するハイブリッド展開モデルを意味します。 そしてそれは、データ処理が分散モデルをサポートしなければならないことを意味します。 これが2つ目のドライバーです。
3つ目のドライバーは規模です。 IDCの推計によれば、2020年までにデジタルユニバース(私たちが毎年作成しコピーするデータ)は44ゼタバイト(44兆ギガバイト)に達します。 もちろん、スケーラビリティはデータベース技術にとって常に問題でしたが、歴史的には、サポートを必要とするデータの増加は漸進的なものでした。今日、データの増加は指数関数的なものではないにせよ、幾何級数的なものであることは確かです。 また、非常に迅速かつ弾力的な方法でスケーリングできる必要があります。より多くの容量が必要な時もあれば、そうでない時もあります。
これら3つの要因がデータベーステクノロジーの発展を後押ししており、データベースプロバイダーは、私たちが「データ・プラットフォーム」と呼んでいるものへと進化する必要に迫られています。このブログでは、データ・プラットフォームがどのようなものか、それを機能させるために何が必要か、そしてなぜデータ・プラットフォームが必要なのかを説明します。
データプラットフォームとは?
組織は、以下のような単一の統一されたデータ・プラットフォームを必要としています。
1. ソースに関係なく、あらゆる種類のデータに対応 。取引データ、参照データ、ソーシャルメディアデータ、時系列データ、文書や電子メール、リレーショナルデータ、センサーや(スマート)メーターから得られる情報、クリックストリームデータ、ログファイル、ビデオ、写真、オーディオ、X線、ドップラーレーダーなど、あらゆるものが含まれます。
2. 分散環境、クラウド環境、ハイブリッド環境に対応。 これは、クラウド展開の経済的な理由もありますが、地域によって個人を特定できる情報のセキュリティに関するルールが異なるというプライバシーやコンプライアンス上の理由もあります。 ハイブリッド・クラウドの導入が主流になる可能性が高いため、分散環境をサポートする必要があります。
3. 数千ノードまで拡張可能で、エクサバイト級のデータも迅速かつ容易に処理できる 場合によっては、顧客は極めて迅速にスケーリングする必要がある場合があります。
4 どのような形式であれ、サポートされるすべてのデータを処理し、そのデータを適切な方法で分析するのに十分な性能とアーキテクチャを持ちます。 ある程度までは、少なくとも一定レベルの規模であれば、与えられた通りパフォーマンスを得ることができますが、重要な問題は、規模が拡大してもそのパフォーマンスを維持できる能力です。
5. データを使って「何かをする」能力をサポートする:通常、意思決定(自動化されたものであれ、そうでないものであれ)を可能にしたり、計算や分析の結果をビジネスプロセスに組み込んだりします。
6. 使いやすさ、管理・監視機能、信頼性、セキュリティ、継続的な可用性など、ミッションクリティカルな環境に期待されるその他の機能を提供します。
マルチモデルデータプラットフォームへの流れ
ガートナーは、2014年の運用データベース管理システムのマジック・クアドラントの中で、以下の様に述べていました。「2017年までに、"NoSQL "というラベルはDBMSを区別するものではなくなり、DBMSの価値は低下し、使われなくなるだろう。 2017年までに、すべての主要な業務用DBMSは、単一のプラットフォームで、リレーショナルとNoSQLの複数のデータモデルを提供するようになるだろう」
競合他社が私たちに同意しているのを見るのは喜ばしいことです。 2012年、ラスベガスで開催されたIBMのインフォメーションオンデマンドカンファレンスで、この筆者はこの10年後までには、データウェアハウスと運用の両方を含むすべてのデータベース環境において、このマルチモデル・アプローチが真実になると公に予測しました。 IDCとフォレスター・リサーチの両代表はこの見方を支持しています。 しかし、この合理化はまず業務スペースで行われることに同意します。 データウェアハウジングは、その後に組み込まれます。
しかし、一般的な市場がどのようにしてこのようなポジションに至ったかを議論する価値はあります。 考えられるアプローチは2つあります。 一つは、本質的にマルチモデルであるデータベース技術を使用することであり、もう一つは、同じフードの下に複数のストレージエンジンを構築することです(例えば、DB2にはXML用に独立したストレージエンジンがある)。 ほとんどの商用データベースベンダーにとっての課題は、基本的に柔軟性に欠ける物理データモデルを基礎としていることであり、唯一の現実的な選択肢は、グラフ、JSON、キー・バリュー・フィールド、ドキュメント、その他何でもサポートするフォーマットで、他のタイプのデータをサポートする代替ストレージモデルを構築することです。
理論的には実行可能ではあるが、このようなアプローチはまだ発展途上であり、マルチモデル・ベンダーが提供するものよりもはるかに複雑な環境をもたらすしょう。
一方で、マルチモデルを基礎とするサプライヤーも存在します。 これは、完全なデータプラットフォームを提供するために、必ずしもすべてが整っているということを意味するものではありませんが、例えば、基礎となるモデルがリレーショナル環境やXML、JSONを変更することなくサポートすることができるため、より良い状態からスタートすることが可能です。 これらのベンダーのいずれかが、Hadoopのような分散ファイルシステムのオプションを追加することは想像に難くありませんが、これは進化の道筋のさらに先になりそうです。 前にも述べたように、データプラットフォームの利用に向かっているのは運用環境においてであり、一部の企業は、たとえあらゆる種類のデータ(例えば、ドップラーレーダー)をまだサポートしていないとしても、すでに私たちと共にあると正当に主張することができます。
もちろん、スケーラビリティやパフォーマンスなどとは別に、さらなる要件が存在します。 これは、異種ソースやタイプの異種データを処理・分析する能力です。 このようなデータを保存し管理できることは非常に良いことですが、このような種類のデータ全体にクエリを実行する適切なツールがなければ、保存してもあまり意味がありません。
運用環境では、現在のビジネスプロセスに情報を提供し、リアルタイムの(または適切な)意思決定を可能にするために、トランザクションまたは運用データを取得し、そのデータに対して分析を実行する機能が必要です。 さらに、分析目的のために、さまざまな種類の履歴データと運用データを組み合わせることができるようにしたい場合もあると思います。 適時性に関しては、これは、ビジネスが日常業務を遂行するのに適切な時間スケールで、データを取得し、処理し、結果を返すことができることを意味します。 これはHTAP(ハイブリッド・トランザクション/アナリティカル・プロセッシング)と呼ばれることもありますが、リレーショナルデータだけでなく、あらゆる形式のデータに適用されるため、この文脈における「アナリティクス」は、構造化データの分析と同様にテキストにも適用さます。
ブロガーについて

フィリップ・ハワードは、1989年に設立されたロンドンを拠点とする独立系IT調査・分析・コンサルタント会社、Bloor Research International Ltd.のリサーチ・ディレクター。