消費経済レビュー Vol.9 |
|
IV.データフュージョンの新展開 | |
調査データにおいては部分的なサンプルの情報しか得られないことや、各企業などが持っている顧客のデータベースはあるものの別のサンプルの調査データしか手に入らないことがある。こうした場合に、複数のデータ間で共通する変数を利用し、ある調査によって得た変数などを別のデータベースに対して補完を行うことで、データベースを融合・拡充することをデータフュージョンと呼ぶ。これらは、統計の分野では統計的マッチングとして古くから研究されてきたものである。 データフュージョンは、近年マーケティングの分野において注目されている。例えば視聴率のデータと購買データの融合など、顧客に対して複数の観点からその行動を見ていく必要がある場合に利用される。また、今日多くの企業で顧客データをはじめとした膨大なデータベースが構築されているなかで、それらを他のデータと合わせることでより有効な情報を抽出するというデータの再活用の点でも注目されている。 こうしたデータフュージョンの方法には、大きく分けてふたつある。ひとつはノンパラメトリックな方法で、もうひとつはパラメトリックな方法である。前者はデータフュージョンのもとになった完全マッチングから発展してきたものであり、個々のサンプルの属性間の距離を利用したマッチングにより融合を行う。一方、後者は得られているデータに対して統計的なモデルを当てはめ、それを利用して、融合・補完を行う方法である。これらはそれぞれ、簡便性や予測誤差の観点からメリットやデメリットが存在する。また、データフュージョンの性能の評価については、完全データサンプルをもとに、一部を欠損させ、そこを予測していくことで可能となる。 注意すべき点としては、目的に合わせて何を予測して、データフュージョンを行うのかを考慮することである。それにより、計算の方法や用いるデータが異なってくる。例えば、分散共分散行列の推測や条件付確率の計算などを行うことも必要となる。また、他に考慮すべきことは、共通属性として用いられる変数は多く用意し、これらと予測や代入を行う変数との関係があるものを選ぶことで精度を高めることが出来るということである。 以上をふまえて有効なデータフュージョン方法を選択し、複数のデータベースから統合データベースを予測していくことで、今後、様々な分野での新たな知見が得られることが期待される。 (2008.06)
| |
|