古いバージョンのブラウザーを使用しています。MSN を最適にご利用いただくために、サポートされているバージョンをご使用ください。

分析データの前処理を自動化する2つの新技術、富士通研から

ITmedia エンタープライズ のロゴ ITmedia エンタープライズ 2017/09/19
分析データの前処理を自動化する2つの新技術、富士通研から: さまざまなデータを効率的につなぎ、活用する包括的なデータ処理基盤技術群「Data Bazaar」 © ITmedia エンタープライズ 提供 さまざまなデータを効率的につなぎ、活用する包括的なデータ処理基盤技術群「Data Bazaar」

 富士通研究所は、異なる形式のデータを連携させてデータ分析に活用するために前処理として行うデータの整形、統合処理を自動的に行う技術を開発した。同技術を約8000件のPOS購買データから抽出するマーケティング分析用データセットに適用した結果、従来5日かかっていたデータ準備作業を、約半日で終えられたという。

 従来、データ準備作業は、目的とするデータを得るため、素材となるデータにどんな変換を行い、統合していくかを十分に把握した上で一つひとつつなぎ合わせてデータを作成していく必要があり、高いスキルを持つデータサイエンティストなどが多くの時間をかけて行っていた。

 また、統合作業中に不足しているデータセットの追加や、変換プログラムの改修が必要になることもあり、そのたびに改修方法の模索と検証が必要になる。このようなデータの整形、統合、検証といった作業を繰り返すデータ準備は膨大な作業時間を要し、データ準備から分析までの全工程の8割程度を占めるといわれる。

 データの整形、統合を効率化する取り組みとして、目的とする変換結果の例を基にデータ変換を自動的に行う技術開発も行われているが、既存技術では、表記統一や形式統一、単位変換、不足データセットの結合などのさまざまな処理を試行しながら、目的のデータ統合結果を実現する組み合わせを網羅的に探索する必要がある。

 この整形処理が複雑になると、変換処理や不足データセットが増大するため、探索する組み合わせの数が膨大になり、現実的な時間で処理を終えることが困難になるという。

●探索の効率化と類似データの高速絞り込みを実現

 今回開発した技術では、データ整形と統合の処理を自動的に行うため、この処理の組み合わせの探索を効率化することで、変換処理数の増加や不足データセットの追加で組み合わせの数が増大しても、高速に処理できるようにした。

 この仕組みは、変換処理の履歴から必要な処理を予測する「探索効率化技術」と不足しているデータを効率よく探索する「類似データ高速絞込み技術」の2つで実現する。

 探索効率化技術では、DB上の列(カラム)に対して、表記統一や形式統一、単位変換、不足データ結合などのさまざま変換処理を適用した中間結果をそれぞれ算出し、中間結果と加工後のデータとの類似度を算出。次に、類似度の高い中間結果を基に、さらに変換処理を適用して次の中間結果を算出し、類似度を計算する処理を繰り返しながら、目的の加工後データに近づける。

 今回、中間結果に適用する変換処理について、これまでの変換処理と変換結果の履歴を保持して、加工後のデータに類似するデータを生成する変換処理を予測することで、無駄な変換処理を削減する技術を開発。探索時間が数十分の1に短縮することを確認したという。

●データセットの特徴をメタデータで用意

 類似データ高速絞込み技術では、目的の加工データを得るために不足データセットがある場合、人間は背景知識を基に適切なデータセットを探すが、これを自動化する場合、ライブラリに用意した補助データセットから総当たりで調べる必要があり、処理時間が膨大になる。

 今回、ライブラリとして用意しておく補助データの列ごとに、列に含まれる値の分布の特徴をメタデータとしてあらかじめ算出しておき、中間データから算出した特徴と類似度を算出することで、不足データを高速に絞り込む技術を開発した。

 近年、POSデータとSNSのデータなどを組合せたマーケティング分析や、病院の電子カルテを分析した創薬研究など、さまざまなデータを統合し、新規ビジネスの創出や新製品の開発に活用する手法が注目を集めている。

 富士通研究所では、そうした市場に向け、さまざまデータ処理技術をデータ流通、活用の視点で体系化し、「Data Bazaar(データ バザール)」とう呼称で体系化している。今回のデータ準備の自動化技術は、その構成要素の1つに位置付けており、2018年度の実用化を目指すとしている。

ITmedia エンタープライズの関連記事

image beaconimage beaconimage beacon