AIを生み出すデータ資源
~経営者はAIとどう向き合うべきか⑤
目次
【関連コラム】
データドリブンな企業への変容~経営者はAIとどう向き合うべきか①-1
データドリブンな企業への変容~経営者はAIとどう向き合うべきか①-2
AIと予測(AIで何ができるのか?)~経営者はAIとどう向き合うべきか②
AIの発展と方法論~経営者はAIとどう向き合うべきか③
機械学習の発展と、不動産価格の予測~経営者はAIとどう向き合うべきか④
企業におけるデータとは?~「ゴミ」からは「ゴミ」しか生まれない
AIビジネスを行っていくうえでデータは不可欠ですが、どのようなデータでもよいわけではありません。データを資源化するためには、どうすればよいでしょうか。ある企業A社のケースから考えてみます。
「わが社は、創業30年になる。その間に貯めてきた膨大な資料があり、1万人以上の顧客データもある。AIを導入すれば、データを使って生産性を向上させることができるはずだ。先日立ち上げたDX事業部長の清水君に指示しよう!」と、A社の社長は考えました。
果たして、それらのデータは本当に資源といえるのでしょうか。
「社長、コンサルタント企業のB社から、わが社にはデータと呼べるものがないと言われました。業務資料は紙で倉庫に保管されていましたが、5年分だけでした。最近業務システムを導入した会社に聞くと、紙の資料からデータを取り出すだけで5,000万円かかったそうですし、顧客データは個人情報なので簡単には利用できません。」清水部長は、社長にそう報告せざるを得ませんでした。
統計学には、Garbage In, Garbage Out(「ゴミ」からは「ゴミ」しか生まれない)という言葉があります。筆者自身も企業から「当社のデータを使って研究しませんか」とよく相談を受けますが、実際にデータを見ると、企業のデータの90%以上は研究に使えない代物で「ゴミ」の状態です。
しかし、「ゴミ」にしか見えないデータにちょっと魔法をかければ、一気に資源化できることもあります。その見極めが非常に重要です。
「データは金鉱である」を実現するには
トロント大学ロットマン経営大学院のアジャイ・アグラワル教授らは、著書『Prediction Machines』の5章で「データは新しい石油である」と述べたうえで、Googleチーフ・エコノミストのハル・バリアン氏がコカ・コーラのロベルト・ゴイゼータ氏に伝えた次の言葉を紹介しています。「10億時間前、現代のホモサピエンスが登場した。10億分前、キリスト教が誕生した。10億秒前、IBMパソコンが発売された。Googleの検索は、朝から10億回行われている。」
今から10億時間前にホモサピエンスが登場し、人間は時間単位で学習し成長してきました。人間として10億時間かけて学習し成長してきた姿が、今の文明・文化を築いてきた現代人です。10億分前にはキリスト教が誕生し、西暦で歴史を刻み始めて2,000年間で、人間は大いなる発展を遂げました。10億秒前にはIBMのパソコンが登場し、私たちの生活も企業の生産性も、大きく変わりました。そして、Googleのサービスを利用して毎日10億回の検索が行われています。凄まじいスピードで学習が行われており、これがGoogleの成長の原動力になっています。
企業のデータの90%以上は研究に使えない代物で「ゴミ」の状態であると前述しましたが、「ゴミ」のデータが資源となり得るかは、見る人によって変わってきます。データは予測の主たる補完材であり、良質なデータが手に入るほど予測の精度は高まります。また、予測のコストが下がるほど、データの価値が高まります。「データは金鉱である」として、Data Mining(データマイニング)という言葉が2000年頃に流行りました。一般的にデータマイニングは失敗したといわれますが、一部の企業では成功し続けていました。そこから現在のAIブームに突入しているのです。
ある金融機関は、住宅ローンの発行残高では銀行グループで最下位でしたが、データマイニングを活用したことで3年後に獲得件数のトップに躍り出ました。紙の広告企業だった企業もデータを活用することで、IT企業に進化しました。eコマースで著しく成長した企業もあります。データを資源化してきた企業は大きく成長したのです。
AIにおけるデータの3つの役割と予測
AIにおけるデータには「入力データ」「トレーニング(訓練)データ」「フィードバックデータ」の3つの役割があります。「入力データ」は、アルゴリズムの構築に利用され、予測を行うものです。それをマシンに学習させて、賢い予測マシンをつくっていきます。そして、マシンが学習したあと、実践で役立つように訓練するのが「トレーニングデータ」で、その訓練のフィードバックを受けて経験を積み重ねてアルゴリズムの性能を改善していくのが「フィードバックデータ」です。
「入力データ」は、どのように予測マシンに学習させるのでしょうか。統計学では「独立変数」と呼ばれる入力データと、予測したい対象データである「従属変数」をマッチングさせます。例えば、住宅価格を予測するときは、「住宅の大きさ」や「駅からの距離」といった立地要件などの様々な入力データが「独立変数」です。それと紐付いた価格情報である従属変数があれば、価格を予測するマシンをつくることができます。
しかし、ビックデータとして蓄積されるデータは、予測対象である価格と必ずしも時間の粒度が一致しない場合があります。実際に取引された1年前の周辺の生活環境が分かる一方で、今この瞬間のことは分からないという現象がしばしば起こります。結局のところ、予測を行うためには、その時点で手に入るデータを頼りにするしかありません。
このように、多くのデータを扱うにあたって重要なのは、データはタダではないことです。データを取得するのにも、データをつくり込んで資源化するのにも、コストがかかります。「データの充実によってもたらされる恩恵」と「取得や資源化にともなうコスト」のトレードオフを考慮しなければなりません。
データドリブンな企業になるための条件
以前、あるベンチャー企業の経営者と、SNSのフェイスブック上で言い争いになったことがあります。彼はデータがタダであると思い込んでいました。スクレイピング(ウェブサイトからデータを抽出する技術)でデータを集めたことを誇らしげに自慢していました。しかし、彼の行為により、ウェブサイトを運営する企業のサーバーが落ちて大きな損失が発生しました。そのような行為は、経営者として許されるのでしょうか。
実際にスクレイピングで集めたデータは、あるところには使えても、「ゴミ」に近いものもあります。前述の住宅価格の例でいうと、過去5年間にスクレイピングで集めたデータが500万件あったとしても、データの信ぴょう性は誰も保証できません。しかも、直近1週間のデータは0件かもしれません。500万件のなかで意味ある良質なデータがどれぐらいあるのか。そこのデューデリジェンスが重要になります。それが理解されないまま、データがマーケティングに使われるのは、憂うべきことです。「悪貨が良貨を駆逐する」という悪いデータが良いデータを追い払う状況を引き起こし、社会全体の科学技術の進歩にブレーキがかかることが危惧されます。
データが多種多様となり、質と量が大きく改善したことで、AIビジネスが大きく成長しました。画像やテキストがデータ化され、センサーを使うことで以前は取ることができなかったデータも取れるようになりました。データの空間粒度も、都市の単位から100mメッシュ、さらには建物の単位と細分化できるようになりました。時間粒度も、1年前のデータしか使えなかったのが1カ月前、今では数秒前となり、リアルタイムデータを使えるようになっています。
「データの質と量にともなうコスト」と「企業の利益」はトレードオフになります。データはタダではなく、利用の倫理も求められます。現在ではスクレイピングに許可が必要となり、どの国でも多くの規制が設けられるようになりました。サービスを安定的に提供するためには、スクレイピング対策を含むデータの保存方法や個人情報保護への対応など、体制を整える必要があります。質と量をともなうデータを正しく使うこと、それがデータドリブンな企業になるための条件です。
著者
清水 千弘
一橋大学教授・麗澤大学国際総合研究機構副機構長
1967年岐阜県大垣市生まれ。東京工業大学大学院理工学研究科博士後期課程中退、東京大学大学院新領域創成科学研究科博士(環境学)。麗澤大学教授、日本大学教授、東京大学特任教授を経て現職。また、財団法人日本不動産研究所研究員、株式会社リクルート住宅総合研究所主任研究員、キャノングローバル戦略研究所主席研究員、金融庁金融研究センター特別研究官などの研究機関にも従事。専門は指数理論、ビッグデータ解析、不動産経済学。主な著書に『不動産市場分析』(単著)、『市場分析のための統計学入門』(単著)、『不動産市場の計量経済分析』(共著)、『不動産テック』(編著)、『Property Price Index』(共著)など。 マサチューセッツ工科大学不動産研究センター研究員、総務省統計委員会臨時委員を務める。米国不動産カウンセラー協会メンバー。