データ資源と決断
~企業はAIとどう向き合うべきか⑥
目次
【関連コラム】
データドリブンな企業への変容~経営者はAIとどう向き合うべきか①-1
データドリブンな企業への変容~経営者はAIとどう向き合うべきか①-2
AIと予測(AIで何ができるのか?)~経営者はAIとどう向き合うべきか②
AIの発展と方法論~経営者はAIとどう向き合うべきか③
機械学習の発展と、不動産価格の予測~経営者はAIとどう向き合うべきか④
AIを生み出すデータ資源~経営者はAIとどう向き合うべきか⑤
ビッグデータとは
ビックデータとは?ビッグデータが持つ力とは何か。
近年において、「ビッグデータ」という言葉が、しばしば聞かれるようになりました。ビッグデータとは、明確な定義があるわけではありませんが、オックスフォード大学のヴィクトル・マイヤー・ショーンベルガー教授らは『ビッグデータの正体-情報の産業革命が世界のすべてを変える』という書籍の中で、「データの量:Volume」が多く、「多様:Variety」であり、「即時性:Velocity」を備えたデータであると定義しています。これを3つの「V」と言います。
つまり、データの数が多いというだけでなく、そのデータに対応した特徴量も豊富であるという条件が加わっています。特徴量が多いとは、データが持っている情報の数を意味します。AIとの関係でいうと、例えば個人の年収というデータであれば、100人の情報より1,000人、1,000人の情報より1万人、1万人の情報より10万人の情報があったほうが、賢いAIを作ることができます。
ただ、このようなデータの数だけではなく、そのひとつひとつの情報に、年収の決定要因となるであろう、学歴や職歴、業種、企業名、さらには性別や年齢などといった多様な情報があったほうが、AIはより正しく年収という目標を予測することができます。逆に、年収データだけが大量にあっても、学習させる特徴量が少なければ、AIの開発はできません。
過去にも大きなデータベースは企業の中にありましたが、そのようなデータを保管していくためのコストが高く、データ漏洩のリスクから受ける損失を考慮するなかで、データを廃棄する会社も少なくありませんでした。また、大きなデータがあっても、それを処理するためのコンピューターのパワーが足りないという問題もありました。セキュアな環境でデータを保管していくことのコストが次第に低下し、コンピューターの情報処理能力が飛躍的に向上したため、ビッグデータは大きな資源になりました。
現在では、「即時性:Velocity」という条件も満たされました。ビジネスは、時間との勝負です。どんなに多く、そして多様なデータであっても、それが古いデータであれば、現在の意思決定に利用することは困難でしょう。ビジネスには新鮮な情報が要求されます。今と未来を予測して、今のビジネスに使いたいので、5年前の何百万件のデータよりも、今この瞬間の数百件のほうが、圧倒的に価値が高くなります。
このように、3つの「V」を備えた情報を扱えるコンピューターができたことで、多くの情報から予測マシンを作ることができるようになりました。
機械学習の実践
データを集める目的は、そのデータを使って予測することです。その手続きは、古くから経済学や統計学、計量経済学などで学んできたものと全く同じです。
私は大学の機械学習の授業で、学生たちに「何の予測マシンを作るのか」「どのような研究をするか」を最初に選ばせます。それが決まった後に「データの収集(Data collection)」の講義をします。どんなに賢いマシンでも、学習させることができなければ意味がありません。学習するためには教材が必要であり、その教材が「データ」です。そして、データを集めて分析可能な状態に変換するという行為こそ、最も高度な技術であると言っても過言ではありません。
データを集めてきた後には「データの調査と準備(Data exploration and preparation)」を行います。そのままのデータは使うことができません。データを使えるように変換して、AIがきちんと学習できるように準備します。ここが最も大切なポイントで、ほとんどのエネルギーをかけていると言ってよいでしょう。
もう1つ重要なのは、設計されたモデルを「評価(evaluation)」することです。予測力が低い時には、「改善(improvement)」する。このような循環を作ることが重要になってきます。
データの決断
経営者は、データに関して様々な決断をしなければなりません。前回のコラムで触れたように、データは新しい石油(資源)です。データ設計を間違えれば、石油になるはずだったものが「ごみ(Garbage)」に変わってしまいます。無限にデータを取ろうと考えると、凄まじいコストが掛かります。経営者は、データをどれほどの規模と範囲で取得すべきかを、決断しておかなければなりません。
そのためには「何を予測したいか」を慎重に決めておく必要があります。「どんな問題を予測したいのかを具体的に確認できれば、何のデータが必要なのかは自ずと明らかになる」とアジャイ・アグラワル教授は言っています。これが経営者の役割です。
内部データと外部データの位置付けも重要になります。データが内部になければ、外部から買ってこなくてはなりません。一度、外部データを購入し始めれば、安定的な石油パイプラインを持つのと同じように、外部データというパイプラインを持ち続けることになります。
「データの生産プロセス(Data Generation Process)」において、データサイエンティストはデータを真値(理論的に正しい値)として扱ってはいけません。それができていないデータサイエンティストが非常に多く、データが常に正しいものだと理解し、それを学習させてモデルを作っているケースをよく見かけます。そのほうが作業が楽だからか、もしくは理解できていないからでしょう。
ある事業でどのようにデータが作られてきているかを理解するには、その事業の固有分野の技術が必要になります。大学のデータサイエンス学部や情報処理学部を出てデータサイエンティストになってしまうと、それぞれの事業の経験がまったくありません。データの信ぴょう性や精度、それが持っているクセなどを一切理解しないままに、予測マシンを作ってしまいます。これが多くの問題を起こしている最も大きな原因でしょう。
データにはコストが掛かるので、どれだけの正確さが予測マシンに求められているかに応じて、データの必要量は変わります。データサイエンティストは、それを評価する「検出力計算」というツールを持っています。しかし、「モデルの評価と改善(Model evaluation and improvement)」を繰り返す時に検出力を計算する指標を作るのにも、その事業に相応しい指標を設定する必要があります。残念ながら、これに対応できる人材はとても限られているのが現状です。
データに関して、統計学者と経済学者では見解の相違があります。データサイエンス学部では、統計学を中心に教えていることが多いのですが、人々はビジネスで使える予測マシンを求めています。そのためには統計と経済の両方を理解することが重要です。
統計学では、データの規模に関して「収穫逓減」の法則を前提とします。1万番目のデータより、100番目のデータのほうが大切であると考えます。「データが、予測をどのように改善するか」に関心があるからです。一方、経済学では、データの規模に対して収穫逓減は当てはまらないと考えます。「予測から得られる価値が、データによってどのように改善されるのか」に関心があるからです。プロセスの評価よりも、むしろ予測から得られる価値の結果に関心があるのです。
統計学的に、1万番目のデータはモデルの予測力の改善に大きな価値をもたらさないかもしれませんが、そのデータがユニークな要素を持っていれば大きな利益をもたらす可能性があります。企業は事業を進める時にどのようなデータを集めるかで、その後の利益の明暗が分かれます。
実際にA社がシステム開発などの部門で、不動産データを学習して予測モデルを作る事例を考えてみましょう。その時に重要になるのが「データ結合(Data Integration)」という技術です。データは会社の中の部門や支店などに散在しています。それらを集めて結合するにしても、単純にはできません。30万件あったはずのデータを結合したら1万件に減って、せっかくの多様性が失われてしまうこともあります。
様々な業務領域で蓄積されている情報をどのようにインテグレーションしていくのか。紙やPDFといった非構造(データ単体では意味を持つが、データベースで扱うことが難しい)の自然言語データを特徴量として変換していく技術があります。これができて初めて、機械学習にかけることができます。このようなデータ資源を作れなければ、新しい価値を創造することはできません。
内部データと外部データの区別などデータの権利を明確にしたうえで、データ資源をどう作っていくか。それが、企業が予測マシンというテクノロジーの恩恵を受けることができるかどうかの重要なポイントとなります。これは、技術者ではなく、経営者が行うべき判断です。
著者
清水 千弘
一橋大学教授・麗澤大学国際総合研究機構副機構長
1967年岐阜県大垣市生まれ。東京工業大学大学院理工学研究科博士後期課程中退、東京大学大学院新領域創成科学研究科博士(環境学)。麗澤大学教授、日本大学教授、東京大学特任教授を経て現職。また、財団法人日本不動産研究所研究員、株式会社リクルート住宅総合研究所主任研究員、キャノングローバル戦略研究所主席研究員、金融庁金融研究センター特別研究官などの研究機関にも従事。専門は指数理論、ビッグデータ解析、不動産経済学。主な著書に『不動産市場分析』(単著)、『市場分析のための統計学入門』(単著)、『不動産市場の計量経済分析』(共著)、『不動産テック』(編著)、『Property Price Index』(共著)など。 マサチューセッツ工科大学不動産研究センター研究員、総務省統計委員会臨時委員を務める。米国不動産カウンセラー協会メンバー。