ビッグデータと企業経営
14-1. ビッグデータとデータサイエンス:進化、定義、および現代社会への応用
目次
最近では「ビッグデータ」や「データサイエンス」という言葉がしばしば聞かれるようになってきました。すでに企業の中ではいろいろなデータを使ってデータドリブンな経営に切り替え、DXを加速していこうという動きが出てきています。
データとは一体、何であるのでしょうか。「ビッグデータ」や「データサイエンス」がどのようなものであるのかについて、はじめに理解する必要があります。
人間は経験と学習を繰り返すことで進化した
コカ・コーラの経営者であったロベルト・ゴイズエタ氏に対して、Googleのチーフエコノミストであるハル・ヴァリアン氏が言った言葉があります。
「10億時間前、現代のホモサピエンスが登場した。10億分前、キリスト教が誕生した。10億秒前、IBMパソコンが発売された。Googleの検索は、朝から10億回行われている」
ハル・ヴァリアン氏は米カリフォルニア大学(UC)バークレー校で、ミクロ経済学を教えていた著名な経済学者です。彼は2003年にGoogleへ顧問として入りました。2005年からはチーフエコノミストとして働いていました。
10億時間前にホモサピエンスが登場してから、1時間で私たちが学習できることを10億回繰り返して、現在の近代的な文明を作り上げてきました。1時間で社会を改善できるテクノロジーを生み出すことは大変ですが、それを10億回繰り返すことで現代のような文明社会になったのです。
次に10億分前。1分間で何ができるかを考えてみると、1分間で記憶できること、学習できることを10億回繰り返すと、キリスト教が誕生した西暦元年から、2000年以上が過ぎてきた現在までのような進化を遂げました。
では10億秒前。1秒という瞬間で私たちが学習できることは極めて少ないのですが、それを10億回繰り返すと、パソコンが生まれてから現代までの進化を創造できました。IBMパソコンが登場したのは1981年ですから、多くの人たちが10億秒前からの進化を体感していると思います。
そして、Googleは今日の朝からだけで10億回の検索が行われています。1回の検索が、1秒、1分、1時間で学習するのと同じ効果があると考えるならば、Googleは朝から10億回の検索によって学習していることになります。
私たちは、経験と学習によって進化を遂げてきました。この経験と学習が何に基づいて行われてきたかというと「データ」です。そのデータとは一体どんな力を持っているのでしょうか。
私自身はデータサイエンティストとして研究を行ってきましたが、その立場からすると、データは見えなかった社会を描写する力を持っているということができます。その力の1つに「予測」があります。
しかし、データは「タダ」ではありません。どこにでも転がっているものでもありません。データは、新しい資源を発掘して付加価値を付けていく。そして、社会がどのように成長していくのかを設計したうえで、私たちはデータを探索し、付加価値を作り上げていくことが必要です。
石油や石炭は、天然資源として地球に生まれてきましたが、これは皆のものか、タダかというと、そうではないことを私たちは知っています。これらの天然資源もデータも資源ですから、「タダ」ではありません。多くの実務家の方が論争を重ねてきましたが、今でもデータを「タダ」と思っている方がいました。現在ではそのような経営者はいないと思いますが、データは石油に代わる新しい資源であると、私たちは見ていく必要があります。
ビッグデータに必要な要素とは何か
データにビッグという言葉が付いた「ビッグデータ」をどう考えるとよいでしょうか。このビッグデータの定義を巡って、さまざまな議論が繰り返されてきました。
例えば、初期の頃は3つの「V」ということが言われました。3つのVとは2001年の米国コンサルティング会社METAグループ※のラニー氏の定義ですが、ビッグには、データの量(Volume)が多いという意味があります。
注)※フェイスブック(現Meta)は2004年創業なので、Metaとは関係ない企業。
そこに対して「ビジネスでデータを使っていきたい」「社会を改善するために使っていきたい」と考えたときに、1年前2年前10年前のデータは、それも貴重なデータではありますが、「今の判断」に対して正しい判断をもたらすことは難しいでしょう。そうすると、Velocity(即時性)が重要になります。
さらには、多様なデータを意味する多様性(Variety)が、ビッグデータの要素であるといわれてきました。
近年では、この3つのVに、信頼性・正確性(Veracity)が加わりました。
それでは、データを使って資源を作り上げて、どのように経営や社会を改善していけばよいのでしょうか。
ビッグデータとは「予測」を行う新しい技術と考えてよいでしょう。予測を正しく行うことができれば、私たちはさまざまな意味で経営戦略を立てやすくなりますし、経営の改善もできるようになります。
「Garbage in, Garbage out」という有名な言葉があります。「ゴミからはゴミしか生まれない」という意味です。良質なデータが手に入るほど、予測の精度が高まりますが、逆にいえば、データがどんなに量が多くても、即時的に集まっても、多様なデータであったとしても、質がともなわなければ正しい予測や分析を行うことはできないということを表しています。
そうすると、私たちはいかに良質なデータを集めるか、良質なデータを発掘して生産することができるかが競争力の源泉になってきます。
サイエンスの力で「未知」を予測して「既知」に
私がファイナンスの授業などでも扱っている米国の国防長官だったラムズフェルド氏の次の言葉があります。
There are known knowns. These are things we know that we know. There are known unknowns. That is to say, there are things that we know we don't know. But there are also unknown unknowns. There are things we don't know we don't know.
「既知の既知」があります。 これらは私たちが知っていることです。 「既知の未知」もある。 つまり、私たちが知らないことを知っているということです。 しかし、「未知の未知」もあります。 私たちが知らないということも知っていないことです。
ここで「known knowns(既知の既知)」とは、人間であればある程度予測ができる、誰でも知っていることです。しかし、これを可視化することによって、効率化を図れることがあります。
重要なのは「known unknowns(既知の未知)」という2つめです。unknownsという未知のものを私たちは解明したい。これが分かれば、営業戦略を立てやすいとか、顧客を攻略しやすくなります。新しい商品を作ることができる、社会のニーズにマッチするサービスを提供することもできます。そのようなunknownsを解明しながらビジネスを展開してきます。これをknownに変えてあげるのが、サイエンスの力です。
しかし、私たちには「unknown unknowns(未知の未知)」という「分からないもの」もまだ残っています。例えばデータがあったとしても質のいいデータが集めることができない、量が不足する、多様性が欠如する、時間にラグがある。このような場合には、分析を行うことができません。
実はAIもデータサイエンスにも、限界があるのです。
スピーカー
清水 千弘
一橋大学教授・麗澤大学国際総合研究機構副機構長
1967年岐阜県大垣市生まれ。東京工業大学大学院理工学研究科博士後期課程中退、東京大学大学院新領域創成科学研究科博士(環境学)。麗澤大学教授、日本大学教授、東京大学特任教授を経て現職。また、財団法人日本不動産研究所研究員、株式会社リクルート住宅総合研究所主任研究員、キャノングローバル戦略研究所主席研究員、金融庁金融研究センター特別研究官などの研究機関にも従事。専門は指数理論、ビッグデータ解析、不動産経済学。主な著書に『不動産市場分析』(単著)、『市場分析のための統計学入門』(単著)、『不動産市場の計量経済分析』(共著)、『不動産テック』(編著)、『Property Price Index』(共著)など。 マサチューセッツ工科大学不動産研究センター研究員、総務省統計委員会臨時委員を務める。米国不動産カウンセラー協会メンバー。
【コラム制作協力】有限会社エフプランニング 取締役 千葉利宏