2019.10.02

取得困難な「見えない一次データ」の重要性と非エンジニアにおけるSQL言語の価値

エピソードを聴く

目次へ

世の中の興味深いマーケティング事例や大きな数字、意外な事実など、経営者 榊原直也 のアンテナに留まったビジネス話題をご紹介する『ばらさんのBusiness Talk | バラトーク』。

今回は、データを読み解く上で潜む罠や誤解、またデータ処理で大切なこととは何かについて、ディスカッションで解き明かしていきます。

 

◇ 出演者 榊原直也 / 曽志崎寛人

◇ ゲスト 廣部祐樹さん / 西潤史郎さん 

提供 : データ・サイエンティスト株式会社 
https://kwtool.co/company.html

  • 全世帯の平均貯蓄額は1,800万円?統計数値の危険な多面性
  • 取得データだけで判断する「選択バイアスの罠」の危険
  • 実は見逃されている!?アクセス解析で重視すべき一次データ
  • 本質的な問題に対処できるかは経営側に責任がある
  • SQLはデータ取得と分析を可能にする簡単な言語
  • 非エンジニアが自ら一次データを獲得できるSQLというツール

 

全世帯の平均貯蓄額は1,800万円?統計数値の危険な多面性

廣部:全世帯の中での貯蓄額はいくらか?というテーマで議論したとします。ある統計では平均値が約1,800万円となっています。この数字を見ると直感的に「そんなに貯蓄してる?」という感じがするじゃないですか。

ですが実は、集団の中の比率を表す値としては、一般によく使われている「平均値」というもの以外に「中央値」という言葉があるんですね。中央値は、上位から50%のところ、つまり真ん中の人がいくら貯蓄しているのか、という値です。それだと約1,000万円なんです。

さらに「最頻値」という言葉もあります。例えば0円~200万円、また200万円~400万円という範囲ごとにそれぞれ貯蓄している人が何人いるのかを集計します。それで一番人数が多い範囲の額がいくらなのか、というのが最頻値です。それで調べると、実は200万以下の人が一番多いんですよ。

榊原:その方が現実感に合いますよね。つまり、統計による値でも、それが母集団の平均値なのか中央値なのか最頻値なのかという点に、データを聞く側も気をつけなきゃいけないということですね。

廣部:そうですね。今のはちょっと極端な例かもしれないですけど。一次データじゃなくて一度加工されているようなデータ、かなりバイアスがかかったデータで判断してしまうと、危険なことが起こり得るんじゃないのかなと思う。一次データで見るのは、非常に大事だと思います。

 

取得データだけで判断する「選択バイアスの罠」の危険

榊原:セールスの現場では、対象とする一次データそのものが小さすぎたという問題が多いように思います。具体的には例えばコールセンターです。コールセンターでは、架電や入電のデータがシステムによって捕捉されています。

ある商品の広告を打った場合、受付開始の例えば朝9時から電話が鳴り始めて受付されます。でも、実際にはオペレーターが着席する前の時間、7時や8時から気持ちが急いて電話をかけ始めている人達はいるわけです。

また、あまりにも商品が魅力的過ぎると一時的に電話が集まってしまい、用意している回線の数では間に合わないことがある。この場合も背後で落ち率が生じています。本来は、ここもRAWデータとして押さえておくべきですよね。

廣部:そうですね。エイブラハム・ウォールドという数学者にまつわる「選択バイアスの罠」という話があるんです。

彼は戦時中に帰還した戦闘機の被弾したデータを統計的に集めた。その結果、被弾した部分には明らかに偏りがあった。羽の一部がかなり被弾している一方で他のある部分は全く被弾してない、というデータが取れたんです。

このデータを基にどこの装甲を強化すべきか、と議論した時、どこを強化した方がいいと思いますか?

曽志崎:帰ってきている飛行機はどこが傷ついているかが分かるんですよね。帰ってきていない飛行機はそれ以外のところが致命傷だった、ということじゃないですか?

廣部:その通りです。戻ってきたデータ、手に入っているデータというのは、本質を表す一部のデータでしかない。だから実際に、被弾していない部分を強化したんですよ。そこを被弾してしまったら、もう帰還できなくなってしまう、ということです。

榊:データが取れてないところに本来は重要なヒントがあるのに、取れた範囲内のデータだけの判断では危険だという面もありますよね。

廣部:そうですよね。

榊原:ですから、一次データを扱うことの重要性もさることながら、一次データとして入手できなかったところをどう考えるかっていうのも、同時に気にかけなければならないポイントかもしれませんね。

 

実は見逃されている!?アクセス解析で重視すべき一次データ

榊原:Web系のビッグデータでも、そういうことはよくあります。

ほとんどの企業がWebサイトを持ち、アクセス解析を行っています。ところが、アクセス解析ではアクセスしてくれた人たちだけを研究するから、ある意味危険なんです。逆に重要なのは、アクセスしなかった人たちが何故自分たちのサイトを無視したのか、という点です。

世の中にこれだけ多くの検索者がいるのに、たった5%しか流入してきていない。アクセス解析ではその5%の人たちだけを対象としていることになります。では、残りの95%の人たちはなぜ自分たちのサイトを無視したのか?

先ほどの飛行機の例えで言うと、帰還しなかった飛行機に何が起きているのか、ということです。そこが、本当は一番重要な研究ポイントかもしれませんよね。

西:アクセス解析は、来てくれたお客さんに対して、どういう対応をしたらよいかということですね。

榊原:そうなんですよ。お客さんが来ないことの方が問題なのに。

船で例えると、海に出ている時に偶然甲板に飛び込んできたわずかな魚だけを一生懸命研究することになる。マグロ漁船にトビウオとかイカタコが入ってきたとすると、トビウオとかイカタコを分析し始めるわけです。それで経営レポートが上がってきたりする。

いやいや、自分たちはマグロ漁船だよね、と。本来はマグロのデータを分析すべきなのに、ということになります。

西:実際ビジネス的には、その集客の部分、どうやってここにやってきたか?ということが大事です。

榊原:特にセールス系のデータに関しては、一次データに見えるものが危険だというのがありますね。

 

本質的な問題に対処できるかは経営側に責任がある

西:まさにそのデータ取得のところも課題ですが、やっぱりその現場にいる人しかわからないことがあるというのも大事です。実際の現場で現物を見るという考え方を持ってないとダメかなっていうのがあります。

最近だとデザイン思考という考え方があります。デザイン思考では、まさに現場で対象そのものを観察して、そこから得られるものを重視するようなところがありますよね。その観点がより重要になってくるように思います。

榊原:そう考えると、一次データとはどの範囲か?というのを会社が一生懸命考える、担当者がみんなで考えるというのは大事です。

墜落した飛行機に何が起きているのかというのを知るためには、実際に落ちたところにまで行かなければならない。墜落した飛行機を発見して、墜落した飛行機に何が起きたのかを検証しなきゃいけない。

でも、現実的にそれを「実行しろ」と言うのは、経営側の責任です。「帰ってきた飛行機だけを分析するな」「落ちた飛行機に何が起きているのかを見に行け」と。

落ちた飛行機を探して見に行くのは、人も必要だしコストも10倍100倍とかかる。にもかかわらず、「それこそが本質的問題の発見だ」と言えるかどうかは、マネジメントサイドの責任です。

 

SQLはデータ取得と分析を可能にする簡単な言語

榊原:今回の西さんの著作では、データを集める、整理するということについて、どのあたりに力点を置いて書かれたんですか?

西:まずデータ分析界隈では、結構いろいろな話題がありすぎて難しいんです。

榊原:難しいイメージがありますよ。

西:それをちょっと整理したいというのがありました。冒頭と最後のところでデータ分析とかデータサイエンスの話とかを書いたんです。例えば、AIがどういう位置づけになるのかといったところを整理しました。

今回の本に関しては、SQLでデータ分析するということが主テーマです。そもそもSQLでは、平方根の計算や高度な数式が処理できません。基本的には集計をすることを目的に使います。データベースに対してデータを取りに行く言語なので、基本的には単純なことをします。

最近注目されているビッグデータという形、大量に保存されたデータに対して集計にかかりたい時、まずデータ取得する技術としてSQL言語があります。そして、それを使って分析もできます。

AIだと、アルゴリズムにいろんなデータが出てきたり、またはパラメータチューニングしたりいろいろなことが可能です。そこはもうAIの話になってくる。最近話題になっているAIや機械学習で行う統計の高度なことは、実はSQLではできません。

一方、SQLでやりたいのはこういうことです。生のデータに対して、例えば複数のデータを組み合わせて全体の集計を出したい。あるいは、ある任意のグループごとに分けたい。そういった時にSQLを使えば簡単にできます。

ログデータのような記録されている大量のデータに対しても、SQLがあればいくらでも自分でデータ処理できる。それがとても大事な点です。

 

非エンジニアが自ら一次データを獲得できるSQLというツール

榊原:一般企業ではそうしたアプローチはある程度行われていると思います。西さんが「もっとこうした方がいい」というポイントは、どういうところですか?

西:まず課題としてあるのは、データ分析したい担当者がエンジニアに頼むしかないという状況です。基本的にデータが必要な時、担当者は情報システム部などにいるエンジニアに依頼します。エンジニアがSQLを叩いて得たデータを基に、エクセルや分析ツールを使います。

ですが、エンジニアの方はデータ分析の方が本当に何をしたいかが分かっていない場合もある。実は取れてないデータや他に使いたいデータが基幹システムの中に存在する、ということもあります。

データを持ってきたけどそれとは違う、ということが何度も繰り返される。分析の前の段階で時間がかかってしまい、結果的に肝心のデータ分析がなかなか進まない。

今回の本の主旨は、データ分析の担当者が自分でどんどんデータを持ってきて分析ができる状況を作りましょう、ということです。SQLはちょっとした簡単な言語ですから、文法を覚えて環境さえ作れば、データベースの中のデータをいくらでも自分で集められます。

先進的な企業では勉強会などでやっているんですけど、まだまだなところがあるので…。

榊原:西さんの推奨としては、データを依頼する側もSQLの基礎を勉強しておくと、簡単だし自分達でやれてしまうことも結構ある、ということですね。しかも、依頼の仕方ももっとうまくなる。

西:生のデータ、一次データを直接自分で取れるかどうか、ということが重要だと思っています。自分の目で確認したデータなのか、ほかの人が関わっているデータなのか、二人ぐらい経由してきたデータなのか。これによってデータの内容の価値がまったく変わってくると思うんです。

人によって思考バイアスといった偏った考え方というのが絶対にあり、思想に合わせて作ってしまうというところがある。人を通した場合は、それをわかった上で判断しなければいけません。

データ分析担当者が自分でデータを取る意味は、まさにそこにあると思います。

ばらさんのビジネストーク!

ばらさんのビジネストーク!

すぐ役立ちそうなビジネス話題が満載!構想時、企画時、朝礼時、会議時、交渉時、議論時、研修時、講演時、接待時、プレゼン時などのネタ増強にご活用ください。

 

KWTOOL - サイエンスSEOツール

https://kwtool.co/

YouTubeチェンネル  「デジカイギ!」

https://www.youtube.com/channel/UCUOQcQGK_JWy47pbpwil1kQ

この番組のパーソナリティ

榊原直也

榊原直也

データ・サイエンティスト株式会社 代表取締役社長

Webメディアと検索順位との関係を数学的に解き明かす技術で複数の特許を持つ。その技術を駆使したサイト診断サービスは、その効果が口コミで広がり、いまや著名企業が何ヶ月も待つほどの人気サービスに。プライベートでは、難しい分野でもわかりやすく楽しい雑談ネタにしてしまう「バラトーク」が、学生、主婦、ビジネスマン、経営者など幅広い層に大人気。モットーは「楽しく!わかりやすく!」。

New Episodes

すべてのエピソードを見る

Pickup Episodes

Other Channels

propo.fmロゴ

PROPO.FM は、人々の心に残るポッドキャストを世の中に届けるサービスです。ビジネスからアートまで、声の力を探求し、驚き・感動・優しさを紡ぎ、時間と空間を越えて、社会に新しいつながりを広げます。