ヒストグラム、箱ひげ図によるデータ可視化のススメ

はじめに

近年、データ解析が広く行われるようになりました。弊社においては顧客企業によるデータ解析をコンサルティングしたりアドバイスすることがありますが、気になる点があります。それは、統計分析を行う前に、ヒストグラムを描くなどのデータの可視化を十分に行っていない分析が散見される点です。そこで、今回は10月22日に出走が迫っている競馬の菊花賞、同じ牡馬三冠レースの日本ダービーに関するデータを題材にデータの可視化の重要性を示してみたいと思います。

菊花賞と日本ダービーの単勝払い戻し金額の分布

2013年から2022年までの10年間の菊花賞と日本ダービーの単勝払い戻し金額の平均値を算出すると、菊花賞=629円、日本ダービー=1,426円となります。この数字だけを見ると、日本ダービーと比較して単勝の払い戻し金が少ない、つまり荒れることの少ないレースだと思いがちです。

しかし、両レースの10年分の単勝払い戻し金額のヒストグラムを描いてみると、その印象は誤りであることが分かります。下記のヒストグラムを見ると、日本ダービーの単勝払い戻しの平均値が大きいのは、極端に大きな金額が含まれているからであることが分かります。

下記のような箱ひげ図を描くのも良いと思います。いずれにしても、日本ダービーのデータには極端な外れ値が含まれていることが視覚的に確認できました。

ちなみに、この日本ダービーにおける外れ値は、2019年のレースです。12番人気、単勝オッズ93.1倍のロジャーバローズが1着となり、あわや万馬券となったレースです。このような外れ値を含む数値を要約する指標としては、外れ値に引きずられる平均値よりも、中央値を用いることが推奨されます。両レースの中央値を計算すると、菊花賞=550円、日本ダービー=472円となり、菊花賞の単勝馬券は馬券妙味があると言えます。

終わりに

多くの統計手法は、データが山型、極端に大きい、あるいは小さい数値が出現する確率がほぼゼロである正規分布に従うことを想定しています。しかし、実データの分析を行う際には、外れ値が無視できない割合で存在し、データが必ずしも正規分布に従っていないと考えられることも多くあります。そのような場合に、データが正規分布に従うことを想定した統計手法を用いると誤った結論を導いてしまうことになります。そのようなことを避けるためにも、まずはヒストグラム、箱ひげ図等によるデータの可視化を試してみましょう。

Follow me!