ピープルアナリティクスのすゝめ⑤
前回からは架空のデータにもとづいて具体的な分析プロセスの説明に入りました。
前回の「ピープルアナリティクスのすゝめ④」はこちら。
今後さらに詳しい分析の説明に入る前に、今回は、分析で用いる分析ツールについて説明します。以降では現実的に用いることが可能と思われる、Excel、R/Python、SPSS/STATA/SAS、の3つのグループに分けて解説します。
Excel
Microsoftの表計算ソフトです。業務で利用しているビジネスパーソンも多いソフトウェアです。特にWindowsパソコンを購入した際に、初期設定でインストールされていることが多いため、初期投資は不要な場合が大半だと考えられます。
ビジネスパーソンであれば、普段の業務で使用することも多いため、とっつきやすいと言えます。
統計分析については、関数として用意されていたり「分析ツール」に用意されている手法を用いて分析することになります。
普段の業務の延長で、グラフィカルに操作できるため比較的修得が容易な点や、分析した結果をグラフにすることも容易な点は特徴です。
一方で、もともとは表計算ソフトとして設計されたソフトウェアのため、多数の条件に該当したデータを抽出したりと、複数のデータを組み合わせて新たなデータを作成するといったことは得意ではありません。
また、比較的高度な分析手法や特定の領域で用いられることの多いマニアックな統計手法については搭載されていないことが通常です。
数十万、数百万行といった大規模データでは動きが遅くなることが多いため、大規模データの分析には向いていない点もネックと言えます。ただし、ピープルアナリティクスではデータの最小単位が人単位であることが多く、大規模データといっても数万行で収まることが多いため、大規模データ処理が苦手な点はそこまで問題になることはありません。
どちらかというと、複雑な条件での抽出やデータ加工が苦手な点や、やや高度な手法、マニアックな手法が搭載されていない点がピープルアナリティクスでの活用する際のネックとなることが多い印象です。
R/Python
無料のソフトウェアであることが最大のポイントです。オープンソースソフトウェアとして世界中の統計分析家やエンジニアによって開発が続けられており、最新の統計手法も続々と利用可能となっています。基礎的な統計分析手法から現在話題の高度なディープラーニング(深層学習)といった手法までも実行することが可能です。
世界中のデータサイエンティスト、データエンジニアがいずれかを用いているほど普及しています。
Rの画面例を示しました。デフォルトの画面は図のようなコマンドを入力する方式ですが、グラフィカルな操作画面にアップグレードすることも可能です。
RやPythonは、複雑な条件での抽出や変数の加工といったデータ処理に非常に強いのも特徴です。ピープルアナリティクスにおいては、たとえば、「2019/11/22」といった入社年月日と現在の日付の差により年齢を計算する、役職と性別のそれぞれの組み合わせで回帰分析を実行するといった作業が必要になります。
あるいは、人事部門の人事データに対して、営業部門の保持する営業成績に関するデータを従業員IDをキーとして組み合わせるといった処理が必要になります。RやPythonはそういった作業をスムーズに行うことが出来ます。
一方で、Excel等の他の商用ソフトウェアと比較するとオープンソースの無料ソフトウェアであるため、技術サポートがない点と習得に時間がかかる点はネックと言えます。
最近ではRやPythonに関する多くの書籍が発売されていることや、WEB上での情報が充実しているため、習熟のためのハードルは相当低くなっているように思います。
なお、「ピープルアナリティクスにおいてPythonとRどちらを使うのが良いか?」という質問を頂くことがあります。弊社としては、Rをお勧めしております。
第一の理由として、上述した複雑な条件での抽出やデータ加工がRはPythonに比べても得意である点やピープルアナリティクスで活用できる心理統計学分野の手法の充実度が高いことが挙げられます。
ディープラーニング(深層学習)系の手法を活用するのであれば、Pythonに一日の長がありますが、ピープルアナリティクスにおいてディープラーニング(深層学習)系の手法が必要となるほどの大規模なデータは今のところ収集するのが難しい点もRをお勧めする理由です。
なお、Rに習熟すればPythonを学ぶのも簡単ですので、Rに習熟してからどうしてもPythonが必要になった段階ではPythonにチャレンジした場合、非常にスムーズに習熟することが可能です。
SPSS/STATA/SAS
SPSS、STATA、SASは全て商用パッケージになります。
大学や企業等で統計ソフトウェアとして世界的に使用されていることが特徴です。商用パッケージのため技術サポートが充実しているほか、ベンダーによる動作保証もあります。
RやPythonには及びませんが、比較的高度な分析やマニアックな手法についても搭載されていることが多く、大規模なデータ処理も可能です。
また、グラフィカルな画面での操作も特徴であり、コマンドでの操作が苦手な方もマウスで分析を進めることが可能です。
SPSS、STATA、SASを用いる上でのネックは利用するためのライセンス費用のコスト負担だと言えます。大学等ではアカデミックライセンスとして割引されていることも多いのですが、企業で使うとなると相応のコストを覚悟する必要があります。
SPSS、STATA、SASにおいて高度な分析を行うためにはアドバンストな追加パッケージをインストールする必要がある等、分析内容によってはコスト負担が大きくなります。
なお、メーカー等の業種で研究開発部門であれば、すでにSPSS、STATA、SASのいずれかが導入されている可能性があります。その場合は、SPSS、STATA、SASのいずれかを利用しながら、SPSS、STATA、SASで利用できない分析手法や複雑なデータ処理が必要になった場合にRやPythonを併用するといった使い方も可能だと考えられます。
以 上
データサイエンス、職場のメンタルヘルス、健康経営、公認心理師等に関する、人事担当者様、産業保健スタッフ・心理職の方に有用な情報を配信する株式会社ベターオプションズによる無料不定期メールマガジンはこちらから登録できます。
※登録後に「申し訳ありませんが、サーバーエラーが発生したようです。また、後ほどお試しください」というメッセージが表示されることがありますが、登録は完了しておりますのでご安心ください。