データサイエンティスト採用募集時の注意点

はじめに

 昨今「データサイエンティストを採用したい、社内育成したいがどうすれば良いか?」といったご相談を受けることが多くなってきました。弊社が日ごろ感じている、データサイエンティストを採用、育成する際のポイントはいくつかありますが、今回は、そのうちデータサイエンティストを採用する際、特に募集する際の注意点について説明したいと思います。

 まず、絶対に避けるべきなのは、募集する職種を「データサイエンティスト」として、「弊社の保有する大量のデータを分析して知見を得ることのできる人材」、「統計学・機械学習・AIの知識を有する人材」、「データ分析を通じて弊社事業に貢献できる人材」といった曖昧な要件をもとに、募集することです。この場合、応募する人材と実際に企業が求める人材のミスマッチが生じる可能性が高いと言えます。

 そのような事態を避けるためには、採用する側の人事部門、ひいては経営層が、(1)データサイエンスを使って何をしたいのかという目的、(2)どの領域のどのようなデータを分析したいのか、という二点を整理し、募集する人材要件になるべく詳しく記述することが重要です。

そもそもデータサイエンス、データサイエンティストとは?

 その前に、そもそもデータサイエンスとはどのような学問・技術領域なのか、データサイエンティストとはどのような職種なのでしょうか?

 実は、「データサイエンス」という名称自体決定的な定義が有る訳ではありません。大量のデータから知見を得ることを目的とする統計学、機械学習・AI等の技術の総称、程度に理解しておくのが良いと思います。

 一方の「データサイエンティスト」についても、一般社団法人データサイエンティスト協会(https://www.datascientist.or.jp/about/background/)が、『実際には新しい職業である「データサイエンティスト」には明確な定義がなく、対応領域も広いことから、さまざまな課題も生まれています』と指摘しているように決定的な定義がある訳ではありません。差し当たっては、統計学、機械学習・AI等に手法により大量のデータから知見を得ることを目的とする専門家と考えておけば良いでしょう。

データサイエンスを活用する目的の整理

 それでは、1点目のデータサイエンスを使って何をしたいのかという目的の整理について説明します。

 データサイエンスを活用すると可能になることは、大きくは、主に(1)データの構造を分析すること(2)データをもとに将来の予測を行うことになろうかと思います。

 たとえば、(1)については、大量の購買データから、典型的なユーザー像をいくつかのグループに分ける、あるいは購買につながると考えられる多数の要因と購買行動の関係の強さを調べるといったことが考えられます。

 (2)については、これまでに出荷した野菜の画像データと価格をもとに収穫した野菜の画像から出荷時の価格を予測する、過去のアクセス数の推移から今後のアクセス数を予測するといったことが考えられます。

 大まかには、(1)は統計学が得意とする分野であり、(2)は機械学習・AIと呼ばれる分野が得意とする分野です。近年は、大学でデータサイエンス学部が創設されるなど、両者を同時に学修する機会も増えましたが、データサイエンスが人口に膾炙する前には、経済学、心理学、医学、バイオの分野では、統計学が用いられることが多く、工学の画像処理や音声認識、自然言語処理の分野では、機械学習・AIが扱われることが多かったため、データサイエンティストの出身専攻によっては、統計学と機械学習・AIのどちらかに得意不得意がある場合が有ります。

 統計学でも時系列解析のように将来の予測を頻繁に行う分野もありますので、厳密に両者の区別が有る訳ではありませんが、データの構造の分析を中心に行ってほしいのか、データを元にした将来の予測を行ってほしいのか、あるいはその両方を求めるのかは人材要件に記述しておくことをお勧めします。

データサイエンスを適用する領域

 次は、データサイエンティストを採用する際の検討すべき事項の2つ目の、「どの領域の、どのようなデータを分析したいのか」についてです。

 統計学や機械学習・AIと言った手法の発展の歴史を振り返ると、一つの基礎・核となる分野があっていろんな分野に分かれたという歴史ではありません。農学や生物学といったデータが得られやすくデータ分析が成果に結びつきやすい領域において、その領域固有のデータから知見を得るための手法が開発され、その後、品質管理、経済学、医学、心理学、画像認識といった他の領域に応用されていったという歴史を辿っています。そのため、ほぼすべての領域で共通する考え方や手法が存在する一方で、各領域の固有のデータを分析するのに適した手法が各領域で発展しています。

 たとえば、株価の動きや、信号といった時系列のデータを扱うことが多い分野では、時系列解析という時系列のデータを分析する手法が用いられることが多く、人間の行動や心理データを分析する分野では、潜在変数という実際には観測されないが、観測変数の背後に存在すると仮定する変数を用いた分析を行うことが特徴です。
他の例では、医学分野では、欠損したデータを適切に処理する方法や、ある薬を投与された患者の生存期間の分析に適した生存時間分析という手法が発達しています。

 昨今のデータ量が多くなっているSNSやプラットフォームの書き込まれたテキストデータであれば、テキストマイニングや自然言語処理と呼ばれる手法が多く用いられますし、画像や音声の認識については昨今話題の深層学習という手法が有力な手法として活用されています。

 領域ごとに有効な手法が異なる点に加えて、得られるデータが不完全なデータであることが多いため領域ごとのデータの癖を踏まえて分析可能なデータに加工する手間が多くかかることも頻繁にあり、その領域のデータに慣れているかどうかが作業効率に直結します。

 ちなみに、弊社であれば、マーケティング関連、人事関連、健康関連等、広い意味で人の行動、意識、心理に関するデータ分析であればお受けしていますが、それ以外の、たとえば、株価・為替データ、臨床試験データ、地理情報データ、画像・音声、自然言語処理、遺伝子等のバイオ関係については現状社内に専門家が存在しないためお断りさせて頂いております。

 もちろん、データサイエンスを適用する領域が違っても、その領域で有効な手法を新たに勉強する、その領域のデータについて学ぶことも可能ですが、その場合には、その領域で経験豊富なデータサイエンティストと比較すると立ち上がりに時間を要することになります。

 したがって、データサイエンスを適用する領域が決まっているのあれば、その領域の経験と自信のある応募者が応募するように、応募要件に領域を明示することをお勧めします。

 「企業の戦略が外部に伝わってしまうため応募要件として具体的に領域名を書きづらい」という懸念を持つ方もいらっしゃいますが、採用した人材ミスマッチによるデメリットが大きいため、少なくとも、マーケティング、金融・ファイナンス、医学・健康、SNS等のデータ程度の粗さで記述することをお勧めします。

 あるいは、使用を想定する統計手法(たとえば、GARCHモデル、状態空間モデル、生存時間分析、自然言語処理技術、深層学習….)を記述することをお勧めします。なお、この方法を用いるには社内に既にデータを分析しているデータサイエンス人材が存在することが前提となります。

 

終わりに

 これまで、データサイエンティストを募集する際の注意点について、データサイエンス活用の目的、データサイエンスを適用する領域やデータを特定することが重要である旨説明しました。

 最後に注意して頂きたいのは、そもそも人材要件に記述した領域のデータが利用可能なものなのかは、採用する側があらかじめ調査して確認しておく必要があります。社内のデータ状況の実態を知らない経営層主導でデータサイエンティストを採用したものの、「経営層が社内に蓄積されていると思っていたデータの蓄積が中断していた」、「分析対象となるデータの形式が社内で統一されていなかった」といった事態がデータサイエンティスト採用後に発覚し、データサイエンティストが実力を発揮する前にモチベーションを失って退職してしまったという例もありますので、注意しましょう。

以 上

データサイエンス、職場のメンタルヘルス、健康経営、公認心理師等に関する、人事担当者様、産業保健スタッフ・心理職の方に有用な情報を配信する株式会社ベターオプションズによる無料不定期メールマガジンはこちらから登録できます。


 

※登録後に「申し訳ありませんが、サーバーエラーが発生したようです。また、後ほどお試しください」というメッセージが表示されることがありますが、登録は完了しておりますのでご安心ください。

Follow me!