データサイエンティストとは

データサイエンティスト


漠然とデータサイエンティストはなんだろと考えていたところ、スマホのおすすめ記事のリンクで

下記KDnuggetsの記事があったので読んでみました。

その中で響いた箇所の抜粋です。

How to Become a (Good) Data Scientist – Beginner Guide

結果、データサイエンティストになるべく、今後いろいろと勉強していこうかなと。

データサイエンティストとは


データサイエンティストとは、下記知識を総動員して、ビジネスや製造シーンで有益なinsightを導き出す現代の錬金術である。

  • machine learning algorithms

  • statistics

  • business intelligence <---これはなんだろ?

  • programming

データサイエンスの使用用途


  • Better Decision Making

    • Whether A or B ?
  • Predictive Analysis

    • What will happen next ?
  • Pattern Discovery

    • Is there any hidden info

データサイエンティストが知るべきことについて

その1: Business Intelligence

Data Science(以下、DS) と Business Intelligence(以下、BI)の類似点&差異があると。

類似点:

  • 有益な情報をアウトプットを得るために、データ解析を行う
  • 信頼性のある意思決定システムを提供する

差異:

  • 解析データの違い
    • BI : 静的かつ構造化されたデータ
    • DS : ハイスピードかつ複雑、複数ソースからの統一されていないデータ
  • アウトプットの違い
    • BI:過去のデータを解析し、過去パターンを見つける。
    • DS:過去のデータを解析し、未来予測をする

  DSも過去パターンを見つけるまでが一緒で、そこからさらに未来予測までやっちゃうという進化系をいう意味かと思う。

小難しいことはおいといて、必要なことは、下記のクリアな思考を持てと。

  • 興味があることについての疑問や事柄を持つこと。
  • 解があるかもしれないデータを見つけ、それを集めること。

  • いい感じのツールを使用し、集めたデータを解析すること。

  • 解析結果を見つめ、真理を見つけること。

なるほど。

その2 : Statistics and probability

統計学と確率論は、データサイエンティストのベース。

統計学と確率論は、数学でも難しい分野なので、下記5つだけはしっかり押さえなさいとな。

  • バイアス、分散、平均などの統計学の基礎
  • 確率分布
  • オーダーサンプリング、アンダーサンプリング。データセットのバランスを取るために必要。
  • Dimensionality Reduction(なんだろこれ?要調査)
  • Bayesian Statistics (ベイジアンネットワークのことかな?)
その3 : プログラミング

当然、プログラミングスキルもいりますよと。ま、そうですよね。

データサイエンスで人気のある3言語:R, Python, SQL

その4: 機械学習とAI

データサイエンスと機械学習&AIは、密接に関連している。

教師あり/なし/強化学習やロジスティック回帰やその他のような機械学習のテクニックを駆使し、データ解析をするので、押さえておきたい必須事項やでと。

GOOD データサイエンティストとして、必要なスキル


GooDなデータサイエンティストになるにはついて、下記アドバイスされています。

  • Analytical Mindset

    • これはデータを扱う人にとっては、当然ですよねと。
    • 統計学やデータ構造、機械学習についての知識が増えるほどに、あなたの分析思考は研ぎ澄まされます。
  • Focus on Problem Solving

    • 新しいテクノロジーをマスターした際、どこでもそれを使いがち!(RG風)

    • 重要なことは、

      • 最新トレンド、ツールを知ること。

      • データサイエンティストのゴールは、特定問題を解決すつために、データから解を導き出すこと。

      • Good Data Scientistは、下記で問題解決するんやでと。

        1. 解決しようとしている問題を理解する

        2. 解決に必要な要件? (requirement)を定義する

        3. ベストなツールとテクニックを決定する
        4. ステークスホルダーは、かっこいいツールではなく、あなたの効率的な素晴らしいソリューションにのみ心奪われます。
  • Domain Knowledge:

    • ビジネス側の問題を理解し、それを最適なモデルを選択する必要がある。
    • そのモデリングの際は、素早いイテレートでモデルを完成させること。
    • そのためには、ビジネス側の造詣に深くないといけない。
  • Communication Skills

    • ステークスホルダに対して、定期的なフィードバックをシンプルな言葉で行う必要がある。
    • 超重要なことは、right questionsをステークスホルダーに対して行うことである。
    • 自分のアプローチ方法についてドキュメント作成し、誰でも再現可能な状態にすること。