データサイエンティストとは
データサイエンティスト
漠然とデータサイエンティストはなんだろと考えていたところ、スマホのおすすめ記事のリンクで
下記KDnuggetsの記事があったので読んでみました。
その中で響いた箇所の抜粋です。
How to Become a (Good) Data Scientist – Beginner Guide
結果、データサイエンティストになるべく、今後いろいろと勉強していこうかなと。
データサイエンティストとは
データサイエンティストとは、下記知識を総動員して、ビジネスや製造シーンで有益なinsightを導き出す現代の錬金術である。
machine learning algorithms
statistics
business intelligence <---これはなんだろ?
programming
データサイエンスの使用用途
Better Decision Making
- Whether A or B ?
Predictive Analysis
- What will happen next ?
Pattern Discovery
- Is there any hidden info
データサイエンティストが知るべきことについて
その1: Business Intelligence
Data Science(以下、DS) と Business Intelligence(以下、BI)の類似点&差異があると。
類似点:
- 有益な情報をアウトプットを得るために、データ解析を行う
- 信頼性のある意思決定システムを提供する
差異:
- 解析データの違い
- BI : 静的かつ構造化されたデータ
- DS : ハイスピードかつ複雑、複数ソースからの統一されていないデータ
- アウトプットの違い
- BI:過去のデータを解析し、過去パターンを見つける。
- DS:過去のデータを解析し、未来予測をする
DSも過去パターンを見つけるまでが一緒で、そこからさらに未来予測までやっちゃうという進化系をいう意味かと思う。
小難しいことはおいといて、必要なことは、下記のクリアな思考を持てと。
- 興味があることについての疑問や事柄を持つこと。
解があるかもしれないデータを見つけ、それを集めること。
いい感じのツールを使用し、集めたデータを解析すること。
- 解析結果を見つめ、真理を見つけること。
なるほど。
その2 : Statistics and probability
統計学と確率論は、データサイエンティストのベース。
統計学と確率論は、数学でも難しい分野なので、下記5つだけはしっかり押さえなさいとな。
- バイアス、分散、平均などの統計学の基礎
- 確率分布
- オーダーサンプリング、アンダーサンプリング。データセットのバランスを取るために必要。
- Dimensionality Reduction(なんだろこれ?要調査)
- Bayesian Statistics (ベイジアンネットワークのことかな?)
その3 : プログラミング
当然、プログラミングスキルもいりますよと。ま、そうですよね。
データサイエンスで人気のある3言語:R, Python, SQL
その4: 機械学習とAI
データサイエンスと機械学習&AIは、密接に関連している。
教師あり/なし/強化学習やロジスティック回帰やその他のような機械学習のテクニックを駆使し、データ解析をするので、押さえておきたい必須事項やでと。
GOOD データサイエンティストとして、必要なスキル
GooDなデータサイエンティストになるにはついて、下記アドバイスされています。
Analytical Mindset
Focus on Problem Solving
Domain Knowledge:
- ビジネス側の問題を理解し、それを最適なモデルを選択する必要がある。
- そのモデリングの際は、素早いイテレートでモデルを完成させること。
- そのためには、ビジネス側の造詣に深くないといけない。
Communication Skills
- ステークスホルダに対して、定期的なフィードバックをシンプルな言葉で行う必要がある。
- 超重要なことは、right questionsをステークスホルダーに対して行うことである。
- 自分のアプローチ方法についてドキュメント作成し、誰でも再現可能な状態にすること。