データサイエンスは今、多くの産業で重要なスキルです。
けど、どうやって勉強を始めればいいのか、何を学べばいいのか、始めの一歩が見えてこないですよね。
今日は、文系出身で現在事務職の僕がデータサイエンスを勉強した方法を徹底的に解説します。
イントロダクション〜データサイエンスの勉強をするにあたって〜
僕はちゃんとデータサイエンスを勉強できたの?
初めに、僕がちゃんとデータサイエンスを勉強出来たのかを紹介しておきます。
以下のように、全くの初心者から資格取得、実際のデータ分析まで取り組めるようになりました。
- 現職は一般事務職
- めっちゃ文系
- 大学受験時、センター試験の数学1Aが60点、数学2Bは18点
- 大学時代、心理学専攻で統計学を2科目くらい受講
- プログラミング経験は無し
- データサイエンス経験も、もちろん無し
- Python3データ
- G検定
- SIGNATEあのランク
各資格の説明
対象の読者は?
この記事は、これからデータサイエンスを学びたいと考えている初心者の方を対象としています。
僕と同じように、プログラミングや数学はマジで初心者って人でもしっかり勉強方法がわかるように書いています。
データサイエンスの重要性と需要
もう知ってるかもしれませんが、データサイエンスは今や社会の様々な部分で活用されています。
ビジネスから医療、環境問題、天気予報。多くの分野でデータを活用することで、より効率的な意思決定が可能になっています。
多くの企業や組織がデータサイエンティストを求めていると同時に、一般人でもデータサイエンスを勉強すれば、より効率的で役に立つデータの使い方を実践できるようになります。
データサイエンスとは?
そもそも、データサイエンスって何を指すんでしょう?
データが大事なことはわかるけど、あんまりイメージが湧かないんじゃないでしょうか。
データサイエンスの定義
データサイエンスとは、簡単に言えば「データから新しい知識や情報を引き出す科学」です。この分野は、数学やプログラミング、統計学などが組み合わさっています。
想像してみてください。
あなたがゲームで高得点を出すための秘訣を知りたいと思ったとします。そのためには、たくさんのゲームをプレイして、どのアクションが得点につながるのか、どのタイミングで何をすればいいのかを調べますよね。この「調べる」行為からヒントを導くのが、データサイエンスの一部です。
要するに、データサイエンスは「データを使って、より良い決定をする」ための科学です。
データを集め、分析して、課題解決のヒントを導く。これがデータサイエンスの流れというわけ。
必要なスキルセット
データサイエンスを効果的に行うためには、以下のように色々なスキルが必要です。
- プログラミングスキル: 大規模なデータの収集、整理、分析にはプログラミングが不可欠です。PythonやRが一般的に使用されます。
- Python/R: データ分析や機械学習によく使用されるプログラミング言語。
- 数学・統計学の知識: データを理解し、解析するためには、基本的な数学や統計学の知識が必要です。これには、確率論、線形代数、微積分などが含まれます。
- 確率論、線形代数、微積分: データ分析の基礎となる数学の分野。
- 人工知能(AI)と機械学習: データからパターンを見つけ出し、予測モデルを作成する能力も求められます。これには、AIと機械学習の基本的な理解が必要です。
- AI(Artificial Intelligence): 人間のように思考や学習をするコンピュータシステム。
- 機械学習: AIの一分野で、データから自動的に学習するアルゴリズムを研究する。
- ビジネス理解: データの解析結果をビジネスに活用するためには、そのビジネスの背景や目的を理解する必要があります。
- ドメイン専門知識: 特定の業界や分野における専門的な知識も重要です。これにより、データが持つ意味や価値を正確に把握し、有用なインサイトを引き出すことができます。
どれも難しそうですが、全部を高レベルにできる人は滅多にいません。
誰もが、自分なりに出来そうなスキルからコツコツを学んだ結果がデータサイエンティストなので大丈夫です。
スキルは相互に関連している
上記のスキルは、密接に関連しています。
例えば、プログラミングスキルは、数学や統計学の理論をデータに適用するためだし、AIと機械学習は数学や統計学の理論を基にしています。
ビジネス理解とドメイン専門知識は、データ分析の結果をどう実世界の問題解決に役立てるかを考えるのに必要です。
それぞれのスキルがどのように連携してデータから価値を引き出すのかを理解することが、この分野で成功する鍵となります。
データサイエンスは独学で学べる?
データサイエンスは覚えることが多いのも事実です。たとえばデータ分析には、以下の知識が必要です。
- 統計学や数学
- データベース
- AIや機械学習
- プログラミング(Python、SQLが主流)
でも大丈夫。データサイエンスは独学でも十分に学べます。実際に僕がそうですしね。
以下で、独学でデータサイエンスを学ぶメリットとデメリットを紹介します。
独学のメリット
- 自分のペースで学べる
- 費用が低い
- 興味のあるテーマに特化して学べる
自分のペースで学べる
独学の1番のメリットは、自分のペースで学習できることです。不定期的に勉強したいとか、義務感にしたくないとかって人には最適です。
自分でスケジュールをコントロールしやすい人は短期集中で学んだり、逆に毎日少しずつ時間をかけて勉強したり、自分のペースにあわせて学習期間を決められるのは大きなメリットです。
学習費用が安い
スクールや専門学校と比べて、圧倒的に学習費用が安いのも大きなメリット。
本とネットさえあれば十分理解できる難易度ですし、無理にお金をかけなくても学べるのならその方が良いって人は独学から始めてみても後悔はしないはずです。
興味のあるテーマに特化して学べる
誰かに教えてもらう場合、学べるテーマを自分で選べません。もう少し深く知りたい、そこは大丈夫…みたいなとこで柔軟に勉強できます。
独学のデメリット
- モチベーションの維持がしにくい
- 専門家からのフィードバックが少ない
- 学習の方向性を見失いやすい
モチベーションの維持がしにくい
独学の場合、勉強をするかしないかを決めるのはあなた自身です。
初めから予定が決まっていたり、誰かと一緒じゃないとやる気が出ないタイプなら、独学は少し難しいかもしれません。
専門家からのフィードバックが少ない
専門家に聞くことも基本的には難しいですね。
本やネットで調べてもどうしても分からないことが出てきてしまうと、専門家に聞けるスクールとかに通う必要があるかもしれません。
学習の方向性を見失いやすい
決まったカリキュラムがないので、興味のままにあれもこれもと手をつけると、勉強の方向性を見失います。
それ自体は全然悪いことではないんですが、何か目的があってデータサイエンスを独学する場合には、遠回りになってしまう可能性もあるのがデメリットです。
独学でデータサイエンスを勉強する方法は2通り
独学でデータサイエンスを勉強するといっても、2通りのパターンがあります。
- 基本から始める
- 実践しながら学ぶ
どちらでも大丈夫ですが、自分に合ったパターンを選ぶ必要があります。
自分に合わない勉強方法は、効率が悪いし、何より楽しめませんからね。
基本から始める
データサイエンスの基本的な内容から勉強していく方法です。僕は基本的にこちらのパターンで勉強を進めました。
イメージとしては、全体を俯瞰した後に実践的な内容を勉強していく感じです。
実践しながら学ぶ
まず分からないことがあっても、実際のデータ分析にチャレンジしてみるパターンです。
分からないことが出てきたら調べて解決、という手順を繰り返すので、実務を体験しながら勉強できます。僕は、データサイエンスの基礎がある程度身についたところでこちらの勉強方法に切り替えました。
データサイエンスに必要なスキルとその習得方法
ここからいよいよ実践的な内容です。
まずはデータサイエンスに必要なスキルとその習得方法をまとめました。これからあなたは、以下のスキルを手に入れていくことになります。
- プログラミングスキル(PythonやR)
- 数学、統計学の知識
- 機械学習とディープラーニングの知識
- 実践的なビジネスデータの分析やドメイン知識
これらを順番に勉強していくのが、データサイエンスの勉強法です。具体的な手順は後半に書いているので、まずは上記がどんなスキルなのかを把握することから始めてくださいね。
プログラミングスキル(PythonやR)
大量のデータを分析するにはデータ分析のためのプログラミングスキルが必要。
よく使われるプログラミング言語はPythonやR言語ですね。大きな違いは、以下のとおりです。
プログラミング言語 | 特徴 |
---|---|
Python | ・機械学習やデータ分析の王道 ・オープンソース ・ライブラリ(追加できる機能)が豊富 ・アプリ・ゲーム・システムなどあらゆる開発に使用できる |
R言語 | ・統計解析に特化した言語 ・オープンソース ・コードの書き方がシンプル |
難しく聞こえますが、データ分析作業は決まった処理を行うことが多いので、パターンで覚えてしまえば全然難しくありません。
数学・統計学の知識
数学と統計学の基礎は、データサイエンティストが必ずおさえておかなくてはいけない部分です。
まずは、平均・標準偏差など統計の基本的な部分から勉強していきましょう。
機械学習とディープラーニング
データサイエンスの心臓が、機械学習とディープラーニングです。
機械学習ってなに?
機械学習とは、コンピューターに大量のデータを繰り返し与え、そのデータから読み取れる規則性などを学習させることで、未知のデータが与えられた際に学習結果に当てはめて予測・判断・分類などを行えるようにする仕組みです。
機械学習の活用事例には、店舗の来客分析、農家の生産量予測、アパレルの需要予測、チャットボットによる問い合わせ対応、コールセンターの自動化、紙書類の電子化、レジの商品自動識別などがあります。
また機械学習には大きく分けて教師あり学習、教師なし学習、強化学習の3種類があります。
ディープラーニングってなに?
ディープラーニング(Deep Learning)も、コンピューターが大量のデータを学習して、データ内の特徴を見つけ出す技術です。
ディープラーニングは、脳の神経回路のしくみを模したニューラルネットワークを多層に重ねることで、機械学習よりも汎用的で応用的な学習能力をもっています。
従来の機械学習よりも高精度な分析が可能であり、複雑な判断や細かな処理ができるようになっています。ディープラーニングは、人工知能(AI)の急速な発展を支える技術であり、その進歩により様々な分野への実用化が進んでいます。
実践的なビジネスデータの分析やドメイン知識
数学や統計学、機械学習などの知識と、プログラミングスキルを身につけたら、それを使えるようにしないといけませんね。
なので、実際に現実のデータを分析したり、あなたの目的に合わせたドメイン知識を勉強します。
ここまでくるとデータサイエンスの勉強というよりも「データサイエンスを実際に使う練習」という感じですね。データサイエンスを勉強する人とは、ここを目指して勉強していきましょう。
勉強資料と教材:実践しやすい選び方
データサイエンスを勉強する手段はたくさんあります。
ただ、一通り使った体験談をもとに、どんな時にどんな手段で情報を求めるのがおすすめかを紹介しておきます。
具体的には、基本を学ぶのには本、実践を学ぶのにはKaggleやSIGNATEがベストだなと思っています。
基礎は書籍で勉強する
基本を学ぶのには本が最適です。理由は以下の通り。
- 多数の本が出版されており基礎から応用まで全てを網羅している
- 内容は同じでも、自分にあった口調の本を選べる
- 必要な内容を体系的に勉強できる
- 勉強したい項目だけ集中して勉強できる
僕の体験談としては、動画教材よりも圧倒的に本がおすすめです。
動画はイメージで概要を掴むには良いんですが、具体的にプログラムを書いたり計算するようになると、かなりやりづらいです。
動画を一時停止しながらプログラミングのコードを写すのはかなり苦痛だし、画面拡大とかも出来ないので全然ダメでした。
本ならじっくり見れるし後戻りもしやすいし、最高です。
YouTubeやUdemyはオマケ
実際にデータサイエンスを勉強した体験から言うと、残念ながらこの分野の勉強にYoutubeやUdemyは役に立ちませんでした。
上述した動画ならではのデメリットはもちろんですが、そもそも動画が充実してません。内容的には、本なら入門書1冊くらい。
本なら入門書一冊で済むのに、複数の動画を探したりUdemyでお金をかけて講座を買う必要は無い、というのがデータサイエンス分野の現状です。
まだまだ一般的ではない分野なので教材が無いのはしょうがないんですが、こういった理由からも結局は本で勉強するのが必須になります。
実践はKaggleやSIGNATEで
書籍である程度データサイエンスの基本が身についたら、実際のデータ分析にチャレンジします。
その時に使えるのが、KaggleやSIGNATEといった分析コンペのサイトです。
Kaggleってなに?
Kaggleと書いて「カグル」と読みます。
Kaggleでは、Competition(コンペ)といって、企業や政府がデータ分析の実際の課題を提示し、参加者は実際に分析を実行、一番結果が良かった人から分析モデルを買い取るということが行われています。
要するに、誰でも実際のデータを使ってデータ分析をできるということです。
SIGNATEってなに?
SIGNATEは「シグネイト」と読みます。
大雑把にいうと「日本版のKaggle」で、Kaggleは基本言語が英語ですが、SIGNATEは日本企業が運営しているサイトなので、データ分析プロジェクトも基本は日本語です。
できることはKaggleと同じなので、データ分析の実践をしたいならまず試してみるのをおすすめするサイトです。
ブログやWEBサイトは不足情報の穴埋めに使う
データサイエンスの情報はインターネットやこの記事のようなブログでも沢山提供されています。
でも現状、残念なことにブログやWEBサイトでデータサイエンスを体系的に勉強できるサイトはほとんどありません。
ただ、データサイエンスのプロの方が「特定のトピックに特化」して書いた記事やプログラムは沢山あります。
初心者のうちは難しいですが、専門用語を使って検索できるようになってきたら、何か困った時にブログやWEBサイトを使うのもおすすめです。
まとめると、2023年現在のデータサイエンス分野におけるブログやWEBサイトは以下の感じです。
- 初心者がデータサイエンスを体系的に学べるサイトはほとんど無い
- 特定のトピックで検索できるなら、役に立つ情報が沢山ある
独学でデータサイエンスを勉強するときのロードマップ
前提知識に沢山の文字を使いましたが、いよいよです。
具体的に独学でデータサイエンスを勉強するときのロードマップは以下の通り。
- Step0:データサイエンスとデータ分析の流れを知る
- Step1:ひとまずPythonでデータ分析してみる
- Step2:データサイエンスに必要な統計学や数学をちゃんと勉強する
- Step3:機械学習とディープラーニングをPythonでちゃんと実行する
- Step4:実際にビジネスレベルのデータサイエンスをやってみる
- Step5:SQLの勉強をする
Step0:データサイエンスとデータ分析の流れを知る
まず一番初めにやることは、データサイエンスとは何か?データ分析はどんな流れで行うのか?を知ることです。
これから勉強する内容を大枠のイメージで掴みます。使う教材は、以下の2冊の本。
「データサイエンティスト 基本スキル84」はその名の通りデータサイエンティストのスキルが載った辞典のようなもの。必要な分析手法から資格まで、幅広く紹介されていて、勉強の1冊目に読むべき本です。
「一生モノのビジネス教養 データサイエンス大全」はデータサイエンティストの業務の流れにしたがって、データサイエンスの知識を網羅的に勉強できます。
流れがわかるので、2冊目に読んでこれからの勉強の準備に最適。
どちらも、ただ本を読み進めていくだけでデータサイエンスとは何かが分かる超良書です。
数式よりも図や文章で説明してくれるので、一番初めに読む本として間違いありません。文系の僕でもスラスラ読めました。
Step1:ひとまずPythonでデータ分析してみる
そしたら、ちゃんとした勉強に入る前にもう少しデータサイエンスで遊んでおきましょう。
というのも、上記の本で概略だけ分かった後に、理論的な内容や、データサイエンスに直接関わらないプログラミングの勉強をしてもつまらないですよね。
どうせなら、まず初めにお手軽にデータサイエンスをできるんやぞ!って経験をした方が、後の勉強も楽しくなるってもんです。と言うことで以下の5冊の本をやりましょう。
「Python◯年生」シリーズは、知識ゼロからPythonを使ってデータ分析ができる最強の入門書です。
数学や統計学、プログラミングやデータサイエンスのことを何も知らなくても大丈夫。1年生から3年生に向けて順番に遊んでみるだけでOKです。
本の内容を真似していくだけで、ひとまず何となくデータサイエンスを実践できる神の書籍です。すごく優しく書かれているので、ぶっちゃけこれ以上に優しい実践データサイエンスの本はありません。
Step2:データサイエンスに必要な統計学や数学をちゃんと勉強する
概要を理解して、実際にプログラムを動かして遊んでみたら、いよいよ”ちゃんとした”勉強に入っていきましょう。
まずはデータサイエンスの土台になる統計学と、それに必要な数学の勉強から始めましょう。以下の3冊です。
まず読むべきなのが「統計学が最強の学問である」シリーズ。
これらは読むだけで「統計学とは何なのか」「具体的に何をしたい時にどんな統計手法を使うべきか」「統計学に大事な考え方」を身につけられる良書です。
大学の教科書みたいな書き方ではなく、小説のようにすらすら読める本なので、誰にでもおすすめできます。
もっと簡単なところから始めたいなら、「完全独習 統計学入門」もおすすめ。
中学数学だけで、とにかく最短で統計的な検定(意味のある差か調べる)や区間推定(サンプルから全体の数値範囲を計算)を勉強できます。
網羅的に、でもわかりやすく統計学を知りたいなら「基礎から学ぶ統計学」です。
イラストたっぷりで理科の教科書のような見た目なんですが、しっかり統計学の必要事項を抑えている良書です。
余裕があれば「統計検定2級」の取得を
余裕があれば、「統計検定2級」の資格も取りましょう。
統計検定は、統計学に関する知識やスキルを評価する全国統一試験で、総務省、文部科学省、厚生労働省、内閣府の後援のもと一般社団法人日本統計学会が認定し、一般財団法人統計質保証推進協会が実施する公的な試験です。
せっかく学んだ統計学の実力を試すチャンスだし、非常に有用な資格なのでぜひ取得をおすすめします!
僕が統計検定2級を取得した方法は「文系未経験から独学で統計検定2級を取得した方法」を確認してみてください。
Step3:機械学習とディープラーニングをPythonでちゃんと実行する
統計学について学べたら、機械学習とディープラーニングをPythonでちゃんと実行できるようにしましょう。
この段階では「Python◯年生」シリーズの経験を土台に、Pythonのプログラミングスキルも徐々に高めていきます。
まずはPythonでプログラミングができるようになろう
まずはPythonのプログラミングスキルからです。
といっても、開発するわけではないのでPythonの基本文法を覚えておけばOKです。
「シリコンバレー一流プログラマーが教える Pythonプロフェッショナル大全」の前半をやれば、Pythonの文法は完璧です。
一冊やるとプログラマーレベルの知識がつくんですが、データサイエンスをやるなら前半だけで十分です。
余裕があれば「Python3エンジニア認定データ分析試験」の取得を
Python3エンジニア認定データ分析試験は、Pythonを使ったデータ分析の基礎や方法を問う資格試験。Pythonエンジニア育成推進協会が主催していて、Pythonでデータ分析する能力があることを証明できる資格です。
僕が取得した感想としては、資格取得の勉強というより、データ分析で必要な勉強のカリキュラムを修了して資格がついてくる、みたいな感覚でした。教材は以下の一冊のみでOK。
基本的には以下の本の内容を覚えれば合格できる試験で、Pythonでデータ分析するための知識を満遍なく勉強しつつ、資格取得も狙えるのでかなりおすすめです。
僕がPython3エンジニア認定データ分析試験を取得した方法は「文系未経験から独学でPython3エンジニア認定データ分析試験を取得した方法」を確認してみてください。
機械学習をPythonでちゃんと実行してみる
いよいよ、自分の手で本格的に機械学習をやってみます。
ここでは、実際にデータを使い、実務と同じような手順でデータを分析して何かを判断したり、予測したりという練習をします。本は以下の6冊です。
一番初めは「Python実践データ分析入門 キホンの5つの型」から始めましょう。
実際のデータサイエンスを想定したPythonコードの書き方や、ファイルの読み書きなどを順番に勉強できます。
次は「Pythonで儲かるAIをつくる」で実際のデータサイエンスと同じ手順を追体験します。
ネット上に公開されているオープンデータを使って、以下のかなり実践的なデータ分析を体験できます。
- 営業が制約するかどうかの予測(分類)
- 天候による売り上げ予測(回帰)
- 季節などの周期性で売り上げ予測(時系列分析)
- パーソナライズされたおすすめ商品の提案(アソシエーション分析)
- 顧客層に応じた販売戦略(クラスタリング、次元圧縮)
どれも実務で使えそうな分析じゃないですか?
もちろん、細かい調整を飛ばして手法を追体験していくので予測率などは実務に劣りますが、それでも貴重な経験ができます。
知識の確認に「G検定」の取得を
ここまでで、データサイエンスの全体像やPythonは結構把握しているはず。なので、余裕があればここでも「G検定」という資格取得を考えてみてください。
G検定は、一般社団法人日本ディープラーニング協会(JDLA)が実施する、AI・ディープラーニングの活用リテラシー習得のための検定試験。ディープラーニングを事業に活用するための能力や知識が問われる資格です。
データサイエンスに関わる重要な仕組みや背景を網羅的に習得できるかなりおすすめな資格です。
僕がG検定を取得した方法は「文系未経験から独学でG検定を取得した方法」を確認してみてください。
もっと実践的な分析スキルを身につけたい時は?
ここまでで、データサイエンスの独学はほぼ完了。あとはディープラーニングとか、実践経験を積んでいけばOKなレベルに到達しているはずです。
でも、これでいきなり実践はハードルが高い…という人は、最後の仕上げに色々なデータをうまく扱って分析できるようにしましょう。使う本は以下の4冊です。
「Python 100本ノック」シリーズは、データに欠損や外れ値がある”汚いデータ”の扱いや、ひとまず作成できた分析モデルの”精度をさらに上げる”方法を勉強できます。
ここまで来ると、使っているデータが違うだけでやっていることは実践と同じなので、自信を持って先に進んでいいと思いますよ。
余裕があればディープラーニングもPythonでちゃんと実行してみる
もしあなたのやりたいことがディープラーニングの場合や、余裕がある場合には以下の本もやってみましょう。
全て、ディープラーニングについて分かりやすくまとまった入門書です。
ディープラーニング(深層学習)は、大まかに「画像解析」「自然言語解析」「音声解析」「生成系」に分かれます。
その時に多く使われるのが「PyTorch」というPythonライブラリで、「最短コースでわかる PyTorch &深層学習プログラミング」では画像解析に関するディープラーニングを詳しく勉強できます。
上記の「現場で使える! Python自然言語処理入門」は自然言語解析に特化した入門書で、かなり実践を意識した内容なので、これをやっておけば実際の自然言語処理の現場でもかなり役立つと思います。
より進んだ自然言語処理を勉強したいなら「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」がおすすめです。
BERTやTransformersは、今話題の「ChatGPT」のメイン技術なので、この本で勉強すればChatGPTを作る技術に触れることができます。
「人気ブロガーからあげ先生のとにかく楽しいAI自作教室」はとにかく楽しくディープラーニングを勉強するための一冊です。何にも分からない人でもPythonでディープラーニングを実装できます。
具体的には「ジャンケンの手を解析する」「ツイートを生成する」「ルンバを制御する」などの面白い内容が詰め込まれています。実務レベルからはちょっと精度が悪いですが、実際に動くのはかなり楽しいのでおすすめ。
Step4:実際にビジネスレベルのデータサイエンスをやってみる
さて、ここまでで機械学習とディープラーニングの入門に触れてきました。最後は仕上げとして実際にビジネスレベルのデータサイエンスをやってみましょう。
具体的には、KaggleやSIGNATEといった分析コンペのサイトに登録して、本物のデータ分析を行ってみます。ここまで来たあなたなら、技術は大丈夫。あとは決心するだけです。
実際のデータサイエンスをやると、次の課題が見えてくる
実際にコンペに参加してみると、思ったよりもデータの前処理や特徴量エンジニアリングに迷ってしまったり、モデルの予測精度が低いことに気づくはずです。
そうした時に、さらに上を目指すための本を紹介します。
ちなみに、このレベルのあなたは、もう新米データサイエンティストと名乗れるレベルです。無限に続くデータサイエンスの探求を続けていきましょう!
「データサイエンティストのための特徴量エンジニアリング」は特徴量エンジニアリングの手法が多く網羅されている時点のような本です。
あと何かできる特徴量エンジニアリングは無いかな?と思った時にめっちゃ役に立つ一冊です。
上記の4冊は、実際にKaggleやSIGNATEといった分析コンペのサイトで優秀な成績を残している人たちのテクニックを紹介した本です。
読んでどうこうというわけではなく、自分が分析コンペを進めていく中で参考にできる良書。プロのデータサイエンティストも見ている本なので質も高いです。
データサイエンスの勉強本のラスボス的存在ですね。僕もまだまだ消化しきれていないです。
Step5:SQLの勉強をする
ちなみに、データサイエンスの勉強の後でも良いので、SQLの勉強をしておくと良いと思います。
SQLとは、「Structured Query Language」の略ですが、プログラミング言語とは違って、データを操作するための言語です。
データ分析に使うデータは大容量なので、ほぼ確実にデータベースに保存されています。SQLは、そんな大量のデータを効率的に取得・更新・削除・追加するために使用されます。
そんなSQLなので、書き方はPythonよりも大分簡単ですがデータサイエンスの実務では必須です。
「このデータベースから、この条件のデータを取り出して」という感じのコードの書き方を覚えるだけなので、以下の一冊で十分です。
SQLができると、実務での活躍の幅も大きく広がるのでぜひチャレンジしてみてください。
独学するときの注意点【体験談から話す】
僕がデータサイエンスを勉強していて感じた注意点も、まとめておきます。
注意点1:全てを理解しようとしない
データサイエンスは非常に高度で専門的な分野です。勉強していると分からないことが絶対に出てきますが、そこで立ち止まるのは良く無いと思います。
分からなければ一旦飛ばして、次の内容に進んだ方が得策です。
僕も、別のことを勉強しているうちに分かるようになるって経験がかなりありました。一つ一つを完全理解しながら進めることは逆に効率が悪いので、「大体OKなら進む」感覚でやっていきましょう!
注意点2:情報のインプットだけで終わらないようにする
データサイエンスは覚える内容が多いので、ついつい覚えて分かった気になっちゃいます。
しかし、何かを覚えたと思った時は、必ずアウトプットして自分のものにしてください。
例えば、機械学習の手法を覚えたら声に出して説明してみるとか、本に従いPythonでデータ分析をしたら自分で何もみずに同じ作業にチャレンジしてみるとかです。
自分のスキルとして使えて初めて、データサイエンスを本当に習得したことになるので、アウトプットを忘れないでください。
データサイエンスを勉強する時のQ&A
僕がデータサイエンスの勉強を始める前に気になったことに回答しておきます。
- データサイエンスに必要な勉強時間はどれくらい?
- 資格はとった方がいいの?
- 勉強して理解できる気がしないんだけど?
- データサイエンスを学んでよかった?
- 本がたくさん紹介されてるけど、本は苦手なんだよね
- 勉強したデータサイエンスをどう活かす?
気になる内容があれば、ぜひ確認してください。
データサイエンスに必要な勉強時間はどれくらい?
その人が持っている前提知識などによって変わると思いますが、僕の場合は勉強開始から資格の取得、SIGNATEへ挑戦するまでに約3ヶ月かかりました。
僕の経歴は以下の感じなので、理系の人ならもっと早いと思います。
- 現職は一般事務職
- めっちゃ文系
- 大学受験時、センター試験の数学1Aが60点、数学2Bは18点
- 大学時代、心理学専攻で統計学を2科目くらい受講
- プログラミング経験は無し
- データサイエンス経験も、もちろん無し
3ヶ月の間みっちりやったというわけではなく、多分平日が2時間、休日が5時間くらいの学習時間でした(資格取得の勉強も含めて)。
資格はとった方がいいの?
取らないといけないわけじゃ無いですが、とった方が信頼されると思います。
転職とか考えているなら、絶対持ってた方がいいと思います。
ただ、資格=実務ができる証明ではないので、KaggleやSIGNATEへの挑戦も必須です。
勉強して理解できる気がしないんだけど?
わかります。僕も勉強を始める前は同じことを思ってました(笑)
でも、一番初めに全体像だけ把握してしまえば、あとは成り行きで結構うまくいきます。気が引けるのはわかりますが、まずは下記の2冊の本を買って読んでみることから始めてください。
データサイエンスを学んでよかった?
めっちゃ良かったです。全然後悔してません。
転職ができる、という嬉しさもありますが「自分がAI(機械学習やディープラーニング)を使える人である」というのがすごく特別感があって嬉しいです(笑)
パソコン一台あれば、データから未来を予測できるようになるって凄くないですか?
本がたくさん紹介されてるけど、本は苦手なんだよね
確かに、動画とかで学びたい人は多いでしょう。
でも現状、データサイエンスはまだそんなに一般的な分野じゃないので、質の高い教材は本くらいしかありません。なので申し訳ないですが本で勉強してみてください。
とはいえ、僕がこの記事で紹介した本は、全て小説チックというか、口語調で書かれた本なので誰でも読みやすいはず。大学で教材になってる難しい書き方の本は僕も嫌いです。
本は書き方によって同じ内容でも分かりやすさが全然違うんですよ。詳しくは以下の記事で。
勉強したデータサイエンスをどう活かす?
データサイエンスを勉強した後は、主に3つの活かし方があります。
- プライベート、副業に活かす
- 転職に活かす
- 自分の今の業務に活かす
せっかくデータサイエンスを勉強したのにそのまま、というのは勿体無いです。
数少ないデータサイエンティスト人材として、自分の生活に役立てたり、転職して生活を豊かにする未来を考えてみてください。
現実世界でのデータサイエンスの活用事例は?
データサイエンスは現実のあらゆる分野で活用されています。大量のデータを集めている現場なら、多様な業界で必ず活躍の場があります。
- 疾患の早期診断: 分類を使って患者が罹患しているかを判断。
- 顧客の購買行動分析: 顧客の購入履歴や閲覧履歴からパーソナライズされた商品をおすすめ。
- クレジットスコアの予測: お金を貸し出したときのリスクを評価。
- 交通渋滞の予測: 交通渋滞を予測し、解消策を提示。
- エネルギー消費の最適化: エネルギー消費を予測し、使用量を調節。
まとめ
今回の記事では、データサイエンスの基礎から実践的な学習方法、さらには実世界でのケーススタディまでを網羅しました。
データサイエンスは多くの分野で活用されており、その勉強はあなたの価値をググッと上げてくれます。ぜひ、データサイエンティストとしてのキャリアを始めてみてください!