こんにちは。データサイエンス学習2年目の野原たんぽぽです。
「データサイエンス」って、とても響きがかっこいいですよね。
私も初学者の時は「なんかかっこいい!直感的に惹かれる」という安直な理由と、当時転職界隈の職種としてトレンドだったのもあって、データサイエンス分野の勉強を始めることにしました。
勝手に抱いていたイメージ→すぐに崩壊
当初の勝手な「データサイエンティスト」のイメージは、クライアントからデータを渡され、グラフでわかりやすく可視化したり、説得力のあるプレゼンを行うことでビジネス的価値を生み出す、コンサルタント上級のようなもの。
(今思えば、このイメージは一般的なコンサルタントの仕事の一部そのもので、上級でもなんでもありません…苦笑)
「Pythonというプログラミング言語が持て囃されているし、それをちょちょいと使いこなせるようになればよりデータサイエンティストらしくなれるんだろうな〜💝」なんて思っていました。
しかし、データサイエンスの勉強を始めていくうちに、「あ、これそんな生半可な世界じゃないわ」とすぐに悟りました。
周りで活躍しているデータサイエンティストの方々を見ると、常人の何倍の努力を積み重ねており、そこで鍛錬した頭脳はいつでもキレキレ。「かっこいい職業」と感じた直感に誤りはなさそうなのは事実。
しかし、バックグラウンドのない初学者からそこを目指すためには、血の滲むような努力が必要だと感じているのも事実です。
今日はそんな私の「勝手なイメージ」が正された経験を、「ゼロからデータサイエンスを志す人がまず知っておきたいこと」としてお話ししてみたいと思います。
データサイエンスは「Excelでの簡単な分析」じゃない
データサイエンス関連の職種の方が、「データをいじる仕事をしています」なんて軽やかにいうこともあります。
「データをいじる」というと、Excelやスプレッドシートを想像するかもしれませんが、データサイエンスはそのレベルをはるかに超えた広がりをもつ世界です。
Excelで扱えるデータは数千行程度が限界だとして、データサイエンスでは時には数百万行のデータを効率的に処理する必要があります。
そこで必要となるのがPythonやRといった統計に強いプログラミング言語。初学者の方でも耳慣れた名前だと思います。
一般的に、一つのプログラミング言語を習得するのに必要と言われるのは数百時間、もしくは年単位の年月1。
生成AIの発展で、プログラミングを完全にマスターすることの価値は薄れてきているという意見もあります。しかし、全く言語を知らずにAIに書かせているだけでは、何が行われているのかわからず危険です。
少なくとも言語を読解できるレベルには確実に習得するという覚悟は必要になるでしょう。
大学レベルの数学、学べる?
数学アレルギーで、数学を学ぶ意欲がまったく起きないという人は、目指すべき職種を真剣に考え直した方がいいかもしれません…。
まず、一番シンプルな「データの分析結果をどう解釈するか」という仕事には、統計学や計量経済学の知識が欠かせません。もちろん、段階的な学習を踏めば習得できるものですが、大学レベルの数学知識も必要になってきます。
また、機械学習・AIといった分野になると、さらに高度な数学的知識が必要とされます。
大学の学部も理系で、大学院までしっかり学んできたという人材がデータサイエンス分野にはごろごろいます。
データサイエンティストの募集要項を見ると、「理系学部3・4年レベルの数学的知識を有していること」と書いてあることも珍しくありません。
例えば、機械学習分野には多種多様な分析の手法があります。
それらを数式抜きで表面的に「こういう仕組みで、出力された数値のここを見れば結果もなんとなくわかるよね」という理解で使えたとしても、本当にその分析の中身で何が行われているかということが理解できないわけです(これをブラックボックスと呼びます)。
そんな結果を顧客に自信を持って提示できるか、といわれると、自信がなくなってしまいます。
だからといって、「数学、そこまでできません…」という人が諦めなければならないというわけではありません。
自分特有のスキルをつけて、違うフィールドで戦うという戦法もあります。
また、会社によってはデータサイエンティストという職種に求める要件がそこまで厳しくない場合もあります。
もしくは数学の知識だって、生成AIを使えば自分のレベルに合わせて噛み砕き、無料で学習できるような時代です。
まず「自分にそこまで数理的・統計的な知識を学び続ける意欲/適性があるか?」ということは、はじめに考えておいた方がよさそうです。
データ「だけ」扱えればいいわけではない
私は元々AIの分野に強く興味があって、でも「AIを作っていくようなつよつよエンジニアには、私はなれなさそうな気がする」だから、「データサイエンティストなら憧れの分野に近いけど、自分にはできなさそうなこと(AIの構築とか)は遠ざけられそう」なんて思っていました。
しかし、そんな考えも甘かった。
データサイエンティストはAIや機械学習、深層学習(ディープラーニング)も使いこなせなくてはいけません。
使いこなすどころか、AI/機械学習モデルを作るという部分もデータサイエンティストの業務の範疇です。
ですので考え方を変えて、自分には無理かもと思っていた分野も、しっかり学んでいくことに決めました。
学習を始めた当初の勉強目標は、資格でいうと
「統計検定2級」「Pythonエンジニア認定試験」程度でしたが、
現在の学習では
「G検定」「E資格」「基本情報・応用情報」「データベーススペシャリスト」「ITストラテジスト」なども目標にしています。
上記は資格で例を挙げましたが、実務経験も欠かせないと思い、長期インターンやKaggle等のコンペティションを通じて、自分でコードを書いたり、モデルを作ったりする学習も進めています。
泥臭い仕事が多い
最初に挙げた勘違いのように、「データサイエンティストの仕事は華やかで、理路整然としたスライドを作り、AIを使った未来予測を、高い精度とともに顧客に華麗にプレゼンをする…」なんてイメージが強いかもしれません。
やはりこれも、幻想のようでした。
実際にデータサイエンティストの業界で大活躍されている方の講義を何度か聴講しました2。
そこで皆さんが口を揃えて仰るのが、「実際の業務のほとんどは泥臭い部分に費やされている」ということ。
具体的に「泥臭い仕事」とは、データの前処理・クレンジングといった作業を指しています。
あらゆるデータは、常にすぐにAIや機械学習のモデルに読み込ませられるように綺麗に整っているわけではありません。
データがあると顧客に聞いたのに、全部紙のデータだったとか、CSVのデータをもらったので中身を見たら、担当者によっててんでばらばらに記録されていたりだとか…
そういったデータをすべて機械が理解できるように直したり、単位や形式を揃えたり、表記を整えたりするというような膨大な作業が、データ分析の前に待ち受けています。
もちろん役職が上がればそういった作業を部下に任せたり、予算の多い会社ならその作業専門の職種の人がデータサイエンティストを手伝ってくれるかもしれません。
しかし、少なくとも最初は自分がそういった細かく地道な作業を行う可能性が高いという覚悟を持った上で、「それでもこの分野が好きで続けられそうか?」という部分を、自分に問うておく必要があるでしょう。
何か特定の知識を身につければ終わりではない
初学者からデータサイエンティストになるために、資格勉強を頑張ろうとしている人は多いと思います。
しかし、データサイエンスという分野はあまりに膨大ですし、技術の進歩に伴って変化が速いので、何かの知識を一度きり学べば、それで一生仕事が続けられるという保証はありません。
例えば機械学習/AIの分野であれば最新の研究論文を英語で探して読みこなし、実際に使うという姿勢だって時には必要です。
この業界にいる限り、「学び終わり」ということはないでしょう。
もちろん、データサイエンスを初学からでも頑張りたいという強い気持ちを持っている方は、きっとある程度の学習が進んでも、学ぶ手を緩めることはないと想像します。
一生学び続けていくという覚悟、というよりは、「自分は学び続けるという姿勢が好きか、自然にそれができるか?」ということを自分に問うてみるのがいいと思います。
あらためて伝えたいこと
私も最初は「なんとなくかっこいいな」という憧れから勉強に入りました。
そしてその気持ちが未だ強いモチベーションとなっているのは事実です。
しかし、上記に述べてきたように、普通に勉強なしでぼーっと暮らしているだけでは、当たり前ですがデータサイエンスの仕事はできません。以下にもまとめたように、
- データサイエンスではプログラミング言語の知識は必須
- 大学レベルの数学学習が必要になることもある
- データだけでなくAI/機械学習も扱う
- 泥臭い仕事も多い
- 学び続ける姿勢は常に求められる
このような現実を受け止めても、自分がこの業界・勉強が好きになれるかということを考えた上で、自分のキャリアを考えていく必要があるでしょう。
もし現実を受け止めた上で勉強を頑張っていきたいという方は、一緒に頑張っていきましょう!💪
今後もこのブログで、私のデータサイエンス学習について発信していけたらと考えています。
関連リンクとして、多くのデータサイエンティストを抱えるブレインパッド社による『【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル』がとてもデータサイエンティストの実務内容や必要スキルに詳しいので、ぜひ読んでみてください。
この記事を見て、無理だと思った方も
この世界には星の数ほどの仕事があります。
自分が進みたい業界×今の自分でできることという組み合わせを突き詰めれば、きっと適した職が見つかるはずです。
例えば、『ChatGPT時代の文系AI人材になる』(野口竜司)という本では、ChatGPTなどの人の言葉による指示で動くAIを、言葉で動かす文系人材の必要性(プロンプトエンジニアなどの職がある)が書かれています。
データサイエンス分野では理系つよつよ人材に勝てないと思っても、逆にその人たちが苦手な部分で自分が勝負できれば、そこに自分の需要が生まれる可能性があるんです。
憧れだけでそもそも転職できなかった、もしくはギリギリ業界に入れても周りについていけなくてしんどくなるよりは、自分が活躍できるフィールドで活躍できればより幸せなのではないかと思っています。