データサイエンスとは、統計学や数学、プログラミング、そして研究対象となる分野の専門知識などを組み合わせて、多種多様なデータの解析を行い、データから有益な知見を引き出すことである。インターネットの普及やIoTデバイスの増加などにより、膨大な量のデータが生成されるようになってきたことから注目度は上がり続けている。それに伴い、データサイエンスに精通した専門家の需要が急速に増加している。村上教授は言う「応用数学科の学生からもデータサイエンティストになりたいという声はよく聞きます。やりたい分野は、生物学、経済学、医学、薬学、社会学などさまざまです」。そうしたデータサイエンスの基本となるデータ解析を学ぶのが、ここで紹介する『データ処理』の授業である。これまで数学や統計学などの必要な基礎知識を積み上げてきた3年生が、データの特性を見出す力を養い、具体的な統計手法を学び、さらには統計解析ソフトを用いたデータ解析の課題に取り組み、データ解析を行う上で必要な知識と技術を身に付けるのである。
実際のデータ解析では、何かしらの統計解析ソフトを使ってデータ解析を行う。授業でも統計解析ソフトを使って課題に取り組むのであるが、目的はそうした作業を覚えることではもちろんない。データサイエンティストが扱うデータの種類やデータ構造はさまざまであり、それに対して用いる解析手法もさまざまということになる。そうしたあらゆるケースに対応できる知識と技術の習得が大切なのである。他のプログラミング言語を使う場合と比べると、授業で使用していた統計解析ソフトを使うこと自体は難しくない。授業で行われていた重回帰分析の例題でも、数行の入力で済んでいた。村上教授は言う「データ解析のさまざまなコードを知っていても、ベースとなっている統計理論までしっかり理解していなければ、たまたま出た都合の良い結果を鵜呑みにしてしまうことにもなりかねません。理論と応用の知識は車の両輪のようなものであって、その両方を兼ね備えて初めて有効な分析ができるのです」。データそのものを正しく理解して扱えるようになるためには、体系的な学びで培う知識と経験が必要なようだ。
データ解析ができるということは、データ解析に必要な統計手法の理論が分かっていること。そして、データを正しく扱えるということがデータサイエンティストに欠かせない資質のようだ。村上教授は言う「過去の例にこういう統計手法でデータ解析を行っていて、今回も似たデータ構造をしているので同じようにやってみましょうということで済めばいいのですが、まったく違う構造のデータが得られたときに、理論を分かっていないと過去に使用した統計手法を使っていいのか分からず、もしくは既存の方法を改良することができずに困ってしまいます」。データサイエンティストとして就職して活躍できる企業は製造業、金融系、IT系などさまざまである。データ解析に使われる統計解析ソフトやプログラム言語も、扱うデータも、当然のことながら各企業によって変わってくる。だからこそ、統計学の理論をしっかりと身に付けておいてほしいという企業の方の声は多いそうだ。今このときも、データへの注目は高まり続けている。
■
主な研究内容
複数個体の脳活動に注目し、
集団形成のプロセスを明らかにする。
総合研究院 パラレル脳センシング技術研究部門
創域理工学部 機械航空宇宙工学科
竹村裕教授
総合研究院 パラレル脳センシング技術研究部門
先進工学部 生命システム工学科
瀬木恵里教授
2023年04月07日
グリーン水素の製造、利用技術を確立し、
CO2を出さない社会を目指す。
総合研究院 カーボンバリュー研究拠点
理学部第一部 応用化学科
工藤昭彦教授
総合研究院 カーボンバリュー研究拠点
工学部 工業化学科
田中優実准教授
2023年03月27日
国内外・学術分野も超え
「水」を研究するウォーターフロンティア研究センター
ウォーターフロンティア研究センター
工学部 機械工学科
元祐昌廣教授
理工学部 先端化学科
酒井健一准教授
2021年09月01日