データサイエンスとは、統計学や数学、プログラミング、そして研究対象となる分野の専門知識などを組み合わせて、多種多様なデータの解析を行い、データから有益な知見を引き出すことである。インターネットの普及やIoTデバイスの増加などにより、膨大な量のデータが生成されるようになってきたことから注目度は上がり続けている。それに伴い、データサイエンスに精通した専門家の需要が急速に増加している。村上教授は言う「応用数学科の学生からもデータサイエンティストになりたいという声はよく聞きます。やりたい分野は、生物学、経済学、医学、薬学、社会学などさまざまです」。そうしたデータサイエンスの基本となるデータ解析を学ぶのが、ここで紹介する『データ処理』の授業である。これまで数学や統計学などの必要な基礎知識を積み上げてきた3年生が、データの特性を見出す力を養い、具体的な統計手法を学び、さらには統計解析ソフトを用いたデータ解析の課題に取り組み、データ解析を行う上で必要な知識と技術を身に付けるのである。
実際のデータ解析では、何かしらの統計解析ソフトを使ってデータ解析を行う。授業でも統計解析ソフトを使って課題に取り組むのであるが、目的はそうした作業を覚えることではもちろんない。データサイエンティストが扱うデータの種類やデータ構造はさまざまであり、それに対して用いる解析手法もさまざまということになる。そうしたあらゆるケースに対応できる知識と技術の習得が大切なのである。他のプログラミング言語を使う場合と比べると、授業で使用していた統計解析ソフトを使うこと自体は難しくない。授業で行われていた重回帰分析の例題でも、数行の入力で済んでいた。村上教授は言う「データ解析のさまざまなコードを知っていても、ベースとなっている統計理論までしっかり理解していなければ、たまたま出た都合の良い結果を鵜呑みにしてしまうことにもなりかねません。理論と応用の知識は車の両輪のようなものであって、その両方を兼ね備えて初めて有効な分析ができるのです」。データそのものを正しく理解して扱えるようになるためには、体系的な学びで培う知識と経験が必要なようだ。
データ解析ができるということは、データ解析に必要な統計手法の理論が分かっていること。そして、データを正しく扱えるということがデータサイエンティストに欠かせない資質のようだ。村上教授は言う「過去の例にこういう統計手法でデータ解析を行っていて、今回も似たデータ構造をしているので同じようにやってみましょうということで済めばいいのですが、まったく違う構造のデータが得られたときに、理論を分かっていないと過去に使用した統計手法を使っていいのか分からず、もしくは既存の方法を改良することができずに困ってしまいます」。データサイエンティストとして就職して活躍できる企業は製造業、金融系、IT系などさまざまである。データ解析に使われる統計解析ソフトやプログラム言語も、扱うデータも、当然のことながら各企業によって変わってくる。だからこそ、統計学の理論をしっかりと身に付けておいてほしいという企業の方の声は多いそうだ。今このときも、データへの注目は高まり続けている。
■
主な研究内容
教育であり、研究であり、学内外が交流する活動でもある。
新しい領域を創造するための創域の芽プロジェクト。
『数理科学科ダブルラボの発展』
創域理工学部 数理科学科 牛島 健夫 教授
創域理工学部 数理科学科 青木 宏樹 教授
創域理工学部 情報計算科学科 宮本 暢子 教授
『機電材料系学科・専攻を超えた学生間による企業研究』
創域理工学部 電気電子情報工学科
永田 肇 教授
『野田キャンパス理窓会記念自然公園における環境教育』
創域理工学部 経営システム工学科
伊髙 静 講師
2024年06月10日