機械学習の初心者向け学習記事を寄稿しました

スポンサーリンク

機械学習に関連する技術をレシピ形式でトレース実践できる技術教育プラットフォーム「Axross Recipe」に、初心者向けの学習記事を寄稿しました。

記事のリンクはこちら

このレシピでは、データセットから機械学習によって回帰モデルを作成するために必須となる以下の4つの要素について、その手法を解説しています。

  • データクレンジング
  • 欠損値処理
  • 特徴量分析
  • 各種回帰アルゴリズムの評価

Axross Recipeについて

Axross Recipeは、無料会員登録を行うだけで、現役エンジニアが投稿した「手順書」(=レシピ)を基本無料で(一部有料記事もあります)すべて見ることができます。

Axross Recipeへのリンクはこちら

レシピの内容をそのままトレースすることで現役エンジニアが実践しているプロセスを丸ごと学習することができるため、初学者の方や経験の浅いエンジニアの方に大変オススメのプラットフォームです。

また、自然言語処理や画像認識などといった応用編の記事も多数投稿されているため、中級者の方や、専門とは別の分野に挑戦したいといった方にとっても有益なサイトです。

寄稿した記事の内容について

冒頭でも述べましたが、記事では機械学習を用いて回帰モデルを構築するための以下の一連の操作を実践しています。

  • データクレンジング
  • 欠損値処理
  • 特徴量分析
  • 各種回帰アルゴリズムの評価

データクレンジングと欠損値処理

一般的に「データセット」と言われるデータの集合体は、そのまま機械学習を適用できない形のものがほとんどです。
代表的な理由としては以下が挙げられます。

  • 文字列(人名やカテゴリ名など)を含んでいる
  • データの入力ミスがある
  • 欠損値(空欄)を含んでいる

このようなデータセットに対して、値をキレイに整理整頓して、数値だけのデータセットに手直しする必要があります。

会社などでは一つ一つ手作業で直していくことが多いかもしれませんが、機械学習などに用いるビッグデータの場合、これでは途方もない作業になってしまいます。

そこで、Pythonの関数を用いて、一括で、かつ合理的に値を修正するスキルが必要になります。

この記事では、おかしなデータの検索と修正を実践しながら解説しています。

特徴量分析

機械学習により良好な予測モデルを得るためには、特徴量分析も重要です。

予測したい目的変数に影響の強い特徴量を選別したり、データの値を工夫して変換したり、時には新しい特徴量を生み出したり…
と、データサイエンティストの手腕が問われる部分の一つです。

この記事では、簡単な特徴量分析を行い、特徴量の選別を行っています。

非常に奥が深い部分ですので、記事で実践した手法が最適ということは決してありませんし、いくらでも工夫ができる部分です。その入り口として、記事ではいくつかの方法を提供しています。

各種回帰アルゴリズムの評価

データセットの整理整頓が完了した後は、いよいよ予測モデルを作成します。

しかしながら、機械学習には多くの回帰(または分類)アルゴリズムが存在しており、その適・不適はデータセットによって様々です。
一般的に適用されやすいアルゴリズムはあれど、万能で完璧なアルゴリズムは存在しません。

そこで、いくつかのアルゴリズムを試し、比較して、最適なものをピックアップしなければなりません。

この記事では、代表的な4つの回帰アルゴリズムを用いて、データセットからそれぞれ回帰モデルを作成し、比較し、評価する手順を実践しています。

(本来はその後、ハイパーパラメータを調整する作業が必要になったりするのですが、あまりに長くなりそうだったので割愛しました。)

これら一連の操作によって、機械学習の流れを追体験することが可能です。

最後に

7/7現在で、すでに15人の方に実践頂き、★4.6/5.0と高評価を頂いています!

kaggleやってみたいんだけどデータセット見て泡吹いて倒れました…って方は是非一度記事をトレースしてみて下さい!

自分自身は、さらにデータサイエンスのスキルアップに励み、また記事を寄稿できるように頑張ります。

コメント

タイトルとURLをコピーしました