Chomado's Blog
You Are Reading

AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」

0
機械学習

AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」


AI 学習サービス Aidemy (アイデミー) の、3 か月コース「AIマーケティングコース
一部体験させていただけることになりました!
なので、そこで学んだことを、皆さまにもシェアできればと思い、授業メモを取ることにしました。
(もちろん、私のこの個人メモを見るよりも 実際の Aidemy さんの動画教材 を見た方が 1024 倍勉強になります)

(前回の記事:『AI 学習サービス Aidemy 受講メモ 03 「機械学習の3分類」(教師あり学習 (分類, 回帰), 教師なし学習, 強化学習)』)

今日の話題- 機械学習の流れ

機械学習の流れ
(『2.1.1 機械学習を行うフロー』より)

今日は、機械学習の流れについてのお話をします。

教師あり学習(分類)の例:

  1. データ収集
  2. データクレンジング(重複や欠損データなどを取り除いて、データの精度を高めること。データの前処理。)
  3. 機械学習手法でデータを学習(基準の取得)
  4. テストデータで性能をテスト
  5. 機械学習モデルを Web などに実装


(YouTube『2.1.1 機械学習を行うフロー』より)

実際は、
ステップ2 (データの前処理) から
ステップ4 (モデルのテスト) までのサイクルを
ぐるぐる繰り返して、
より正解率の高い学習済みモデルを作る
ということをしている。

元動画、元教材

すべて Aidemy (アイデミー) さんの コンテンツです。

形式 リンク
動画 2.1.1 機械学習を行うフロー
テキスト 2.1.2 機械学習を行うまでの全体の流れ
YouTube 動画 機械学習を行うフロー
YouTube 動画 データはどれくらい必要なのか?

1. データ収集

機械学習の流れ

まずは、学習やテストに使う大量のデータを集めることになります。

今回は「手書き数字認識」のケースを例にしているので、
集めるデータとして
手書き数字画像を
約 7 千枚 x 10 カテゴリ (0-9)、用意します。

データの数は多ければ多いほど良いけれど、
これくらい用意すれば十分だろうということで
合計 7 万枚、
0-9 までの 10 カテゴリの正解ラベルの付いたものを用意。

(データの集め方とかどれくらい集めたらよいのかは、こちらのアイデミーさんの動画が参考になります
データはどれくらい必要なのか?』)

データが用意出来たら、まずは前処理を行う。

2. データクレンジング(前処理)

データの前処理。
前処理のやり方にもいろいろあるけど、
試行錯誤しながら最も正解率の高まるやり方をするのが一般的。

例)

  • 画像のサイズを統一化する
  • すべての画像をモノクロ化する
  • 画像のノイズを取り除く

など。

実際の業務では、このデータ収集からデータの前処理に使われる時間が
全体の業務時間の 7 – 8 割と言われることもあり、
けっこう地味で大変な作業になることが多い。

(データサイエンティストの仕事にかかる時間の 8 割以上は 「データの収集やクレンジング」 と言われている。)

3. 学習

実際に集めたデータの一部を使って機械学習モデリングを行う。

7万枚のデータすべてを学習に使うことはしない。だいたい7~8割くらい使う。残りはテストデータとして使う。

4. 作ったモデルの性能をテスト

先ほど学習に使わなかったデータを
学習済みモデルに投入することで
何パーセント正解するのかを見ていく。

何パーセント正解するかによって、この学習済みモデルの良し悪しが分かる、という形。

5. モデルを公開

最後に、作ったモデルの公開を行う。
実際に、この学習済みモデルを使って
分類したり運用する。

今回の、ハガキの手書き文字認識の例でいうと、
学習済みモデルで推論処理を行う、というソフトウェアを
自動仕分け機の中に入れて
ハガキを投入する。

そうすると、その自動仕分け機のなかで、
郵便番号が何番なのか
ということを自動で認識して、
郵便番号ごとに自動でハガキを振り分けていく、というかんじ。

まとめ

機械学習の流れ

教師あり学習(分類)の例:

  1. データ収集
  2. データクレンジング(重複や欠損データなどを取り除いて、データの精度を高めること。データの前処理。)
  3. 機械学習手法でデータを学習(基準の取得)
  4. テストデータで性能をテスト
  5. 機械学習モデルを Web などに実装

Next Step

次は学習データについて勉強します。
データどれくらい必要なのとか
データ足りないときどうするのとか


Madoka Chomado (ちょまど)

千代田まどかです。よく「ちょまど」と呼ばれます。Microsoft 社員。文系出身プログラマ兼マンガ家です。

(6) Comments

  1. […] 次の記事→『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』 […]

  2. […] (前回の記事:『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』) […]

  3. […] (前回の記事:『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』) […]

  4. […] (前回の記事:『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』) (次回の記事:『AI 学習サービス Aidemy 受講メモ 06「教師あり機械学習におけるデータ分割方法」(ホール […]

  5. みく says:

    まどかちゃんとセックスしたいです

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です