AI 学習サービス Aidemy (アイデミー) の、3 か月コース「AIマーケティングコースを
一部体験させていただけることになりました!
なので、そこで学んだことを、皆さまにもシェアできればと思い、授業メモを取ることにしました。
(もちろん、私のこの個人メモを見るよりも 実際の Aidemy さんの動画教材 を見た方が 1024 倍勉強になります)
(前回の記事:『AI 学習サービス Aidemy 受講メモ 03 「機械学習の3分類」(教師あり学習 (分類, 回帰), 教師なし学習, 強化学習)』)
今日の話題- 機械学習の流れ
(『2.1.1 機械学習を行うフロー』より)
今日は、機械学習の流れについてのお話をします。
教師あり学習(分類)の例:
- データ収集
- データクレンジング(重複や欠損データなどを取り除いて、データの精度を高めること。データの前処理。)
- 機械学習手法でデータを学習(基準の取得)
- テストデータで性能をテスト
- 機械学習モデルを Web などに実装
(YouTube『2.1.1 機械学習を行うフロー』より)
実際は、
ステップ2 (データの前処理) から
ステップ4 (モデルのテスト) までのサイクルを
ぐるぐる繰り返して、
より正解率の高い学習済みモデルを作る
ということをしている。
元動画、元教材
すべて Aidemy (アイデミー) さんの コンテンツです。
形式 | リンク |
---|---|
動画 | 『2.1.1 機械学習を行うフロー』 |
テキスト | 『2.1.2 機械学習を行うまでの全体の流れ』 |
YouTube 動画 | 『機械学習を行うフロー』 |
YouTube 動画 | 『データはどれくらい必要なのか?』 |
1. データ収集
まずは、学習やテストに使う大量のデータを集めることになります。
今回は「手書き数字認識」のケースを例にしているので、
集めるデータとして
手書き数字画像を
約 7 千枚 x 10 カテゴリ (0-9)、用意します。
データの数は多ければ多いほど良いけれど、
これくらい用意すれば十分だろうということで
合計 7 万枚、
0-9 までの 10 カテゴリの正解ラベルの付いたものを用意。
(データの集め方とかどれくらい集めたらよいのかは、こちらのアイデミーさんの動画が参考になります
『データはどれくらい必要なのか?』)
データが用意出来たら、まずは前処理を行う。
2. データクレンジング(前処理)
データの前処理。
前処理のやり方にもいろいろあるけど、
試行錯誤しながら最も正解率の高まるやり方をするのが一般的。
例)
- 画像のサイズを統一化する
- すべての画像をモノクロ化する
- 画像のノイズを取り除く
など。
実際の業務では、このデータ収集からデータの前処理に使われる時間が
全体の業務時間の 7 – 8 割と言われることもあり、
けっこう地味で大変な作業になることが多い。
(データサイエンティストの仕事にかかる時間の 8 割以上は 「データの収集やクレンジング」 と言われている。)
3. 学習
実際に集めたデータの一部を使って機械学習モデリングを行う。
7万枚のデータすべてを学習に使うことはしない。だいたい7~8割くらい使う。残りはテストデータとして使う。
4. 作ったモデルの性能をテスト
先ほど学習に使わなかったデータを
学習済みモデルに投入することで
何パーセント正解するのかを見ていく。
何パーセント正解するかによって、この学習済みモデルの良し悪しが分かる、という形。
5. モデルを公開
最後に、作ったモデルの公開を行う。
実際に、この学習済みモデルを使って
分類したり運用する。
今回の、ハガキの手書き文字認識の例でいうと、
学習済みモデルで推論処理を行う、というソフトウェアを
自動仕分け機の中に入れて
ハガキを投入する。
そうすると、その自動仕分け機のなかで、
郵便番号が何番なのか
ということを自動で認識して、
郵便番号ごとに自動でハガキを振り分けていく、というかんじ。
まとめ
機械学習の流れ
教師あり学習(分類)の例:
- データ収集
- データクレンジング(重複や欠損データなどを取り除いて、データの精度を高めること。データの前処理。)
- 機械学習手法でデータを学習(基準の取得)
- テストデータで性能をテスト
- 機械学習モデルを Web などに実装
Next Step
次は学習データについて勉強します。
データどれくらい必要なのとか
データ足りないときどうするのとか
[…] 次の記事→『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』 […]
[…] (前回の記事:『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』) […]
[…] (前回の記事:『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』) […]
[…] 機械学習の流れ […]
[…] (前回の記事:『AI 学習サービス Aidemy 受講メモ 04 「機械学習の流れの全体像」』) (次回の記事:『AI 学習サービス Aidemy 受講メモ 06「教師あり機械学習におけるデータ分割方法」(ホール […]
まどかちゃんとセックスしたいです