2019年12月4日に発表されたAmazon SageMaker Autopilotについての解説です。
なぜAutopilotが開発されたか
機械学習をするにあたって多数のアルゴリズムから、自分たちのビジネス課題に最適なアルゴリズムを見出す必要があり、人が調整しなければならないハイパーパラメータを設定するなど、様々な試行を人間が繰り返す必要があります。
この問題を解決するためにAutopilotが開発されました。
なにがAutopilotで出来るか
AutopilotにはAPIが用意されているので、このAPIを叩くかAmazon SageMaker Studioを使って数クリックするとAutopilotが用意したデータセットを検査し、データ前処理、機械学習アルゴリズム、ハイパーパラメータの最適な組み合わせを見つけるためにたくさんの試行を行います。
さらにAutopilotはどのようにデータが前処理されたかを示す Python コードを生成します。これにより、後から自分でいじりたくなったときでも、このコードを利用することができます。
Autopilotは現在以下に対応しています
- tabularデータフォーマットに対する自動データクリーニングと前処理
- 線形回帰、2値分類、多値分類の自動アルゴリズム選択
- 自動ハイパーパラメータチューニング
- 分散学習
- インスタンス、クラスタサイズの自動選択
対応リージョン
現在以下に対応しています
- US East (N. Virginia), US East (Ohio), US West (N. California), US West (Oregon)
- Canada (Central), South America (São Paulo)
- Europe (Ireland), Europe (London), Europe (Paris), Europe (Frankfurt)
- Middle East (Bahrain)
- Asia Pacific (Mumbai), Asia Pacific (Seoul), Asia Pacific (Singapore), Asia Pacific (Sydney), Asia Pacific (Tokyo)
公式サイトにサンプルコードが掲載されているのでぜひ参考にしてください!