Deep Learning AMIをGPUインスタンスで使ってみた

こんにちは。hacknoteのr.katoです。

前々回は、そもそも環境構築ができず、
前回は、CPUインスタンスを使ってCNNによるmnistの分類をしました。

でもまあ、機械学習、CNNと言ったらGPUインスタンスでしょっ！

ということで、今回はGPUインスタンスでCNNによるmnistの分類をしていきます。

そもそもなぜGPU？
CNNというニューラルネットワークは畳み込みやpoolingといった行列計算をエゲツない数を同時にこなす必要のあるものです。しかし、よくパソコンの頭脳と言われるCPUは行列計算が不得意です。そこで、行列計算が得意で高速な学習と識別が可能なGPUが使われるようになりました。

やったこと

推奨環境(GPU)でDeep Learning AMI(DLAMI)を使ってkerasサンプルコードのmnistを実行する。

インスタンス情報

g3s.xlarge
Deep Learning AMI (Ubuntu 18.04) Version 26.0 ami-07729b5941107618c
Driver 418.87.01
CUDA 10.1
cuDNN 7.5.1
NVIDIA Tesla M60
python 3.6.5 anaconda
tensorflow 2.0.0
keras 2.3.0
ボリュームタイプ standard 100GB

実際に実行したサンプルコード

下記のkerasが提供しているサンプルコードに実行時間を出力するコードを加えました。
また、何も指定しないとプログラム実行時にtensorflowとkerasでGPUのメモリを最初に専有してしまい、速度低下が発生してしまうため、必要になったらGPUのメモリを使用するようにするコードを加えて実行しました。

ちなみに、CPUインスタンスの時と同じコードを実行したら、515secかかりました。

https://github.com/keras-team/keras/blob/master/examples/mnist_cnn.py

実際の様子

login

同じAMIを使っているので、sshでログインしたときの様子は前々回と前回と完全に同じです。

Anacondaの仮想環境をactivateする

今回は前回と同じく、tensorflow2がバックエンドで動くkeras2の環境を使いたかったので、

source activate tensorflow2_p36 を実行しました。

一瞬でactivateされました。

CPUインスタンスの際はライブラリの入れ替えがあったため、3分ほど待つ必要がありましたが、今回は最初から入っているライブラリをそのまま使えるため、一瞬でactivateされたようです。

その時の出力は次のようになっていました。

ubuntu@ip-xxx-xx-xx-xxx:~$ source activate tensorflow2_p36
WARNING: First activation might take some time (1+ min).
Installing TensorFlow optimized for your Amazon EC2 instance......
Env where framework will be re-installed: tensorflow2_p36
Instance g3s.xlarge is identified as a GPU instance, removing tensorflow-serving-cpu
Installation complete.

サンプルコード mnist_cnn.pyの実行

コードをこちらのページからダウンロードしてきて冒頭で述べたように変更し、実行しました。

このサンプルコードはmnistデータベースという分類問題によく使われる手書き文字を、CNNという畳込み計算とpooling計算とニューラルネットワークを組み合わせたもので分類するものです。

実行結果を折りたたんで貼っておきます。

▼ 実行結果(クリックで展開)

(tensorflow2_p36) ubuntu@ip-xxx-xx-xx-xxx:~$ python mnist_cnn.py 
Using TensorFlow backend.
memory growth: True
x_train shape: (60000, 28, 28, 1)
60000 train samples
10000 test samples
Train on 60000 samples, validate on 10000 samples
Epoch 1/12
60000/60000 [==============================] - 8s 133us/step - loss: 0.2544 - accuracy: 0.9228 - val_loss: 0.0610 - val_accuracy: 0.9798
Epoch 2/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0902 - accuracy: 0.9732 - val_loss: 0.0483 - val_accuracy: 0.9837
Epoch 3/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0654 - accuracy: 0.9806 - val_loss: 0.0360 - val_accuracy: 0.9879
Epoch 4/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0549 - accuracy: 0.9839 - val_loss: 0.0331 - val_accuracy: 0.9881
Epoch 5/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0462 - accuracy: 0.9864 - val_loss: 0.0311 - val_accuracy: 0.9890
Epoch 6/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0414 - accuracy: 0.9875 - val_loss: 0.0292 - val_accuracy: 0.9903
Epoch 7/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0366 - accuracy: 0.9894 - val_loss: 0.0290 - val_accuracy: 0.9903
Epoch 8/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0337 - accuracy: 0.9894 - val_loss: 0.0301 - val_accuracy: 0.9909
Epoch 9/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0331 - accuracy: 0.9898 - val_loss: 0.0283 - val_accuracy: 0.9908
Epoch 10/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0316 - accuracy: 0.9898 - val_loss: 0.0295 - val_accuracy: 0.9907
Epoch 11/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0291 - accuracy: 0.9910 - val_loss: 0.0281 - val_accuracy: 0.9915
Epoch 12/12
60000/60000 [==============================] - 6s 104us/step - loss: 0.0254 - accuracy: 0.9918 - val_loss: 0.0305 - val_accuracy: 0.9911
Test loss: 0.03045075720713794
Test accuracy: 0.991100013256073
経過時間1：79.74062728881836

Gets to 99.25% test accuracy after 12 epochs とサンプルコードにあるとおり、だいたい同じ結果がでました。

また、実行時間は

Maschine	run time[sec]
iMac (21.5-inch, Late 2015)	712.4355142116547
c4.large	1102.43935227394
g3s.xlaege	79.74062728881836

となっており、案の定、GPUインスタンスでの実行がダントツTopでした。

おわりに

前回、CPUインスタンスを使った際はインスタンス作成後に環境構築で少々待ち時間が発生していましたが、今回はほぼありませんでした。

GPUを使った機械学習は環境構築で時間がかかってしまったり、躓いたりと、機械学習をしてるんだか、GPUの設定をしているんだかわからなくなってくることが多かったのですが、DeepLearningAMIの登場でこの問題は解消されそうです。

そもそもなぜGPU？