Amazon Rekognition:文字解析の単語数の制限について

Amazon Rekognitionの文字解析は、単語数の制限があり、その数は50となっています。

そのため、画像の中に51以上の単語があった場合には、それらは除外されます。

以下はデモの結果。

デモで試してみる

50より上の文字の結果がどのようになるのかデモで検証します。

数値だけだと文字解析がうまく行かなかったので+アルファベットで画像を生成。

デモの結果は以下のように。

50までの文字が解析(青枠)され、51は認識されません。

では文章の場合にはどうなるか。

以下画像を解析させてみました。

この画像を解析してみます。

「I’d pretend」などはありますが、基本的に単語単位で区切られて解析されます。

まとめ

解析の50単語ということは、文章の解析などに使うことは難しいです。

つまり、この制限がある限りは、会議のメモを解析する、写真で取った本をテキスト化するなどには不向きです。

Text in Image

Text in Image は、画像内にある街区名、字幕、製品名、自動車のナンバープレートなどのテキストを簡単に検出および認識できる Amazon Rekognition の機能です。

こちらにあるように、大量にある画像などから対象ナンバーの車両をみつける、移っている製品を見つける、などパーツとして単語が写っていた時の解析に使うのが正解のようです。

もしかしたらこの制限はなくなるかもしれませんが、今の所は制限の解除はできないようです。

AWS サービスの制限

上記の緩和には「デフォルトの TPS 制限」はありますが、解析単語解析などはありません。

会議メモの解析などに使おうと考えている場合にはご注意下さい。

顔認証などは、「一致する顔の最大数は 4096」もあるのに、文字だと51とは少なくないですか・・・。

おまけ

別にでかい文字、目立つ文字を優先してくれるわけでもなさそう。

↓解析結果

画像の上から順からなのか、どういう選択基準かは謎だが、ひとまず50以上の単語が含まれそうな画像で使うのは微妙か。