Amazon Pollyとは

Amazon Polly」はAmazonの提供する、入力されたテキストデータをリアルな音声に変換するテキスト読み上げサービスです。機械学習による高品質な音声を提供しています。

Amazon Pollyの特徴・メリット

Amazon Pollyには以下の特徴があります。

  • 人間に近い自然な発声
  • 多言語に対応(2018年8月現在、25言語)
  • 生成された音声は自動で保存され、繰り返し利用できる
  • リアルタイムの音声再生
  • 低コスト

Amazon Pollyの利用シーン

Amazon Pollyによる音声サービスは、例えば以下のようなシーンで利用できると考えられます。

📢 読み上げコンテンツの作成

ブログなどの文章コンテンツを音声に変換し配信することで、視覚以外の方法でコンテンツを提供できるようになります。文字・音声・動画など、ニーズに応じたコンテンツ配信に役立ちます。

💬 同時翻訳

Amazon Transcribe」と連携させることで、受信した音声をテキスト化し翻訳、翻訳テキストをPollyで音声で返すことでリアルタイム翻訳に利用できます。

※Amazon TranscribeはAmazon Pollyの逆で、音声を受信しテキスト化するサービスです。2018年8月現在、Amazon Transcribeは日本語音声に対応していないため、将来型のイメージです。

☎️ 電話対応の自動化

同時翻訳と同様にAmazon Transcribeと連携させることで、通話内容をテキスト化し分析、パターンに応じた自動対応が可能です。

Amazon Pollyの料金

Amazon Pollyの料金は「100万文字:$4」と非常にシンプルです。
※2018年8月現在の公式価格参照

具体的な利用シーンを想定し月間料金をまとめてみました。

利用例文字数Polly料金
メディアサイトの自動音声化
1記事3,000文字、毎日10記事
3,000 x 10 x 30 = 900,000$3.6/月
リアルタイム翻訳
1回200文字、毎日20回
200 x 20 x 30 = 120,000$0.48/月
電話の自動音声対応
1通話400文字、毎日50回
400 x 50 x 30 = 600,000$2.4/月

上記の料金例はPollyによる音声変換のみの料金のため、連携させるシステムの稼働には別途費用が発生します。

Pollyは「膨大なテキストの音声変換」と「高品質な発声表現」という仕事を両立しており、これをPolly以外で実現するにはシステムと専用ハードウェアの構築から必要になり、上記の数万倍以上のコストがかかると考えられます。そう考えればPollyは非常に安価なサービスだと言えます。

さいごに

今回は Amazon Polly の特徴や料金についてご紹介しました。

テキストを音声変換するというシンプルなサービスですが、人と機械をつなぐIoTのインターフェースを担う重要なサービスです。

2018年8月現在では相棒とも言える音声認識サービスの「Amazon Transcribe」が日本語に対応していないためAWS単体でできることは限られますが、外部の音声認識サービスと連携させることでビジネスに実用的なサービス開発も可能です。

仕事量に対して圧倒的な低コストが魅力ですので、システム連動で音声変換を検討される方におすすめしたいサービスです。