「Amazon Polly」はAmazonの提供する、入力されたテキストデータをリアルな音声に変換するテキスト読み上げサービスです。機械学習による高品質な音声を提供しています。
Amazon Pollyの特徴・メリット
Amazon Pollyには以下の特徴があります。
- 人間に近い自然な発声
- 多言語に対応(2018年8月現在、25言語)
- 生成された音声は自動で保存され、繰り返し利用できる
- リアルタイムの音声再生
- 低コスト
Amazon Pollyの利用シーン
Amazon Pollyによる音声サービスは、例えば以下のようなシーンで利用できると考えられます。
📢 読み上げコンテンツの作成
ブログなどの文章コンテンツを音声に変換し配信することで、視覚以外の方法でコンテンツを提供できるようになります。文字・音声・動画など、ニーズに応じたコンテンツ配信に役立ちます。
💬 同時翻訳
「Amazon Transcribe」と連携させることで、受信した音声をテキスト化し翻訳、翻訳テキストをPollyで音声で返すことでリアルタイム翻訳に利用できます。
※Amazon TranscribeはAmazon Pollyの逆で、音声を受信しテキスト化するサービスです。2018年8月現在、Amazon Transcribeは日本語音声に対応していないため、将来型のイメージです。
☎️ 電話対応の自動化
同時翻訳と同様にAmazon Transcribeと連携させることで、通話内容をテキスト化し分析、パターンに応じた自動対応が可能です。
Amazon Pollyの料金
Amazon Pollyの料金は「100万文字:$4」と非常にシンプルです。
※2018年8月現在の公式価格参照
具体的な利用シーンを想定し月間料金をまとめてみました。
利用例 | 文字数 | Polly料金 |
---|---|---|
メディアサイトの自動音声化 1記事3,000文字、毎日10記事 | 3,000 x 10 x 30 = 900,000 | $3.6/月 |
リアルタイム翻訳 1回200文字、毎日20回 | 200 x 20 x 30 = 120,000 | $0.48/月 |
電話の自動音声対応 1通話400文字、毎日50回 | 400 x 50 x 30 = 600,000 | $2.4/月 |
上記の料金例はPollyによる音声変換のみの料金のため、連携させるシステムの稼働には別途費用が発生します。
Pollyは「膨大なテキストの音声変換」と「高品質な発声表現」という仕事を両立しており、これをPolly以外で実現するにはシステムと専用ハードウェアの構築から必要になり、上記の数万倍以上のコストがかかると考えられます。そう考えればPollyは非常に安価なサービスだと言えます。
さいごに
今回は Amazon Polly の特徴や料金についてご紹介しました。
テキストを音声変換するというシンプルなサービスですが、人と機械をつなぐIoTのインターフェースを担う重要なサービスです。
2018年8月現在では相棒とも言える音声認識サービスの「Amazon Transcribe」が日本語に対応していないためAWS単体でできることは限られますが、外部の音声認識サービスと連携させることでビジネスに実用的なサービス開発も可能です。
仕事量に対して圧倒的な低コストが魅力ですので、システム連動で音声変換を検討される方におすすめしたいサービスです。