Amazon Transcribe がリアルタイム文字起こしの語彙フィルタリングのサポートを開始

2020年5月、Amazon Transcribeの新しいアップデートが発表されました。

Amazon Transcribeとは

Amazon Transcribeは、音声をテキストに変換する機能をアプリケーションに簡単に追加できるようにする自動音声認識サービスです。

今回、文字起こしするときに、指定した語彙を自動的にマスク、削除、またはタグ付けすることが可能になりました。語彙フィルターを使用して、書き起こし結果から冒涜、危険な単語を自動的に削除することで家族向けのキャプションを生成できます。

語彙フィルターを 1 回作成すると、複数のオーディオストリームを処理するときにそれを使用できます。複数の語彙フィルターを作成し、特定のオーディオストリームに使用する語彙フィルターを選択することもできます。

対応リージョン

  • 北バージニア
  • オハイオ
  • オレゴン
  • モントリオール

料金

Amazon Transcribeストリーミングサービスが利用できるすべてのAWSリージョンで、追加費用なしで、語彙フィルタリングを使用できます。

対応言語

  • English(US,UK,AU)
  • French(FR,CA)
  • Spanish(US)

使ってみよう

  • 制限したい言語をリスト化したテキストファイルをS3にアップロードします。
hatred
blasphemy
fucking
fuck

  • AWSマネジメントコンソールからAmazon Transcribeを開き、「Vocabulary filtering」を選択します。
    「Create vocabulary filter」をクリックします。

  • フィルター名の入力、言語を選択し、制限したい言語のリストファイルを選びます。
     S3に保存してあるので、S3 locationを選択し、ファイルパスを入力します。

  • 「Create vocabulary filter」をクリックすると完了です。

  • 文字起こしをする際に、フィルターがかかるように設定します。
     制限したい言語のファイルを選び、制限の仕方を選びます。
     maskを選択すると文字は*に置き換えられます。Removeを選択すると完全に表示されなくなります。

まとめ

簡単に設定できるので試してみましょう。早く東京リージョン、また日本語対応になって欲しいですね。