Amazon Transcribeで誰が喋っているか声の判別をする

はじめに

前記事でAmazon Transcribeで英語字幕をつけてみたを行っていたが、今回は話者識別を行い誰が喋っているか声の判別をしたので紹介していく

音声条件

  • 音声ファイル1

話者: 二人の男女(早口)
時間: 4m16s
ファイル形式: WAV

  • 音声ファイル2

話者: 二人の男性
時間: 2m35s
ファイル形式: WAV

手順

手順はAmazon Transcribeを使う時の手順(GUI)に従った

結果

音声ファイル1の場合、ところどころ相槌の誤識別が起きていたが話者識別が高精度で行えていた
しかし、音声ファイル2の場合そもそも話者識別が行えていなく、全て同じ人と識別されていた
文字起こしの精度は音声ファイル1と2ともにwasとwassなどの誤りは合ったが良かった

結論

男女などの明らかな声の違いがないと話者識別はうまく機能しないこともある

ちなみに・・・

話者識別結果はこのように出力される

音声ファイル1

音声ファイル2

Speaker0しかいない・・・