Google Cloud Speech-to-Textのために音声をいろいろ加工して解析させてみた

目的

Google Cloud Speech-to-Text を使用して、日本語音声の文字起こし

こちらのように日本語の文字起こしが可能だったので、これを利用して会議の議事録を自動的に取ろうと思ったのです。

ただ、Macbookを置いて記録してみたところ、指向性マイクなので、正面にいるの音声のみを拾っていました。

そのため、集音マイクを購入、中央に置いて録音してみたところ、耳で聞く限りはいい感じに録音できている模様。

しかし解析結果はほとんど文字起こしできず、誤認識ばかりだったため、音声の加工の面からどうにかならないか行ってみました。

(google側で音声の加工などをすでに行っている可能性もあるから可能性は低いが)

結果

ノイズキャンセル→✕
音量調整→✕
トリミング→✕

音声の加工では解析結果が著しく上がることはなかった。

手法

音声の加工の手法は今回、ノイズキャンセル、音量調整、音声のトリミングの3通り試してみた。

テストデータは、できる限り意識しないで録音した以下の音声を使ってみる。

上の音声を手動で文字起こしすると以下のようになる。

さっきはほぼこれぐらいの状態で僕がカチカチ山の話をみて読むっていうのをやってました。近いよ。6人で使えたら全然いいからこれぐらい、これぐらいの距離で ちょっと端っこの方に行きつつ気持ちもうこんな端っこだよ自分は。はいじゃぁ初めます。何かありますか。とりあえずなにか気づくこととかございましたか。あ、そうです先月一応やったにはやったのですか、あのー面談、学生メンバーへの面談。気持ち大きい声で喋ってない?もしかして。ちょっと意識しないには無理がありますね。

まずは加工前の解析結果

時は今これぐらいの状態で僕がかちかち山の話を見て読むことで使えたら全然怒らこれぐらい出るぐらいの端っこの方に情報始めは何かありますかげついち親には行ったんですけどあのー面談が苦戦出る前の面談

ちょっと何言ってるか分からない文になってます。ほとんどが解析できていない模様。

この音声に加工を施し、改善が見られるかをテストする。

ノイズキャンセル

MacのiMovieのノイズキャンセル機能を使い、50%、100%でノイズを消してみます。

50の結果

これぐらいの状態で僕がかちかち山の話を見て46人で使えたら全然からそれぐらい出るぐらいの情報始めたい何かありますか新月市大谷今やったんですけどあのー面談学生前の面談

100の結果

これぐらいの状態で僕がかちかち山の話を見て読むと6人で使えたら全然言ったらそれぐらい出るぐらいの端っこでは始めます何かありますか先月一応やったやったんですけどあのー面談学園前の面談

空調の音が消えており、クリアに発言が聞こえるようになりましたが、ほとんど変わりませんでした。

そもそもgoogleで加工前にノイズキャンセルくらいしてから解析をしている気がします。

音量調整

audacityより、全体を20db上げての解析。

でもこれぐらいの状態で僕がかちかち山の話を見て読むと6人で使えたら全然言ったらそれぐらい出るぐらいの端っこでは始めます何かありますか先月一応やったやったんですけどあのー学生年前の面談

これも変わらず。まぁ、それくらいで結果上がるんだったら元からやってるか・・・。

トリミング

解析できなかった部分の中で一部分をaudacityにてトリミングして解析にかけてみます。

おしっこで

正しくは「もうこんな端っこだよ自分は。」ですので、だめですね・・・。

こちらも試してみましたが、解析不可で空白が返ってきてしまいました。

考察的な

やはり複数人で話している場合には重なる場合などがあり、その場合には解析がうまくできていない模様。

文章単位で見ているのか、重なっている部分に関してはまるごと抜け落ちる可能性が高いです。

重なっている部分をトリミングで区切って音量を最適化した時に解析できているケースがあるので、話終了の区切りを超細かくすれば少し精度が上がるかもしれない・・・

あくまで一人にマイクが付いたSpeechでの利用で、対談や会議にはまだ使えるレベルではないかもしれない。