Amazon Transcribeで文字起こし｜ AWSやシステム・アプリ開発

こんにちは、松田です。

皆さんは会議の内容を思い出す際に何を使用していますか？

主に議事録を見る、会議の録音を聞く等だと思います。

ただ、議事録だと作成に手間がかかり、録音だと聞きたい部分を見つけるのに時間がかかるということがあると思います。

そこで今回は議事録と会議音声の間をとってAmazon Transcribeを用いて文字起こしをします。

用語説明

Amazon Transcribeとは

音声を自動でテキストに変換するサービスです。

Amazon Pollyとは

テキストを音声化するサービスです。

Amazon pollyを用いて音声ファイルを作成します。

使用する文章は芥川龍之介著羅生門の冒頭です。

※漢字が本来の読みをされていない箇所があったためひらがなに修正してあります。

ここで作成された音声ファイルをダウンロードし任意のS3に格納しておきます。

Amazon Transcribeを用いてテキストを作成します。

※使用するファイルはAmazon Pollyで作成したものになります。

Amazon Transcribe > Transcription jobsにてテキスト化を行います。

設定項目は以下の設定以外デフォルトです。

Name:任意の名前

Language:Japanese

Input file location on S3:S3に格納された音声ファイルのパス

実行結果が以下です。

朱雀大路など正確に認識できていない部分がありますね。。。

ですが、TranscribeにはCustom Vocabularyという機能があります。

Custom Vocabularyを使用する際はあらかじめテキストファイルを作成する必要があります。

※文字コードはUTF-8,改行コードはLF

作成したテキストファイルはS3に格納します。

その後、 Amazon Transcribe > Custom VocabularyにてS3に格納したテキストファイルを選択します。

そして、 Transcription jobs でテキスト化を行います。

設定は以前と同じでCustomization > Custom Vocabulary箇所をチェックをつけ登録した名前を選択します。

Custom Vocabularyを使用する前は精度が低くあまり実用的ではないと感じたのですが、

単語を追加することで精度が向上し、Amazon Transcribeの可能性を感じました。

続編もご確認ください。