Amazon Textractで画像内の文字列を検出

1. はじめに

今回は、LambdaからTextractを呼び出し、S3に保存されている画像内の文字列を検出してみます。



2. 目次



3. 各種AWSリソースのセットアップ


3.1. Amazon Textract


3.1.1. Amazon Textractとは

Amazon Textractとは、ドキュメントからテキストやデータを簡単に自動抽出してくれるサービスです。 2023/10/13時点での対応言語は以下となっており、日本語には対応していません。

英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語

また、2023/10/13時点では東京リージョンで利用できません。


3.1.2. Amazon Textractの設定

本記事ではSDKを用いて使用するため、AWSマネジメントコンソール上の「Amazon Textract」のページでの設定は不要です。


3.2. Amazon S3


3.2.1. 今回使用する画像ファイルについて

今回は以下の画像(text.jpg)を使用します。

text.jpg(出典:photoAC

3.2.2. Amazon S3の設定
項目 設定値
バケット 任意のバケット
AWSリージョン Amazon Textract」が利用可能な米国東部 (バージニア北部) us-east-1を選択
その他項目 デフォルトのまま

バケット作成後、3.2.1で示した画像ファイルを作成したバケット内にアップロードします。


3.3. AWS Lambda


3.3.1. AWS Lambdaの設定

Amazon Textract」が利用可能な米国東部 (バージニア北部) us-east-1リージョンにて、以下設定値でAWS Lambdaを設定します。

項目 設定値
関数名 任意の関数名
ランタイム Python 3.11」を選択
その他項目 「デフォルトのまま

デフォルトの設定だと基本的なLambdaアクセス権限で新しいロールが作成されますが、その状態だとS3へのアクセス、およびAmazon Textractの呼び出しが行えないため、以下のポリシーをアタッチします。

  • AmazonS3ReadOnlyAccess
  • AmazonTextractFullAccess


※Textractについては、簡略化のためにFullAcessを使用しています。本来であれば、FullAccessをむやみに使用すべきではありません。

Python

  1. import json
  2. import boto3
  3. textract = boto3.client('textract', region_name='us-east-1')
  4. s3 = boto3.client('s3')
  5. # バケット名,テキストファイル名
  6. BUCKET_NAME = 'kaneyama-sample-bucket'
  7. TEXT_NAME = 'text.jpg'
  8. def lambda_handler(event, context):
  9. obj = s3.get_object(Bucket=BUCKET_NAME, Key=TEXT_NAME)
  10. body = obj['Body'].read()
  11. response = textract.analyze_document(
  12. Document={'Bytes': body},
  13. FeatureTypes=['FORMS']
  14. )
  15. print(json.dumps(response, indent=2))



4. 検証

以下、出力結果を一部抜粋しています。

  1. ........
  2. ........
  3. {
  4. "BlockType": "LINE",
  5. "Confidence": 99.9324951171875,
  6. "Text": "Pick up",
  7. "Geometry": {
  8. ........
  9. ........
  10. },
  11. {
  12. "BlockType": "LINE",
  13. "Confidence": 99.98697662353516,
  14. "Text": "&",
  15. "Geometry": {
  16. ........
  17. ........
  18. },
  19. {
  20. "BlockType": "LINE",
  21. "Confidence": 99.95753479003906,
  22. "Text": "Drop off",
  23. "Geometry": {
  24. ........
  25. ........
  26. },
  27. {
  28. "BlockType": "WORD",
  29. "Confidence": 99.95877075195312,
  30. "Text": "Pick",
  31. "Geometry": {
  32. .......
  33. .......
  34. },
  35. {
  36. "BlockType": "WORD",
  37. "Confidence": 99.9062271118164,
  38. "Text": "up",
  39. "Geometry": {
  40. .......
  41. .......
  42. },
  43. .......
  44. .......

ここで、一部抜粋した結果のキーとバリューについて簡単に説明したいと思います。

キー バリュー
BlockType テキスト行 (LINE) または単語 (WORD) のどちらであるかを表す
Confidence 特定の予測が正しい確率を示す 0 ~ 100 の数値
Text 検出されたテキスト

結果を見ると、行単位および単語単位でテキストを検出することができていることがわかります。



5.おわりに

今回はAmazon Textractを使用して画像ファイルからテキストを検出しました。 紙文書でのやり取りはいまだにいろんなところで残っているかと思うので、日本語に対応されると利用場面が増えるのではないかと思います。 早く日本語に対応してほしいですね。