PDFファイルからテキストを抽出

2971 views

この記事では、PDFファイルからテキストを抽出する方法について紹介します。

【できるようになること】

PDFファイルのテキストを読み込む

「PDFファイルからテキストを抽出」を利用する場面

請求書や公示情報などのPDFからテキスト(文字情報)が抽出できます。
各種外部ストレージサービスに保存されたPDFからテキストを読み込むことも可能です。

抽出したテキストは、以下のような形で使用できます。
・スプレッドシートに書き込む
・ログインが必要なWebサイトに入力
・SalesforceやBigQueryに入力

※パスワード付きのPDFについて

AUTOROのアクションでは、パスワード付きのPDFを読み取ることができません。
パスワードつきのPDFからテキストを読み取りたい場合は、PDFファイルからテキストを抽出するアクションの前の段階で、PDFのパスワードを解除しておく必要があります。

　ワークフローの設定例

今回は、会社概要など関係会社のWEBページ情報を取得するケースを例に、ワークフローを作成していきます。

　1.「OpenBrowser」でPDF化するページを設定

最初に弊社の会社概要のページを開きます。

　2.「PagePDF」で開いたページをPDF化

次に開いたブラウザのアウトプットを「PagePDF」アクションに紐付けます。

　3.「ConvertPDFToText」でPDFファイルからテキスト抽出

2.で作成したPDFファイルを「ConvertPDFToText」アクションに紐付けます。

※ストレージに存在するファイルを読み取る場合は、「GetFile」アクションのアウトプットを紐づければ同様の設定が可能です。

　注意事項（テキストが読み取れない場合）

パスワード付きのPDFは読み取ることができません。
関連して、繰り返し中に何度もPDFを読み取るフローで、パスワード付きのPDFが混じってしまいエラーになることが問題であれば、エラーを捕捉する機能をご活用ください。
ファイル拡張子がashxになっている事実上のPDFファイルは、読み取ることが出来ます。
「ConvertPDFToText」アクションでは、テキストが抽出できないPDFファイルも存在します。
例：中身が画像になっているPDF/手書きのPDFなど

中身が画像になっているPDFからテキストを抽出したい場合は、TextDetectionアクションを使用することで文字が抽出できます（※ファイル拡張子がpdfやashxであっても中の文字が抽出できます）。

詳細は以下の記事をご参照ください。

参考：画像からテキストを抽出

ワークフロー実行結果
ワークフロー設定内容

実行結果：PDF化したページが下記の様に出力されます

# ブラウザを開く
+open_browser_1:
  action>: OpenBrowser
  url: 'https://docs.autoro.io/sso/onelogin'
  lang: 'ja-JP'
  headless: true
  useShadowDomSelector: false
  private: false

# PDFに出力
+page_p_d_f_1:
  action>: PagePDF
  browser: +open_browser_1
  format: A4
  media: print
  printBackground: false
  scale: 1
  private: false

# PDFからテキストを抽出
+convert_p_d_f_to_text_1:
  action>: ConvertPDFToText
  pdf: +page_p_d_f_1
  private: false

［参考記事］

＜ConvertPDFToText＞PDF テキスト抽出

このページは役に立ちましたか？

サイトを見て解決しない場合はAUTOROにログインし、チャットよりお問い合わせください。

PDFファイルからテキストを抽出

ワークフローの設定例

［参考記事］

このページは役に立ちましたか？

Related articles

PDFファイルからテキストを抽出

　ワークフローの設定例