Docly Child

PDFファイルからテキストを抽出

2243 views

この記事では、PDFファイルからテキストを抽出する方法について紹介します。

【できるようになること】

  • PDFファイルのテキストを読み込む
「PDFファイルからテキストを抽出」を利用する場面

請求書や公示情報などのPDFからテキスト(文字情報)が抽出できます。
各種外部ストレージサービスに保存されたPDFからテキストを読み込むことも可能です。

抽出したテキストは、以下のような形で使用できます。
・スプレッドシートに書き込む
・ログインが必要なWebサイトに入力
・SalesforceやBigQueryに入力

※パスワード付きのPDFについて

AUTOROのアクションでは、パスワード付きのPDFを読み取ることができません。
パスワードつきのPDFからテキストを読み取りたい場合は、PDFファイルからテキストを抽出するアクションの前の段階で、PDFのパスワードを解除しておく必要があります。

 ワークフローの設定例

今回は、会社概要など関係会社のWEBページ情報を取得するケースを例に、ワークフローを作成していきます。

次に開いたブラウザのアウトプットを「PagePDF」アクションに紐付けます。

 

 

2.で作成したPDFファイルを「ConvertPDFToText」アクションに紐付けます。

※ストレージに存在するファイルを読み取る場合は、「GetFile」アクションのアウトプットを紐づければ同様の設定が可能です。

  • パスワード付きのPDFは読み取ることができません。
    関連して、繰り返し中に何度もPDFを読み取るフローで、パスワード付きのPDFが混じってしまいエラーになることが問題であれば、エラーを捕捉する機能をご活用ください。
  • ファイル拡張子がashxになっている事実上のPDFファイルは、読み取ることが出来ます。
  • 「ConvertPDFToText」アクションでは、テキストが抽出できないPDFファイルも存在します。
    例:中身が画像になっているPDF/手書きのPDFなど

中身が画像になっているPDFからテキストを抽出したい場合は、TextDetectionアクションを使用することで文字が抽出できます(※ファイル拡張子がpdfやashxであっても中の文字が抽出できます)。

詳細は以下の記事をご参照ください。

参考:画像からテキストを抽出

 

実行結果:PDF化したページが下記の様に出力されます

 
# ブラウザを開く
+open_browser_1:
  action>: OpenBrowser
  url: 'https://docs.autoro.io/sso/onelogin'
  lang: 'ja-JP'
  headless: true
  useShadowDomSelector: false
  private: false

# PDFに出力
+page_p_d_f_1:
  action>: PagePDF
  browser: +open_browser_1
  format: A4
  media: print
  printBackground: false
  scale: 1
  private: false

# PDFからテキストを抽出
+convert_p_d_f_to_text_1:
  action>: ConvertPDFToText
  pdf: +page_p_d_f_1
  private: false
<ConvertPDFToText>PDF テキスト 抽出

このページは役に立ちましたか?