PDFファイルからテキストを抽出
2243 views
この記事では、PDFファイルからテキストを抽出する方法について紹介します。
【できるようになること】
- PDFファイルのテキストを読み込む
「PDFファイルからテキストを抽出」を利用する場面
請求書や公示情報などのPDFからテキスト(文字情報)が抽出できます。
各種外部ストレージサービスに保存されたPDFからテキストを読み込むことも可能です。
抽出したテキストは、以下のような形で使用できます。
・スプレッドシートに書き込む
・ログインが必要なWebサイトに入力
・SalesforceやBigQueryに入力
※パスワード付きのPDFについて
AUTOROのアクションでは、パスワード付きのPDFを読み取ることができません。
パスワードつきのPDFからテキストを読み取りたい場合は、PDFファイルからテキストを抽出するアクションの前の段階で、PDFのパスワードを解除しておく必要があります。
ワークフローの設定例
今回は、会社概要など関係会社のWEBページ情報を取得するケースを例に、ワークフローを作成していきます。
2.で作成したPDFファイルを「ConvertPDFToText」アクションに紐付けます。
※ストレージに存在するファイルを読み取る場合は、「GetFile」アクションのアウトプットを紐づければ同様の設定が可能です。
- パスワード付きのPDFは読み取ることができません。
関連して、繰り返し中に何度もPDFを読み取るフローで、パスワード付きのPDFが混じってしまいエラーになることが問題であれば、エラーを捕捉する機能をご活用ください。 - ファイル拡張子がashxになっている事実上のPDFファイルは、読み取ることが出来ます。
- 「ConvertPDFToText」アクションでは、テキストが抽出できないPDFファイルも存在します。
例:中身が画像になっているPDF/手書きのPDFなど
中身が画像になっているPDFからテキストを抽出したい場合は、TextDetectionアクションを使用することで文字が抽出できます(※ファイル拡張子がpdfやashxであっても中の文字が抽出できます)。
詳細は以下の記事をご参照ください。
# ブラウザを開く +open_browser_1: action>: OpenBrowser url: 'https://docs.autoro.io/sso/onelogin' lang: 'ja-JP' headless: true useShadowDomSelector: false private: false # PDFに出力 +page_p_d_f_1: action>: PagePDF browser: +open_browser_1 format: A4 media: print printBackground: false scale: 1 private: false # PDFからテキストを抽出 +convert_p_d_f_to_text_1: action>: ConvertPDFToText pdf: +page_p_d_f_1 private: false
<ConvertPDFToText>PDF テキスト 抽出
このページは役に立ちましたか?
サイトを見て解決しない場合はAUTOROにログインし、チャットよりお問い合わせください。