PDFファイルからテキストを抽出
588 views
この記事では、PDFファイルからテキストを抽出する方法について紹介します。
【できるようになること】
- PDFファイルのテキストを読み込む
「PDFファイルからテキストを抽出」を利用する場面
請求書や公示情報などのPDFからテキスト(文字情報)が抽出できます。
各種外部ストレージサービスに保存されたPDFからテキストを読み込むことも可能です。
抽出したテキストは、以下のような形で使用できます。
・スプレッドシートに書き込む
・ログインが必要なWebサイトに入力
・SalesforceやBigQueryに入力
ワークフローの設定例
今回は、会社概要など関係会社のWEBページ情報を取得するケースを例に、ワークフローを作成していきます。
最初に弊社の会社概要のページを開きます。
次に開いたブラウザのアウトプットを「PagePDF」アクションに紐付けます。
2.で作成したPDFファイルを「ConvertPDFToText」アクションに紐付けます。
※ストレージに存在するファイルを読み取る場合は、「GetFile」アクションのアウトプットを紐づければ同様の設定が可能です。
- パスワード付きのPDFは読み取れません。
関連して、繰り返し中に何度もPDFを読み取るフローで、パスワード付きのPDFが混じってしまいエラーになることが問題であれば、エラーを捕捉する機能をご活用ください。 - 「ConvertPDFToText」アクションでは、テキストが抽出できないPDFファイルも存在します。
例:画像のテキスト/手書きのPDFなど
画像からテキストを抽出したい場合は、以下の記事をご参照ください。
# ブラウザを開く +open_browser_1: action>: OpenBrowser url: null lang: 'ja-JP' headless: true # PDFに出力 +page_p_d_f_1: action>: PagePDF browser: +open_browser_1 format: A4 media: print printBackground: false scale: 1 # PDFからテキストを抽出 +convert_p_d_f_to_text_1: action>: ConvertPDFToText pdf: +page_p_d_f_1
<ConvertPDFToText>PDF テキスト 抽出
このページは役に立ちましたか?
サイトを見て解決しない場合は左下のチャットよりお問い合わせください。