- PDF::API2モジュールを使用する方法:
use PDF::API2;
my $pdf = PDF::API2->open('sample.pdf');
my $content = '';
for my $page (1 .. $pdf->pages()) {
my $pdf_page = $pdf->openpage($page);
$content .= $pdf_page->text();
}
print $content;
- CAM::PDFモジュールを使用する方法:
use CAM::PDF;
my $pdf = CAM::PDF->new('sample.pdf');
my $content = '';
foreach my $pagenum (1 .. $pdf->numPages()) {
my $pagecontent = $pdf->getPageContentTree($pagenum);
$content .= $pagecontent->toString();
}
print $content;
- Regexp::Commonモジュールを使用して正規表現を適用する方法:
use Regexp::Common;
my $content = 'テキストを抽出したいPDFの内容';
if ($content =~ /($RE{quoted})/g) {
print $1; # マッチしたテキストを出力
}
これらの例では、Perlモジュールを使用してPDFファイルを開き、各ページからテキストを抽出します。正規表現を使用してテキストを解析することもできます。
以上がPerlと正規表現を使用してPDFからテキストを抽出する方法の一般的な例です。必要に応じて、使用するPDFファイルに合わせてコードを調整してください。