PDFBox jar包文件

PDFBox jar包文件

PDFBox jar包文件,提取文本,包括Unicode字符。 和Jakarta Lucene等文本搜索引擎的整合过程十分简单。加密/解密PDF文档。 从PDF和XFDF格式中导入或导出表单数据。 向已有PDF文档中追加内容。 #61623;将一个PDF文档切分为多个文档。

软件大全
网络应用
界面预览
应用介绍

提取文本,包括Unicode字符。

和JakartaLucene等文本搜索引擎的整合过程十分简单。

加密/解密PDF文档。

从PDF和XFDF格式中导入或导出表单数据。

向已有PDF文档中追加内容。?

将一个PDF文档切分为多个文档。

覆盖PDF文档。


使用PDFBox处理PDF文档

PDF全称Portable Document Format,是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,可以在Windows、Unix或Mac OS等操作系统上通用。

PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息,需要根据它的文件格式来进行解析。幸好目前已经有不少工具能帮助我们做这些事情。


使用PDFBox解析PDF内容

在刚刚创建的EcliPSe工程中,创建一个ch7.pdfbox包,并创建一个Pdfboxtest类。该类包含一个getText方法,用于从一个PDF中获取文本信息,其代码如下。

import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;


public class PdfParser {

/**
* @param args
*/
// TODO 自动生成方法存根

public static void main(String[] args) throws Exception{
FileInputStream fis = new FileInputStream("F:\\task\\lerman-atem2001.pdf");
BufferedWriter writer = new BufferedWriter(new FileWriter("F:\\task\\pdf_change.txt"));
PDFParser p = new PDFParser(fis);
p.parse();
PDFTextStripper ts = new PDFTextStripper();
String s = ts.getText(p.getPDDocument());
writer.write(s);
System.out.println(s);
fis.close();
writer.close();

}
}

PDFBox jar包文件

软件截图1

应用信息

大小:0.01MB

软件版本: 正式版

语言:简体中文

授权方式:免费

猜你喜欢
推荐应用
你可能感兴趣的文章