搜索
开启辅助访问切换到窄版
查看: 43|回复: 0

[Linux] Ubuntu下PDF文档提取文本内容

[复制链接]

35

主题

282

学分

0

好友

管理员

Rank: 9Rank: 9Rank: 9

积分
282
发表于 2018-10-6 14:34:33 | 显示全部楼层 |阅读模式
1、安装pdftotext工具
  1. sudo apt install poppler-utils
复制代码
2、使用帮助命令查看功能
  1. pdftotext --help
复制代码
如下:
  1. pdftotext version 0.41.0
  2. Copyright 2005-2016 The Poppler Developers - [url]http://poppler.freedesktop.org[/url]
  3. Copyright 1996-2011 Glyph & Cog, LLC
  4. Usage: pdftotext [options] <PDF-file> [<text-file>]
  5.   -f <int>             : first page to convert
  6.   -l <int>             : last page to convert
  7.   -r <fp>              : resolution, in DPI (default is 72)
  8.   -x <int>             : x-coordinate of the crop area top left corner
  9.   -y <int>             : y-coordinate of the crop area top left corner
  10.   -W <int>             : width of crop area in pixels (default is 0)
  11.   -H <int>             : height of crop area in pixels (default is 0)
  12.   -layout              : maintain original physical layout
  13.   -fixed <fp>          : assume fixed-pitch (or tabular) text
  14.   -raw                 : keep strings in content stream order
  15.   -htmlmeta            : generate a simple HTML file, including the meta information
  16.   -enc <string>        : output text encoding name
  17.   -listenc             : list available encodings
  18.   -eol <string>        : output end-of-line convention (unix, dos, or mac)
  19.   -nopgbrk             : don't insert page breaks between pages
  20.   -bbox                : output bounding box for each word and page size to html.  Sets -htmlmeta
  21.   -bbox-layout         : like -bbox but with extra layout bounding box data.  Sets -htmlmeta
  22.   -opw <string>        : owner password (for encrypted files)
  23.   -upw <string>        : user password (for encrypted files)
  24.   -q                   : don't print any messages or errors
  25.   -v                   : print copyright and version info
  26.   -h                   : print usage information
  27.   -help                : print usage information
  28.   --help               : print usage information
  29.   -?                   : print usage information
复制代码


3、转换指定页码之间的文本内容,如第1页到第5页
  1. pdftotext -f 1 -l 5 hc-cms.pdf hc-cms.txt
复制代码


阿Q问答,程序员专属知识问答平台!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

阿Q问答

程序员专属知识问答平台!

关于我们

Archiver|手机版|小黑屋|阿Q问答  

Powered by Discuz! X3.3 © 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表