可移植文件格式(PDF,PortableDocument Format)是一种由Adobe Systems开发的文件格式,用于以一种独立于应用程序、硬件、操作系统的方式共享和查看文档。PDF 文档可以包含链接和按钮、表单字段、音频、视频和业务逻辑,而且布局和格式在不同的设备和操作系统上保持一致。

定义

可移植文档格式是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。每个PDF文件包含固定布局的平面文档的完整描述,包括文本、字形、图形及其他需要显示的信息1。PDF文件通常由矢量图形、文本和位图图形构成。PDF文件除平面的文本和图形外,还可能包括逻辑结构元素,注释、表单、图层、富媒体(包括视频内容)等交互元素,使用U3D或PRC的三维对象,以及多种其他数据内容。PDF规范提供了启用这些功能时所需的加密功能、数字签名、文档附件和元数据等。

发展历史

技术起源

PDF源自1991年Adobe Systems共同创始人John Warnock发起的The Camelot Project,目标是使任何人都可以从任何应用程序中捕获文档,将这些文档的电子版本发送到任何地方,并在任何计算机上查看和打印它们。到1992年,Camelot已经发展成PDF。

发展历程

Adobe Systems在1993年免费提供了PDF规范。在万维网及HTML文本尚未兴起时,PDF在桌面出版工作流技术当中很受欢迎。PDF起初为Adobe所控制的专有格式,直到2008年7月1日才被官方以开放标准发行,并由国际标准化组织以 ISO 32000-1:2008 发布。此后,标准的控制权便移转到了产业专家志愿者所组的ISO委员会底下。2008年,Adobe在ISO 32000-1 发布了公共专利许可,对于制作、使用、销售及发布PDF兼容的应用所需的专利,皆赋予买断式授权。

PDF 1.7 含有一些Adobe所定义的专有技术,如Adobe XML表单结构(XFA)和JavaScript中对Acrobat的扩展。这些技术被 ISO 32000-1 引用为对于该规范之完整实现不可或缺且规范性的,但是它们并没有被标准化,其规格也只有发布在Adobe的网站上。

2017年7月28日,发布了 ISO 32000-2:2017(PDF 2.0)。ISO 32000-2 不将任何专有技术当作是规范性引用文件。

2020年12月14日,发布了 ISO 32000-2:2020(PDF 2.0)。在2017版本的基础上包括了对规范性引用的澄清、更正以及其他的一些重要更新。

GB标准化

2009年3月13日发布,2009年12月31日起正式实施的国家标准《文献管理 长期保存的电子文档文件格式 第1部分:PDF1.4(PDF/A-1)的使用》由TC86(全国文献影像技术标准化技术委员会)归口,TC86SC5(全国文献影像技术标准化技术委员会电子影像技术应用分会)执行,主管部门为国家标准委,标准号为GB/T 23286.1-2009。

基本原理

文件内容组成

PDF文件通常混合了矢量图形、文本和位图。PDF的基本内容包括:

  • 文本存储为内容字符串(不是文本本身)

  • 由图形和线条组成的用于说明和设计的矢量图形

  • 由照片和其他类型的图片组成的位图

在近期PDF标准修订中,PDF文档还支持链接(文档内部或网页)、表单、JavaScript(可通过Acrobat 3.0的插件启用),或者其他任意类型的能用插件控制的可嵌入内容。

PDF 1.6支持互动式3D文档嵌入PDF——3D绘图可用U3D或PRC及其他多种格式嵌入。

文本

文本在PDF中以页面内容字符串流中的“文本元素”呈现出来。一个文本元素指定字符应在指定位置描绘。字符用所选字体源的编码指定。

矢量图形

PDF中的矢量图如同在PostScript当中一样,是由路径组成的。路径通常由直线和多项的贝兹曲线组成,但也可以从文本的外廓构建。不同于PostScript,PDF不允许带直线和曲线的单一路径去组合文本外廓。路径可被描绘、填充或用于剪取。描绘和填充可用任意图形状态中的色彩集。

位图

PDF中的位图(称作Image XObjects)由带相关字符串流的字典呈现。字典描述了图像的属性和包含图像数据的流。少见的是,位图可能会作为一个内嵌图像被直接嵌入于页面描述。图像通常出于压缩的目的进行过滤。PDF中支持的图像过滤器包含了常用的过滤器。

相关技术

PDF主要通过三项技术实现:

1.派生自PostScript页面描述语言的子集,用以生成和输出图形。

2.字体嵌入/替换系统,可使字体随文件一起传输。

3.结构化的存储系统,用以绑定这些元素和任何相关内容到单个文件,带有适当的资料压缩系统。

PostScript是一种运行于解释器以生成图像的页面描述语言,不仅能处理图形,也具有标准编程语言特性。PDF很大程度上基于PostScript,但进行了简化。PDF相比较于PostScript存在以下优势:

1.PDF包含已标记和解析的PostScript源代码,以在修改PDF页面描述中的项与修改所产生的页面造型之间直接保持一致。

2.PDF(自1.4版)支持真图形透明度;PostScript不支持。

3.PostScript是一种带有隐形全局状态的解释型语言,因此PostScript文档中所有先前的页面必须经过处理以决定后续页面的正确的表现。而PDF文档中的每一页不受其他因素的影响,PDF查看器允许用户迅速跳转到文档的最后一页,而PostScript查看器需要在能够显示目标页面之前继续地处理所有的页面。

PDF中使用的字体与文档一起嵌入。这意味着无论在给定计算机上安装哪种字体,都应始终正确呈现。 创建PDF文档的程序将从字体中删除不必要的数据(例如度量和未使用的字符),因此文件不会变得过大。 PDF支持所有常见的字体格式,例如TrueType和Type 1。

技术特点

跨系统跨设备的一致性显示

PDF文件可以在不同的操作系统和设备上保持一致的显示效果,其中的矢量图形可以无限缩放而不失真,字体也在任何设备上都能正确显示。此外PDF文件可以嵌入到网页中,用户可以直接在浏览器中查看。

PDF的安全性

在处理电子文档时,安全保护是日常工作的重要一部分。PDF文件可以使用密码保护,限制用户操作,例如防止打印、从文档复制文本和图像、修饰文档,或者添加或删除文本注释等。

元数据

PDF 文档包含 XML 格式的文档元数据。元数据包括关于文档及其内容的信息,如作者姓名、关键字和版权信息,它们可供搜索实用程序使用。文档元数据包含(但不限于)也显示在文档属性对话框的“说明”选项卡中的信息。可以使用第三方产品来扩展和修改文档元数据。

应用

PDF由于其跨平台和设备的能力,以及对文档格式的精确保持,被广泛应用于各种场景:

① 文档分享与交换:PDF文件可以精确地保持原始文档的布局、图像和文本格式,适合发送给他人查看或打印。

② 电子书籍:许多电子书以PDF格式发布,便于读者在不同的设备上阅读。

③ 法律和官方文件:法律文件、合同、政府发布的公文等经常使用PDF格式,以确保文件的正式性和完整性。

④ 学术研究:学术论文、期刊文章和学术资料常用PDF格式分发,以确保格式的一致性和专业性。

⑤ 在线出版物:杂志、新闻简报和其他在线出版物经常以PDF格式发布,以便读者下载和阅读。

⑥ 图形设计和排版:设计师和排版师使用PDF格式来传递设计稿和页面布局,因为PDF可以精确地保持设计元素的位置和质量。

⑦ 无纸化办公:企业使用PDF格式来减少纸质文档的使用,实现文档的电子化管理和存储。

⑧ 归档和备份:由于PDF文件体积相对较小且易于阅读,它们常用于文档的长期归档和备份。

⑨ 数字签名和安全性:PDF文件可以被数字签名,确保文件的完整性和来源的可靠性。此外,PDF文件可以加密,保护敏感信息不被未授权访问。

专业的PDF格式

PDF有一些变体格式,属于PDF格式的子集,其中PDF/A和PDF/X当前是ISO标准。这些专业格式对所使用的技术或内容存在一些限制。

PDF/A

PDF/A标准(ISO19005-1:2005)为在图书馆,国家档案馆等机构中长期存档的文件定义了一套规则。它还需要“符合标准的阅读器”以某种方式,使用嵌入字体,使用颜色管理等,对PDF/A的限制包括:

  • 无加密

  • 要嵌入的所有字体

  • 需要元数据

  • 不允许使用JavaScript

  • 仅限与设备无关的色彩空间

  • 没有音频或视频内容

PDF/A有两个级别:

PDF/A-1b(B级合规性)要求可以对文档进行精确的视觉复制。

PDF/A-1a(A级合规性)要求文本可以映射到Unicode,并且除了要求精确的视觉再现之外,还要记录文本的顺序和结构。

PDF/X

PDF/X标准是印刷行业图形交换的ISO标准系列,其中最新的是PDF/X-5(ISO 15930-8:2010)。它定义了许多限制:

  • 必须嵌入所有字体

  • 必须嵌入所有图像数据

  • 不能包含声音,电影或不可打印的注释

  • 没有表格

  • 没有JavaScript

  • 有限的压缩算法

  • 无加密

  • 文件使用subversion标记为PDF/X(例如,PDF/X-5)

版本摘要

PDF完全向后兼容(可以将PDF版本1.0文档加载到为PDF1.7设计的程序中) 并且大部分向前兼容(为PDF 1.0编写的程序通常可以加载PDF 1.7文件)。

|| || PDF版本

来源: 百度百科

内容资源由项目单位提供