PDF(Portable Document Format)是Adobe公司开发的电子文件格式,使用工业标准的压缩算法,易于传输和储存,且可在各种操作系统平台中通用,因而成为网络上电子文档发行和数字化信息传播的理想文档格式。目前PDF已发展成为数字化信息的一个事实上的工业标准。
PDF具备许多其它电子文档格式无法相比的种种优点,如可将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,亦可包含超链、声音和动态影像等电子信息,并逐渐成为出版业中的新宠。越来越多的电子书籍、产品说明、技术文档等都开始使用PDF格式。
迄今为止,大多数主流搜索引擎都能支持对PDF格式文件的信息检索,但在搜索引擎的排名算法中PDF文件还没有HTML文件那么得宠,不过既然搜索引擎已然认识到PDF的使用普及性,相信这一状况会逐渐得到改善。
认识到这一点,对网站上所提供的PDF格式的电子图书、产品说明或技术文档等信息资料进行适当的优化,无疑是从搜索引擎那里争取更多访问量的一条出路。
1. PDF文件的优化
在将文件转换成PDF文件前,我们可先进行下面这样一些优化:
A. 内容的优化
如果使用的是象MS WORD这样的文字处理软件,则可在文件转换成PDF格式前对内容进行适当优化,优化步骤与普通的HTML文件基本相同:诸如在标题和内容中适当包含关键词,丰富内容的相关性,对标题使用H1、H2、H3格式,内容中重要部分以粗体或大字号显示,等等。完成优化后再把文件转换为PDF格式,然后放到网站的相应内容下供搜索引擎检索。
B. 文件属性的优化
Adobe Acrobat6.0版提供了两个地方供用户自行设置文件属性,我们可利用这一点对对文件属性进行相关性优化:
文件说明 | 文件元数据说明 | ||
文件/文件属性/说明 (File/Document Properties/Description) |
高级/文件元数据/说明 (Advanced/Document Metadata/Description) |
||
标题 | Title | 标题 | Title |
作者 | Author | 作者 | Author |
主题 | Subject | 描述 | Description |
关键词 | Keywords | 描述作者 | Description Writer |
关键词 | Keywords | ||
版权声明 | Copyright State | ||
版权注意事项 | Copyright Notice | ||
版权资讯网站 | Copyright Info URL |
文件属性说明 | 文件元数据说明 | |
标题(Title) | 同一内容 | |
作者(Author) | 同一内容 | |
主题(Subject) | 前者“主题”中的内容会出现在后者的"描述"内容中 | |
关键词(Keywords) | 内容独立,互不影响 | |
关键词表现形式 | 关键词(关键词1,关键词2,...) | <rdf:li>关键词1</rdf:li><rdf:li>关键词2</rdf:li>.... |
可以看出,上述两种途径虽然在标题、作者、文章描述这些地方相通,但在关键词上却各自独立,互不影响。那么,哪种关键词最可能得到搜索引擎的关注呢?
我们知道,元数据(metadata)有许多存储格式,而Adobe采用的是XML格式。用记事本打开PDF文件,可以发现在“文件属性说明”下的关键词区域中输入的关键词之间是以逗号分割的,形如:
关键词(关键词1,关键词2,关键词3,…) |
<rdf:li>关键词1</rdf:li><rdf:li>关键词2</rdf:li><rdf:li>关键词3</rdf:li> |
3.这些信息在搜索引擎中发挥的作用
对于Google和雅虎这两大搜索引擎来说,对于搜索结果中出现的PDF文件列表,Google用PDF文件属性中的“标题”内容作为列表标题。雅虎原来是用PDF正文中出现的最大字号的内容作为标题,但从最近收录的一些PDF文件来看,它也开始采用和Google相同的做法。至于描述,这两大搜索引擎均未使用“文件属性”中的描述/主题信息,而是从正文中随机抽取内容来组成各自特色的描述内容。
从这一点看起来,对PDF文件属性中的“标题”和正文的优化是必不可少的。至于关键词和描述,虽然Google会象对待HTML中的关键词和描述一样忽略掉这两项内容,但目前对雅虎来说还是有效的。
4.PDF的优化意义
我们有理由相信,PDF信息在搜索引擎检索上存在的缺陷只是一个时间问题。随着搜索引擎的搜索功能愈来愈强大,也许不久以后它们就能够象检索HTML文件一样实现对PDF全文信息的检索。另外一方面,Adobe公司可能也会审时度势,开发出相应的补丁程序来弥补这一缺陷,进而改善PDF格式对搜索引擎的友好性。相信不久以后的将来,PDF这个印刷业的新宠儿必将在搜索引擎优化中占据一席之地。亲爱的朋友们,你们准备好了吗?
作者简介:Kevin Kantola,任SEO Resource (SEOResource.net:搜索引擎优化公司,位于加洲)执行总裁,拥有20多年丰富经验并发表了大量相关技术文章。
回复Comments
作者:
{commentrecontent}