本篇博文根据圣才电子书《出版专业理论与实务(初级)》整理。
数字内容加工是指对出版资源的数字化整理和加工的过程,主要包括两部分
根据出版单位数字内容使用要求,数字化加工工作可以分为
纸质图书数字化加工流程分为图书整理、图书扫描、图像处理、版面分析、OCR(Optical Character Recognition,光学字符识别)识别、内容校对、内容结构化加工、版式/流式文件加工和质量检验这9个主要环节。
图书扫描常用的图像格式有TIFF、JPEG、PNG等,但通常采用无损压缩的TIFF格式存储。扫描时要注意图书页码顺序不能错,也不要有缺页、重页的情况发生。
TXT格式是文本格式。
元数据加工是在内容结构化加工过程中进行的,一般以XML格式
存储在内容结构化文件中,可使用工具软件从图书内容中提取出来。
元数据是描述数据的数据,主要描述图书各类属性信息,一般分为
图书元数据
图书书名
、作者信息
、CIP信息
、出版印刷信息
和包装信息
等。内容加工
和产品制作
的基础信息。书名页
、版权页
和封面
中。篇章节元数据
目录
和篇章起始页
中。数字出版的内容结构以内容为主线,按照内容的层级进行划分。内容结构的层级和粒度可根据产品需要来确定,可以到篇章节,也可以细化到段落和图表,甚至细化到词条。同时对不同粒度的结构单元可根据需要标引分类和属性信息。
图书的结构通常由封面、正文前辅文、正文、正文后辅文组成,一般情况下,结构化加工可拆分到正文中的小节一级,可供制作电子书等数字化产品;工具书类图书可以细化加工到词条,可供制作专题数据库产品;科技类图书可以细化加工到概念、定理和公式等,可供制作知识资源数据库产品。
内容结构化加工是对图书内容进行内容结构的拆分、标引和各种元数据加工的工作。内容结构化加工对象包括章节标题、图表和辅文等。
在结构化加工时要抛弃与内容无关的
版式信息和样式信息,如页眉、页脚、页码、装饰性图片等。
从图书数字化加工角度看,内容要素是区别于文字内容的组成部件。
通常的内容要素包括
根据加工要求的不同,纸书数字化加工的成品数据也有所不同,通常包括
原始图像文件
用于传统印刷的排版文件主要有
在进行结构化加工之前一般需要收集整理排版文件及其关联文件,再使用对应的、版本正确的排版软件将排版文件转换输出为PDF格式的文件。
数字内容图书的结构化加工环节是在PDF文件上进行的,加工目标和纸质图书的内容结构化加工是一致的。
标引方式主要有
数字内容标引的策略主要有
编辑在标引入库资源时
受控标引
,如分类号、主题词等;自由标引
,如关键词、内容描述等。必须对内容的版权状态进行标引。
针对数字内容的不同粒度,可以使用不同的元数据进行标引。
数字产品制作流程包括
完整性
、有效性
和准确性
的原则。专题数据库产品是一种具备独立主题内容或某一专门领域知识的数据库产品。通常大型的百科全书和工具书可设计成此类数字出版产品。
专题数据库产品制作流程包括
专题数据库制作完成后需要对产品进行两方面的系统的测试工作才能发布
产品的质量要求包括
质量控制的方法包括以下几种
内容加工的质量控制有一套完整的工序和流程。从数据交接开始,进行数据完整性、规范性校验,解决校验中的问题,并出具校验报告。加工数据的质量校验包括图像质量校验、PDF质量校验、XML质量校验、元数据质量校验等。
PDF质量校验是加工数据的质量校验的重要内容之一,它的主要内容包括
【例】简答题:根据所给材料回答问题。[2015年真题]
????????????????????????????????????
某出版社拟将一批纸质图书进行数字化加工后制作数字出版产品,其设计的数字化加工流程如下(其中各个环节按序排列,而具体工作内容已予以简化):
第一环节 数据整理与格式转换
对接收到的数据进行规范化整理和修改工作。
第二环节 图书整理
逐页检查图书,处理好影响扫描的污损、粘连等问题。
第三环节 图书扫描
利用图文扫描仪将纸质图书逐页扫描为图像并以TIFF格式存储。
第四环节 图像处理
对扫描后的图像进行处理,包括污点去除、浓淡调整、版心调整和倾斜矫正,使之更适合阅读和识别。
第五环节 OCR识别
利用工具软件把图像中的文字、符号等转化为文本文件。
第六环节 版面分析
标记各类内容区域并确定其属性。
第七环节 内容结构化加工
使用专门工具软件对图书内容进行加工工作,确保图书数据的全面和准确。
第八环节 版式和流式文件加工
对上述各环节的成果进行集成和加工,使用专门的工具软件制作成版式文件和流式文件。
第九环节 质量检验
对成品数据的质量进行检验,确保加工的数据是合格的。
????????????????????????????????????
问题一: 该加工流程设计中对环节的安排存在哪些失误?
答: 该加工流程设计中对环节的安排存在的失误有:
(1)纸质图书加工不需要“数据整理与格式转换”环节。
(2)“OCR识别”环节后缺少“内容校对”环节。
(3)“版面分析”环节应该在“OCR识别”环节之前。
????????????????????????????????????
问题二: 内容结构化加工时需要做哪些具体工作?
答: 内容结构化加工时需要做的具体工作是内容拆分、内容标引、元数据加工。
????????????????????????????????????
问题三: 数字化加工完成后,哪些类型的文件应该作为成品数据保存?请作选择回答。
A.原始图像文件dui
B.原始文本TXT文件?
C.单层图像PDF文件
D.双层PDF文件
E.图形、图像打包ZIP文件?
F.单层矢量PDF文件
G.图书元数据XML文件
H.结构化XML文件
I.资源数据库DBF文件?
J.图书ePub文件