出版实务 | 数字内容加工与产品制作

发布时间:2024年01月05日

本篇博文根据圣才电子书《出版专业理论与实务(初级)》整理。


数字内容加工

纸质图书数字化加工流程和要求

数字内容加工是指对出版资源的数字化整理和加工的过程,主要包括两部分

  • 对已经形成纸质图书的存量出版资源重新进行数字化、编码识别、校勘、结构化、重排和标引;
  • 对已经数字化、矢量化的内容资源进行结构化和各种深度内容标引。

根据出版单位数字内容使用要求,数字化加工工作可以分为

  • 初级加工,指将纸质图书直接扫描成图像,并转换成图像PDF文档,文档内容可长期保存但无法检索。
  • 中级加工,指将排版文件直接转换成矢量单层的PDF文档,或者将图像PDF文档进一步加工成双层PDF,即上层为图像PDF,下层为文字内容,既可保持图书的原版原式,也能提供内容检索功能。
  • 高级加工,指进行数字内容的结构化、碎片化加工和元数据标引,为出版单位开展知识服务奠定基础。

加工流程

纸质图书数字化加工流程分为图书整理、图书扫描、图像处理、版面分析、OCR(Optical Character Recognition,光学字符识别)识别、内容校对、内容结构化加工、版式/流式文件加工和质量检验这9个主要环节。

图书扫描常用的图像格式有TIFF、JPEG、PNG等,但通常采用无损压缩的TIFF格式存储。扫描时要注意图书页码顺序不能错,也不要有缺页、重页的情况发生。

TXT格式是文本格式。

元数据加工

元数据加工是在内容结构化加工过程中进行的,一般以XML格式存储在内容结构化文件中,可使用工具软件从图书内容中提取出来。

元数据是描述数据的数据,主要描述图书各类属性信息,一般分为

  • 图书元数据
    • 主要有图书书名作者信息CIP信息出版印刷信息包装信息等。
    • 是各种图书类数字出版产品的核心信息,也是内容加工产品制作的基础信息。
    • 通常存在于书名页版权页封面中。
  • 篇章节元数据
    • 主要有篇章名、篇章作者和篇章目录等。
    • 通常存在于目录篇章起始页中。

内容结构化加工

数字出版的内容结构以内容为主线,按照内容的层级进行划分。内容结构的层级和粒度可根据产品需要来确定,可以到篇章节,也可以细化到段落和图表,甚至细化到词条。同时对不同粒度的结构单元可根据需要标引分类和属性信息。

图书的结构通常由封面、正文前辅文、正文、正文后辅文组成,一般情况下,结构化加工可拆分到正文中的小节一级,可供制作电子书等数字化产品;工具书类图书可以细化加工到词条,可供制作专题数据库产品;科技类图书可以细化加工到概念、定理和公式等,可供制作知识资源数据库产品。

内容结构化加工是对图书内容进行内容结构的拆分、标引和各种元数据加工的工作。内容结构化加工对象包括章节标题、图表和辅文等。

在结构化加工时要抛弃与内容无关的版式信息和样式信息,如页眉、页脚、页码、装饰性图片等。

内容要素的加工

从图书数字化加工角度看,内容要素是区别于文字内容的组成部件。

通常的内容要素包括

  • 角标
    • 上角标和下角标需要用XML语法来描述,同时出现上、下角标时按图片加工。
  • 行外符号
    • 可以通过XML语法来描述。
  • 集外字、图片、公式
    • 需要加工成图片。
  • 表格
    • 通常加工成图片,也可根据产品设计要求,加工成电子表格。
  • 注释、参考文献
    • 不论是脚注、尾注还是旁注都需要标记其属性,并通过关联关系的描述与引用点进行关联。

成品数据的构成

根据加工要求的不同,纸书数字化加工的成品数据也有所不同,通常包括

  • 采用无损压缩的TIFF格式存储的原始图像文件
    • 采用无损压缩的TIFF格式存储,不支持拷贝和查找功能。
  • 单层图像PDF文件
    • 只有图像层的PDF文件,内容无法复制和检索。
  • 双层PDF文件
    • ??支持文字内容复制和检索
  • 单层矢量PDF文件
    • ??支持文字内容复制和检索
  • 图书元数据XML文件
  • 结构化XML文件
  • 图书ePub文件
    • 在结构化XML基础上加工成的符合ePub3.0国际标准的流式文件。
    • ??支持文字内容复制和检索
    • ePub文件是一种常用的数字出版文档格式,正逐渐成为电子书格式转换、出版、分发和销售等环节统一的文档格式标准。
  • ……

数字内容图书的加工

用于传统印刷的排版文件主要有

  • 方正书版文件
  • InDesign文件
  • Word文件
  • ……

在进行结构化加工之前一般需要收集整理排版文件及其关联文件,再使用对应的、版本正确的排版软件将排版文件转换输出为PDF格式的文件。

数字内容图书的结构化加工环节是在PDF文件上进行的,加工目标和纸质图书的内容结构化加工是一致的。

数字内容标引

标引方式主要有

  • 分类标引
    • 是指对数字内容进行分类标引就是赋予数字内容对象一个或多个分类号,以便于用户通过分类索引找到这个数字内容对象。
    • 分类法系统性强,内容分类后符合人类的检索习惯,十分方便实用;主题法直观性强,是一种直接的、面向对象、事实和概念的组织方法,容易理解。
    • 分类标引时注意使用跳号处理,以便于未来扩充或调整类目。
    • 使用分类标引首先要确定分类体系。
  • 主题标引
    • 是指根据内容主题分析的结果,将一个或多个主题词赋予数字内容对象的过程。
    • 在进行主题标引时,为了规范主题标引时的选用词汇,避免误标、错标、漏标等情况,标引者可以选择《汉语主题词表》或《中国分类主题词表》中的规范主题词。

数字内容标引的策略主要有

  • 整体标引
    • 是指针对内容资源的整体提取主题予以标引。
  • 分散标引
    • 是指针对内容资源中的片段或集合型内容资源的构成单元所进行的标引。
    • 标引内容资源时必须先进行整体标引,再进行分散标引。
  • 受控标引
    • 是指采用受控语言进行主题概念表达的标引方式,如采用《中国图书馆分类法》的分类号、《汉语主题词词表》的主题词进行标引。
  • 自由标引
    • 是指采用自然语言语词作标识表达主题概念的标引方式。

编辑在标引入库资源时

  • 部分标引字段可以选择受控标引,如分类号、主题词等;
  • 部分字段可以选择自由标引,如关键词、内容描述等。

必须对内容的版权状态进行标引。

针对数字内容的不同粒度,可以使用不同的元数据进行标引。

数字出版产品制作

数字产品制作流程

数字产品制作流程包括

  • 内容整合
    • 是指将经审校及数字化加工的文字、音频、视频和交互模块等数字内容按照《数字出版产品需求规格说明书》的要求进行整合的过程。
    • 产品内容整合的过程需要遵循完整性有效性准确性的原则。
  • 产品规范化
    • 产品规范化是指将整合后的内容按照产品设计的要求进行转换和封装,以实现产品发布目标的过程,一般包括内容的规范化、内容和软件的打包、版权加密等方面的工作。
  • 产品测试
    • 包括产品内容检测、可运行模块测试和产品功能测试。

专题数据库的制作流程

专题数据库产品是一种具备独立主题内容或某一专门领域知识的数据库产品。通常大型的百科全书和工具书可设计成此类数字出版产品。

专题数据库产品制作流程包括

  • 专题资源的遴选
  • 数字内容的抽取
  • 建立数据库
  • 产品整合
  • 产品测试

专题数据库制作完成后需要对产品进行两方面的系统的测试工作才能发布

  • 功能测试
    • 主要测试产品设计的各项功能是否已经实现,涉及数据库相关功能时要检测返回的内容结果是否准确有效。
  • 性能测试
    • 主要测试数据库在设定的软硬件环境中的运行性能是否满足设计要求,可能的测试项包括检索并发数、检索响应时间和页面响应时间等。

质量控制

产品的质量要求包括

  • 完整性
    • 要求包括类型完整、内容完整、质量管理文档完整
  • 规范性
    • 要求包括规格、文件参数、内容结构、存储等方面
  • 有效性
    • 要求包括成品数据应能通过相关软件及系统读出,不允许出现数据损坏、异常报错、无法打开等错误。
  • 准确性
    • 指如实地记录和反映特定事物的状态信息。

质量控制的方法包括以下几种

  • 点验
    • 是对数据加工质量中完整性要求进行定量检验的方法,应根据要求逐一清点加工数量和加工类型;
  • 批处理数据校验
    • 是对数据加工质量中规范性要求进行定性检验的方法,用于对成品数据规格进行检验;
  • 应用环境模拟校验
    • 是对数据加工质量中的有效性要求进行定性检测;
  • 人工抽样检测
    • 是对数据加工质量中的准确性要求进行定量检测,按照一定的比例从交付的成品数据中抽取数据样本进行检测。

数字内容加工质量控制

内容加工的质量控制有一套完整的工序和流程。从数据交接开始,进行数据完整性、规范性校验,解决校验中的问题,并出具校验报告。加工数据的质量校验包括图像质量校验、PDF质量校验、XML质量校验、元数据质量校验等。

PDF质量校验是加工数据的质量校验的重要内容之一,它的主要内容包括

  • 文字检查
  • 书签检查
  • 版式检查
  • 内容完整性检查
    • 检查PDF文件是否有缺页、多页、错页、页序错误等。

数字产品制作质量控制

【例】简答题:根据所给材料回答问题。[2015年真题]
????????????????????????????????????
某出版社拟将一批纸质图书进行数字化加工后制作数字出版产品,其设计的数字化加工流程如下(其中各个环节按序排列,而具体工作内容已予以简化):
第一环节 数据整理与格式转换
对接收到的数据进行规范化整理和修改工作。
第二环节 图书整理
逐页检查图书,处理好影响扫描的污损、粘连等问题。
第三环节 图书扫描
利用图文扫描仪将纸质图书逐页扫描为图像并以TIFF格式存储。
第四环节 图像处理
对扫描后的图像进行处理,包括污点去除、浓淡调整、版心调整和倾斜矫正,使之更适合阅读和识别。
第五环节 OCR识别
利用工具软件把图像中的文字、符号等转化为文本文件。
第六环节 版面分析
标记各类内容区域并确定其属性。
第七环节 内容结构化加工
使用专门工具软件对图书内容进行加工工作,确保图书数据的全面和准确。
第八环节 版式和流式文件加工
对上述各环节的成果进行集成和加工,使用专门的工具软件制作成版式文件和流式文件。
第九环节 质量检验
对成品数据的质量进行检验,确保加工的数据是合格的。
????????????????????????????????????
问题一: 该加工流程设计中对环节的安排存在哪些失误?
答: 该加工流程设计中对环节的安排存在的失误有:
(1)纸质图书加工不需要“数据整理与格式转换”环节。
(2)“OCR识别”环节后缺少“内容校对”环节。
(3)“版面分析”环节应该在“OCR识别”环节之前。
????????????????????????????????????
问题二: 内容结构化加工时需要做哪些具体工作?
答: 内容结构化加工时需要做的具体工作是内容拆分、内容标引、元数据加工。
????????????????????????????????????
问题三: 数字化加工完成后,哪些类型的文件应该作为成品数据保存?请作选择回答。
A.原始图像文件dui
B.原始文本TXT文件?
C.单层图像PDF文件
D.双层PDF文件
E.图形、图像打包ZIP文件?
F.单层矢量PDF文件
G.图书元数据XML文件
H.结构化XML文件
I.资源数据库DBF文件?
J.图书ePub文件

文章来源:https://blog.csdn.net/qq_44250700/article/details/135368087
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。