项目案例

PROJECT CASES
国家文化大数据体系建设
数字出版
数字文化内容生产
数字非遗
大型活动
中数集团档案数字化业务——纸质档案

信息来源:大数据中心  添加时间:2022/06/03  浏览次数:2711次

建设国家文化大数据体系是新时代文化建设的重大基础性工程,也是打通文化事业和文化产业、畅通文化生产和文化消费、融通文化和科技、贯通文化门类和业态,推动文化数字化成果走向网络化、智能化的重要举措。中国数字文化集团(以下简称集团)充分发挥在高端设备、专业技术和人才以及在文化资源数字化方面积累的丰富经验与优势,积极服务于文化和旅游系统数字化,致力于文化和旅游行业的国家文化大数据体系建设,助力文旅行业数字化高质量发展。集团大力推动音视频等资源数字化,构建数字资源知识图谱,通过接入国家文化专网、装配底层关联集成系统,激活文化资源数据,打牢文化大数据建设的基础。

集团拥有专业的从业人员、先进的数字化设备以及丰富的实战经验,可提供各类数字化采集,大数据生产、研发、综合保护、利用的解决方案,提供专业、优质、系统、集约化的服务,做好优秀文化内容的数字化采集、标注、关联、解构、重构、呈现、转化、利用等。

集团数字化业务涵盖音频、视频、照片、档案、字画扫描等多项类目,本次主要介绍纸质档案数字化业务。

数字化是指利用计算机技术将模拟信号转换为数字信号的处理过程。纸质档案数字化则是采用扫描仪等设备对纸质档案进行数字化加工,使其转化为存储在磁盘、光盘等载体上的数字图像,并按照纸质档案的内在联系,建立起目录数据与数字图像关联关系的处理过程。纸质档案数字化应遵循档案管理的客观规律,真实反映档案内容,最大程度地展现档案原貌。加工涉密档案时,应按照涉密档案相关保密要求开展工作。

1.png

一、纸质档案数字化的必要性

首先,传统纸质档案往往数量巨大,不同年份及部门的档案文件格式存在不统一的情况,归档后占用大量的保管空间,后期的检索、查阅和管理需要消耗极大的人力物力成本,工作效率较低。其次,纸质档案纸张随着时间的推移质地变得脆弱,频繁的原件借阅调用,会加速原件的消耗损毁,稍有不慎更会造成永久性损坏。再者,受制于地域限制,无法满足跨区域异地档案检索、查阅、调用功能。还有,其中涉密或权限区分的档案需单独管理,难以进行灵活授权操作,无法实现数据共享。因此,纸质档案的数字化是今后档案管理发展的必然趋势。

二、纸质档案数字化的作用

1.档案数字化能有效降低非常用纸质档案占用的存储空间,对已完成数字化的文件及时转换腾挪,形成的目录数据库及数据挂接方便检索、查阅和管理,大大节省了人力物力成本,提高工作效率。

2.档案数字化能有效地保护纸质档案原件。

电子文件代替纸质原件使用,减少原件翻阅频次,保护了档案原件;可使用电子文件制作副本,实现永久保存;可有效规避自然灾害等不可抗力因素导致的原件永久性破坏;可利用图像处理技术对纸质档案材料允许修复的污损情况进行美化处理等。

3.档案数字化能改善档案的利用方式。

数字化后的电子文件能够摆脱孤本限制,实现多人共享;不受时间限制,可以随时使用自己需要的文件;可以通过计算机局域网或者广域网进行异地传输,方便异地调阅利用;扩大了纸质档案的利用空间,为在大数据时代开发档案动能提供基础等。

4.档案数字化权限设置灵活,权限管理界定明确、安全。

2.png

三、纸质档案数字化的工作流程

纸质档案数字化的基本环节主要包括:数字化前处理,目录数据库建立,档案扫描,图像处理,数据挂接,数据抽检、验收与移交等。

1.数字化前处理(档案整理)

(1)确定扫描页。原则上应将确定为数字化对象的纸质档案全部扫描,不宜进行挑扫。如有不需要扫描的页面应加以标注。

(2)编制页号。编页应在扫描之前对没有编页或编页不规范的档案重新进行编页,使用2B铅笔在纸质文件页面的右下角或左上角编写页号,不应压盖而是将原页号用铅笔划去以示区分。

(3)页面修整。破损严重或其他无法直接进行扫描或影响扫描质量的纸质档案,应先对页面进行专业处理后再扫描。

(4)填写备考表。在档案整理过程中,如对档案实体进行过调整并需要在备考表中注明的,应在备考表中注明。

1654244366120149.png

2.目录数据库建立

(1)应制定目录数据库数据规则,包括数据字段长度、字段类型、字段内容要求等。数据规则的制定应符合DA/T 18对档案著录的要求。

(2)数据库结构的设计应特别注意保持档案的内在联系,有利于纸质档案数字化成果的管理和利用。

(3)将纸质档案数字化前处理工作中对纸质档案目录进行修改、补充的结果录入数据库,形成准确、完整的目录数据。

(4)及时校对,对目录数据的质量进行检查,包括著录项目的完整性、著录内容的规范性和准确性等,发现不合格的数据应及时进行修改。

3.档案扫描

扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件选择相应的扫描设备,进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。扫描后的图像文件命名应和对应纸质档案的档号信息保持一致。

1654244392649666.png

扫描参数的选择和确定对纸质档案数字化文件质量有着较大影响,其中扫描分辨率直接关系到扫描文件的清晰度和还原效果。分辨率越高扫描文件就越清晰,其相应的扫描时间和存储空间就要增加。我们在选择分辨率时应根据实际需要综合考虑,包括扫描文件的可阅读性、存储空间、输出打印质量等做好档案数字化的全程控制。

集团配置的虹光A3彩色零边距扫描仪,可根据数字化需求对扫描彩色、黑白及灰度模式进行选择,分辨率设置通常不低于300dpi,需要进行高精度仿真复制的档案扫描分辨率建议不小于600dpi,电子文件存储格式为JPEG或TIFF。

1654244421233518.png

4.图像处理

(1)图像拼接。对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,保证纸质档案数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。

(2)旋转及纠偏。对不符合阅读方向的数字图像应进行旋转还原。对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。

(3)裁边。如需对数字图像进行裁边处理,应在距页边最外延至少2mm-3mm处裁剪图像。

(4)去污。如需对数字图像进行去污处理,以去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。

(5)图像质量检查。对数字图像进行检查,发现问题及时重扫或修正。

5.数据挂接

应借助相关软件对数据库中的目录数据和与其对应的纸质档案数字图像进行挂接,以实现目录数据与数字图像的关联。逐条对挂接结果进行检査,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,发现错误及时进行纠正。

6.数据抽检、验收与移交

以抽检方式检查目录数据库、图像文件、数据挂接的质量以及数字化工作记录是否完整等。一个批次数据抽检的比率应达到数字化总页数的5%以上(含5%)。采用计算机自动检验与人工检验相结合的方式对纸质档案数字化成果进行验收检验。验收合格的数据应按照纸质档案数字化工作方案及时移交,并履行交接手续。

热点聚焦