档案数字化加工方案

(三)数字化加工部分... 1

6.1.         需求分析与总结... 1

6.2.       参考的国家标准及技术规范... 2

6.3.         数字化加工实施细则... 3

6.9.1.       本项的扫描加工流程... 3

6.9.2.       生产流程有以下几个主要的步骤组成:... 4

6.9.3.       档案整理... 5

6.9.4.       著录标引... 6

6.9.5.       纸件扫描... 7

6.9.6.       图像处理... 8

6.9.7.       质量检验... 10

6.9.8.       档案还原装订... 10

6.9.9.       数据存储与备份... 12

6.9.10.    档案电子数据与XXXXXX烟草档案系统的无缝挂接... 12

6.4.         项目所采用的OCR处理技术介绍... 12

6.10.1.    OCR(光学字符识别)技术... 12

6.10.2.    所采用的OCR及双层PDF生产流程... 13

6.10.3.    生产流程逻辑示意图... 14

6.5.         XXXXXX档案数字化服务特点... 15

6.11.1.    自动化程度高... 15

6.11.2.    标准化程度高... 15

6.11.3.    严格的质量控制... 15

6.11.4.    文档安全性高... 15

6.11.5.    标准的格式... 15

6.11.6.    方便存储与管理... 16

(三)数字化加工部分

6.1.  需求分析与总结

此次项目是将中国烟草总公司XXXXXX省公司及所属11个市烟草公司的约183万页纸质档案进行数字化加工并将成品数据挂接到档案管理系统中,纸质档案的折分整理、扫描与图像处理、数据的挂接与光盘备份都将严格按照国家档案局相关标准及XXXXXX省档案局相关规定,结合XXXXXX烟草档案现状定制加工技术规范与生产加工流程。

。据上述现状,具体人员安排,项目实施周期,采用标准及实施细则如下。

6.2. 参考的国家标准及技术规范

《纸质档案数字化技术规范》(DA/T 31—2005)

《连续色调静态图像的数字压缩及编码》(GB/T 17235.1-1998)

《电子文件归档与管理规范》(GB/T 18894-2002)

《中央档案馆接收档案的标准》

《XXXXXX省档案接收和收集管理相关规定

《归档文件整理规则》(DA/T22-2000)

《档案著录规则》(DA/T 18-1999)

《无酸档案卷皮卷盒用纸及纸板》(DA/T 24-2000)   

《档案修裱技术规范》(DA/T 25-2000)  

《XXXXXXXXXXXX档案数字化技术规范》

《XXXXXX烟草档案数字化技术规范》


6.3.  数字化加工实施细则

6.9.1.   本项的扫描加工流程

 


6.9.2.   生产流程有以下几个主要的步骤组成:

纸质档案的整理

从档案室进行档案提卷,并记录提卷的内容,接着拆卷,并进行去污、平整化,并依据档案纸张的大小和厚薄分类。档案的整理工作主要是为了以后档案的扫描做准备。

6.9.2.1.    扫描及图像处理

根据不同档案纸张的大小和厚薄,选择不同的扫描仪,较为规整的选择快速扫描仪,较薄、较厚和不规整的用平板扫描仪,这样既能达到保护档案(高速扫描仪会发生卷纸,损坏档案)的目的,也能提高档案数字化加工的速度。

查重查漏

在扫描的过程中,难免会发生重复扫描和漏扫的现象,人工的再次校对能够发现档案数字化过程中出现的情况,并即使纠正。

数据项录入

依据档案著录规范或者依据客户档案的实际著录项,录入标题、责任者、归档时间、档号等各种信息。

6.9.2.2.    质量检测

对扫描图像和著录的标引数据进行检验,图像主要是检验其扫描和净化处理质量,数据项的质量检测主要是检测其录入正确率。

6.9.2.3.    档案还原

完成档案数字化后,要把原先的档案原件还原成原样。

6.9.3.   档案整理

6.9.3.1.    档案交接

档案按年度、案卷提档,提档时数字化实施方的提卷人员对每卷的所有页面进行统一的编号,全卷所有文件页号编写完成后,再依据XXXXXX烟草的要求抽出不需要扫描的文件页,然后再次按序编写需要扫描的文件页号,页号编写完成后,按实际文件页数填写详细的纸质档案交按清单,并由双方主管人员签字。

6.9.3.2.    档案拆分

档案拆分前要对档案进行统一的编号,编制总页号后,要从中选中需要扫描的页面。再一次编制所需扫描的页号,两个页号需用铅笔的颜色或位置区分,以确保档案还原时能够清楚区别和核时页数。

6.9.3.3.    目录数据准备

按照《档案著录规则》(DA/T18)等的要求,规范档案中的目录内容。包括确定档案目录的著录项、字段长度和内容要求。如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。

6.9.3.4.    拆除装订

在不去除装订物情况下,影响扫描工作进行的档案,应拆除装订物。拆除装订物时应注意保护档案不受损害。

6.9.3.5.    区分扫描件和非扫描件

按要求把同一案卷中的扫描件和非扫描件区分开。普发性文件区分的原则是:无关和重份的文件要剔除,有正式件的文件可以不扫描原稿。

6.9.3.6.    页面修整

破损严重、无法直接进行扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。

6.9.3.7.    档案整理登记

制作并填写纸质档案数字化加工过程交接登记表单,详细记录档案整理后每份文件的起始页号和页数。

6.9.4.   著录标引

6.9.4.1.    标引著录

标引著录为了方便查阅与管理,打印制作档案目录及档案封面,对文字录入的准确性要求较高,但要录的文本域并不是完全统一的在某一页面上,一些文本域要在多个文件中选择,所以录入时需要相关学部专家进行指导,确保文本域录入的准确率。

对所需录入的文本进行标引、或对不同类别的档案录入特征制作相应的《文字录入工作说明书》,供录入员和校对人员参考。 

6.9.4.2.    录入方式

由于文本类型不一,有印刷体、手写体、有表格内的也有表格外的文本信息,所以采用手工录入和OCR(光学字符识别)软件相结合的方式录入。即手写体或不清晰的印刷体采用手工录入,较规整的印刷体采用OCR技术的录入方式。

6.9.4.3.    校对方式

校对以软件校对和打印输出对比校对相结合的方式,即对手工录入和OCR自动录入的文本打印输出进行对比校对的一校、二校、抽查校对,确保索引信息达到出版质量万分之一以下。

6.9.5.   纸件扫描

原件的扫描与存储格式完全按照国家档案管理的统一标准和XXXXXX烟草的相关要求扫描。扫描人员按照《扫描与处理工作说明书》的要求,填写移交清单(此移交清单是档案拆分人员和扫描人员共同填写)并签字领取并进行纸件扫描。扫描图像使用先进的图像扫描处理软件(快图像系统),扫描人员可根据原稿质量,对系统进行定义,如自动倾斜校正、自动去污、自动分文件等批处理功能。在由系统自动处理功能的同时,扫描人员根据原件的实际情况做相应的调整,如超大页面的处理、纸张颜色深浅及薄厚的处理、扫描时可根据不同原件的情况,调整图像的分辨率、阀值、明亮度以及扫描方式和扫描速度,确保在扫描图像质量清晰的情况下,使原件完好无损。

图像的分辨率正常情况下为300dpi,如遇字间距和行行距过密、原件本身是复印件等字迹不清楚的情况,可适当增加扫描的分辨率但要保正图像清晰的同时,又不影响远程查询和游览的速度。

6.9.5.1.    扫描方式

根据档案幅面的大小(A4、A3、A0等)选择相应规格的扫描仪或专业扫描仪(如工程图纸可采用0号图纸扫描仪)进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。

纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率。

6.9.5.2.    扫描色彩模式

扫描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。

页面为黑白两色,并且字迹清晰、不带插图的档案.可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式进行扫描。

6.9.5.3.    扫描分辨率

扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择大于或等于200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。需要进行OCR汉字识别的档案,扫描分辨率建议选择大于或等于300dpi。

6.9.5.4.    扫描登记

    认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。

6.9.6.   图像处理

XXXXXXXXXXXX档案数字化工厂采用自动化处理和人工处理相结合的方式,确保图像质量的完美。通过校对系统对图像进行校对,确保图像顺序正确、去斑点、校验。,在校对时发现不合格图像及时返回前一工序进行改正。

6.9.6.1.    污渍、黑边、偏斜处理

数字化加工系统会根据原件质量的好坏对污渍的情况进行自动轻度、中度、高度去污,对纸质变质或扫描时的黑边完全自动清除、自动进行偏斜校正处理。系统支持局部去污、并能对不能够自动处理的页面进行单页多次修正。图像处理人员在发现扫描不合格的文件,进行登记后交扫描人员处理,双方签字确认后的表单留存备查。使因扫描造成的不合格图像机时返回上一生产流程。

6.9.6.2.    全文字面的扫描密度

图像处理人员在进行处理前,扫描人员会根据不同原件的情况,提高图像扫描的分辨率、阀值、明亮度以及扫描方式,如遇字间距和行行距过密、原件本身是复印件等字迹不清楚的情况,对手写过密的要对图像进行细致的修正,确保各书写工具写出的不同颜色、深浅的文字及图像信息清晰可辩。

6.9.6.3.    粘帖页与表格

对粘帖页面的处理先用XXXXXX数字化加工软件系统进行自动处理,在扫描的时消除粘帖重叠的曲线,不能自动处理的放大后人工处理。对字迹与表格线颜色深浅不一在扫描时进行细微调整后,图像处理时再进行局部调整。以确保数字档案的可阅读性。

6.9.6.4.    一般性文本流程图

提高图像扫描的分辨率,调整阀值、明亮度以及扫描方式,采用局部处理技术对图像进行修正。以确保数字档案游览时辨认流程图的流程线。

6.9.6.5.    插图页面处理

档案中有插图的要在扫描时对提高分辨率及相应调整,图文混排的页面不做拆分,在保持原始页面信息的同时使图像清晰可辩。

6.9.6.6.    照片页的处理

根据黑白或彩色图像对页面进行调整,对特殊照片的处理,必要时采用专业的图像处理软件进行处理,确保照片的清晰度。

6.9.6.7.    存储格式与页面空间

分辨率:200dpi

图像格式:TIFF、JPG

储存空间:B5或A4,20-30KB/页

6.9.7.   质量检验

对扫描处理完成后的图像页进行检验,对档案拆分、扫描、修正、去污、文本流程图的处理、插图、照片的处理以及文本和图像页的匹配进行检验等质量进行全面检验。

对文本域录入与文本录入域的标引、文件的页号及页数进行对比,对扫描前的图像页的标引与扫描后的图像页的编号与页数进行对比,发现不合格的登记清单并退回上一流程重新处理。

6.9.8.   档案还原装订

档案整理工作严格按照中央档案馆进馆标准规定的相关标准和XXXXXX烟草的实际情况进行有序的整理,XXXXXXXXXXXX档案数字化中心安排专人负责案卷合并与整理。

6.9.8.1.    原件合并

把扫描时挑出的页面插入到原来的页面位置中去,将扫描时展开的超大页面还原到扫描前的原样,把数字化中挑出的不要的多余页面提出。

6.9.8.2.    全卷整理

将每卷文件按形成的时间、顺序、文件类别进行整理。

6.9.8.3.    编写页号

按重新整理页面上按顺序统一的编写页号。

6.9.8.4.    案卷目录和卷内目录

按顺序将一个项目文件的合并到一卷中,并按中央档案馆进馆标准和XXXXXX烟草特有字段组成案卷目录和卷内目录。

6.9.8.5.    打印案卷封面和卷内目录

对案卷目录和卷内目录与卷内文件进行匹配后打印案卷目录和卷内目录以备装订使用。

6.9.8.6.    装订

严格按照中央档案馆进馆标准和XXXXXX烟草的要求将每卷档案的封面、卷内目录、卷内文件、左下角对齐打成三孔一线装订还原档案。

6.9.8.7.    案卷分盒

按年度、案卷、类别、机构等有规则地按顺序装入定制的档案盒。

6.9.8.8.    打印装箱单

按年度、箱号、盒号、卷号、总页数打印装箱清单。或按档案档案馆的要求制作打印装箱单。

6.9.8.9.    按顺序装箱

按箱子编号、年度、箱内盒数、案卷数与总页数装箱,参照国家档案馆的要求结合XXXXXX烟草的实际情况按序装箱。

6.9.8.10.   编制目录(年度目录)

制作出XXXXXX烟草档案装箱目录,合并各箱清单,统一编制页码,形成装箱目录,并按通用格式存储装箱目录的电子文件,以便检索与查找,或按档案馆进馆要求编制。

6.9.9.   数据存储与备份

在生产过程中,XXXXXX扫描加工中心是一个基于网络化流程化生产管理系统,我们在扫描的同时就同时产生两份备原始图像数据的备份数据。

在经过生产系统质量验收合格的电子文件后,我们将把扫描的成品数据与XXXXXX烟草的档案管理系统挂接,将按规则生产原始图像光盘及具备单盘检索的数据光盘。

6.9.10.         档案电子数据与XXXXXX烟草档案系统的无缝挂接

文本域录入和扫描处理检验后的图像成品,按年度进行文字图像与系统的挂接,不需手工挂接即可实现文本与图像页与系统的挂接。挂接到XXXXXX烟草档案管理系统中后,进行再次的成品验收,对各种使用习惯逐页进行检验,验收合格后移交到由XXXXXX烟草专家组成的验收小组验收。

6.9.10.1.   确保完美无缝挂接

因为XXXXXX烟草档案管理系统是采用XXXXXX软件的档案管理软件系统,XXXXXX档案扫描加工系统和XXXXXX档案管理系统可以实现自动批量挂接,无需人工干预即可实施目录数据与原文电子数据的无缝挂接。

6.4.  项目所采用的OCR处理技术介绍

6.10.1.         OCR(光学字符识别)技术

OCR是英文Optical Character Recognition 的缩写,中文意思就是通过光学技术对文字进行识别。OCR概念的产生是在1929年,德国的科学家Tausheck首先提出了OCR的概念,并且申请了专利。几年后,美国科学家Handel也提出了利用技术对文字进行识别的想法。但这种梦想直到计算机的诞生才变成了现实。现在这一技术已经由计算机来实现,OCR的意思就演变成为利用光学技术对文字和字符进行扫描识别,转化成计算机内码。

6.10.2.         所采用的OCR及双层PDF生产流程

6.10.2.1.   识别模块

   具有超强的识别核心.可以识别简、繁体汉字2万多,识别的语言包括中文简、繁体、英文、日文、韩文,自动版面分析能力大大增强.最大限度减少手工操作量。

6.10.2.2.   纵向校对模块

可以将成百上千张图像一起校对

将识别成同一个字的图像集中在一个窗口内,先标记错误,再自动与横校进行合并,后统一改正,校对工作量减少80%,错误率可控制在万分之一。

6.10.2.2.1.              版面恢复模块

通过版面恢复编辑器,可以将原始图像的所有信息恢复过来。比如:字体、颜色、花边等。

6.10.2.3.   双层PDF生成模块

  可直接在程序中进行后台PDF处理,无需在Acrobat中生成,方便而快捷。可以选择生成多种PDF格式:双层PDF文档包括图文混排的PDF、图在文上的PDF、图在文下的PDF等。

6.10.2.4.   自动处理模块

  可以实现图像文件到PDF文件的自动转换,生成的PDF文件能够实现全文检索,可以复制贴贴,也可以对某个指定目录进行长期监视,真正实现无人操作。

6.10.3.         生产流程逻辑示意图


6.5.  XXXXXX档案数字化服务特点

6.11.1.         自动化程度高

XXXXXX利用先进的文档扫描系统,实现网络化操作,自动批量处理,在扫描的同时由系统自己进行图像处理,自动去除图像黑边、倾斜校对、去斑点等,利用XXXXXXOCR(光学字符识别)技术识别索引字段并能转换为多种格式,所生成的文件格式能够方便地导入、导出多种标准格式。

6.11.2.         标准化程度高

完全符合档案管理要求和使用习惯,符合国家计算机光盘档案存储标准,符合国家档案局颁发的档案电子文档标准。

6.11.3.         严格的质量控制

采用先进的质量控制软件,网络化流水作业,整个流程由软件控制,前后工序紧密结合,次工序在完成本项操作的同时检查上一工序的质量是否合格,做到质量不合格随时返回,并有严格的员工操作记录,控制员工操作中的每一步,系统自动生成数据记录操作过程,随时检查任何工序的质量及完成情况,确保一次性达到成品质量要求。

6.11.4.         文档安全性高

从接收原始文档的拆分、扫描、文字录入、校对等流程都有随机的记录和管理,确保文档在扫描过程中不被损毁,每天上下班对文档质量及数量的实行严格核对与交接,认真填写作业清单和交结清单。

6.11.5.         标准的格式

我们从扫描、图像处理、文字录入到生成图像压缩格式,在保证图像质量的同时,使图像的所占的空间最小化并能同各种档案管理系统完美结合,方便归档及远程查询。

6.11.6.         方便存储与管理

可将扫描的电子文档方便存储于光盘中及其它存储器,按照国际标准TIFF格式,A4幅面二值图像,平均每页大小30K左右。每一张CD光盘可容纳万余张A4大小文件影像,可方便地统计、保存、快速、有效、系统地调阅,根据电子文档本身的特性,建立相应的检索目录,并与影像地址对应,在数秒钟内即可查询到任何一幅电子文档影像信息。

相关推荐