紙質(zhì)檔案數(shù)字化規(guī)范
(DA/T31—2017)
1 范圍
本標準規(guī)定了紙質(zhì)檔案數(shù)字化技術和管理要求,。 本標準適用于采用掃描設備對紙質(zhì)檔案的數(shù)字化加工過程的管理,。
2 規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的,。凡是注日期的引用文件,僅注日期的版本適用于本文件,。凡是不注日期的引用文件,,其最新版本(包括所有的修改單)適用于本文件。
GB/T 20530-2006 文獻檔案資料數(shù)字化工作導則 DA/T 1 檔案工作基本術語 DA/T 18 檔案著錄規(guī)則
ISO/TR 13028 信息與文獻 檔案數(shù)字化實施指南(Information and Documentation — Implementation guidelines for digitization of records)
3 術語和定義
GB/T 20530-2006,、DA/T 1,、DA/T 18界定的以及下列術語和定義適用于本文件。
3.1數(shù)字化 digitization
利用計算機技術將模擬信號轉(zhuǎn)換為數(shù)字信號的處理過程,。
3.2數(shù)字圖像digital image
表示實物圖像的整數(shù)陣列,。一個二維或更高維的采樣并量化的函數(shù),由相同維數(shù)的連續(xù)圖像產(chǎn)生,。
3.3紙質(zhì)檔案數(shù)字化digitization of paper-based records
采用掃描儀等設備對紙質(zhì)檔案進行數(shù)字化加工,,使其轉(zhuǎn)化為存儲在磁帶,、磁盤、光盤等載體上的數(shù)字圖像,,并按照紙質(zhì)檔案的內(nèi)在聯(lián)系,,建立起目錄數(shù)據(jù)與數(shù)字圖像關聯(lián)關系的處理過程。
3.4分辨率resolution
單位長度內(nèi)圖像包含的點數(shù)或像素數(shù),,一般用每英寸點數(shù)(dpi)表示,。
4 總則
4.1 各單位應根據(jù)檔案的珍貴程度、開放程度,、利用率,、亟待搶救程度、數(shù)字化資金情況等因素統(tǒng)籌規(guī)劃,、科學開展紙質(zhì)檔案數(shù)字化工作,。紙質(zhì)檔案數(shù)字化工作的開展應遵循ISO/TR 13028和GB/T 20530提出的要求和建議。
4.2 紙質(zhì)檔案數(shù)字化的基本環(huán)節(jié)主要包括:數(shù)字化前處理,、目錄數(shù)據(jù)庫建立、檔案掃描,、圖像處理,、數(shù)據(jù)掛接、數(shù)字化成果驗收與移交等,。
4.3 應采取有效的管理和技術手段,,確保紙質(zhì)檔案數(shù)字化成果質(zhì)量。紙質(zhì)檔案數(shù)字化應遵循檔案管理的客觀規(guī)律,,真實反映檔案內(nèi)容,,最大程度地展現(xiàn)檔案原貌。
4.4 紙質(zhì)檔案數(shù)字化過程中,,應保存數(shù)字化項目信息,、技術環(huán)境、數(shù)字化各類技術參數(shù)等方面的元數(shù)據(jù),。元數(shù)據(jù)元素的確定應符合ISO/TR 13028提出的要求,。
4.5 應加強紙質(zhì)檔案數(shù)字化各環(huán)節(jié)的安全管理,確保檔案實體和檔案信息的安全,。
4.6 加工涉密檔案時,,應按照涉密檔案相關保密要求開展工作。
5 組織與管理
5.1 機構及人員
5.1.1 應建立紙質(zhì)檔案數(shù)字化工作組織,,對數(shù)字化工作進行統(tǒng)籌規(guī)劃,、組織實施、協(xié)調(diào)管理,、安全保障,、技術保障,、監(jiān)督檢查、成果驗收等,,確保數(shù)字化工作的順利開展,。
5.1.2 應配備具有相應能力的工作人員,包括熟悉檔案業(yè)務并具有較高的調(diào)查研究水平和良好的組織領導能力的管理人員,,熟悉相關標準規(guī)范并能夠為紙質(zhì)檔案數(shù)字化工作各環(huán)節(jié)提供技術支持的技術人員,,掌握一定數(shù)字化基礎知識并熟悉本職工作的操作人員等。應通過科學規(guī)范的管理制度,,對工作人員進行規(guī)范化管理,。為強化數(shù)字化工作的安全性,應加強對外聘工作人員的審核,。
5.2 基礎設施
5.2.1 應配備專用加工場地,,并進行合理布局,形成檔案存放,、數(shù)字化前處理,、檔案著錄、檔案掃描,、圖像處理,、質(zhì)量檢查等工作區(qū)域。
5.2.2 加工場地的選擇及溫濕度等環(huán)境的控制不應不利于檔案實體的保護,。場地內(nèi)應配備可覆蓋全部場地的防火,、防水、防有害生物,、防盜報警,、視頻監(jiān)控等安全管理的設施設備。
5.2.3 應合理規(guī)劃,、配備和管理紙質(zhì)檔案數(shù)字化設施設備,,確保設施設備安全、先進,,能夠滿足數(shù)字化工作的需要,。
5.3 工作方案
5.3.1 應在充分調(diào)研的基礎上,制定科學合理的工作方案,,確保紙質(zhì)檔案數(shù)字化工作達到預期目標,。
5.3.2 紙質(zhì)檔案數(shù)字化工作方案應包括數(shù)字化對象、工作目標,、工作內(nèi)容,、成本核算、數(shù)字化技術方法和主要技術指標,、驗收依據(jù),、人員安排,、責任分工、進度安排,、安全管理措施等內(nèi)容,。數(shù)字化對象的確定應綜合考慮檔案的珍貴程度、開放程度,、利用率,、亟待搶救程度、數(shù)字化資金情況等因素,。
5.3.3 宜對紙質(zhì)檔案數(shù)字化工作方案進行專家論證,,確保其科學、規(guī)范,、合理,。
5.3.4 紙質(zhì)檔案數(shù)字化工作方案應經(jīng)審批后嚴格執(zhí)行。工作方案審批結果應與數(shù)字化工作過程中形成的其他文件一并保存,。
5.4 管理制度
5.4.1 應制定科學化,、規(guī)范化的管理制度,并在工作過程中嚴格執(zhí)行,,以有效保障檔案安全和紙質(zhì)檔案數(shù)字化成果質(zhì)量,。
5.4.2 紙質(zhì)檔案數(shù)字化管理制度應包含崗位管理、人員管理,、場地管理、設備管理,、數(shù)據(jù)管理,、檔案實體管理等方面的制度。
崗位管理制度主要規(guī)定數(shù)字化工作各崗位的工作目標和職責,,形成明確的崗位業(yè)務流程規(guī)范,、考核標準、獎懲辦法等,;人員管理制度主要對人員的安全責任,、日常行為、外聘人員信息審核及管理,、非工作人員來訪登記等進行規(guī)范,;場地管理制度主要對人員出入和工作場地內(nèi)基礎設施、環(huán)境,、網(wǎng)絡,、監(jiān)控設施、現(xiàn)場物品,、證件等的管理進行規(guī)范,;設備管理制度主要對數(shù)字化工作各環(huán)節(jié)涉及的全部設備的管理進行規(guī)范,;數(shù)據(jù)管理制度主要對數(shù)字化各環(huán)節(jié)所產(chǎn)生的數(shù)據(jù)的管理進行規(guī)范;檔案實體管理制度主要對檔案實體在數(shù)字化過程中的交接,、管理,、存放等工作進行規(guī)范。
5.5 工作流程控制
5.5.1 應依據(jù)相關的法律法規(guī)和各類技術標準,,制定相關的工作流程和各環(huán)節(jié)操作規(guī)范等,,對紙質(zhì)檔案數(shù)字化全過程進行有效的控制,確保數(shù)字化成果質(zhì)量,。紙質(zhì)檔案數(shù)字化流程示例參見附錄A,。
5.5.2 應加強對紙質(zhì)檔案數(shù)字化工作的全流程安全管理。
5.5.3 應建立完善的問題反饋機制,,對紙質(zhì)檔案數(shù)字化工作過程中后端環(huán)節(jié)發(fā)現(xiàn)前端環(huán)節(jié)中產(chǎn)生的問題進行及時反饋和修正,。
5.6 工作文件管理
5.6.1 應根據(jù)情況制定符合實際要求的紙質(zhì)檔案數(shù)字化工作文件,以此加強對數(shù)字化工作的管理,。主要包括紙質(zhì)檔案數(shù)字化工作方案,、紙質(zhì)檔案數(shù)字化審批書、紙質(zhì)檔案數(shù)字化流程單,、數(shù)據(jù)驗收單,、項目驗收報告、紙質(zhì)檔案數(shù)字化成果移交清單等,,采取外包方式實施時,,還應包括項目招標文件、投標文件,、中標通知書,、項目合同、保密協(xié)議等,。部分工作單示例參見附錄B,。
5.6.2 應加強對紙質(zhì)檔案數(shù)字化工作文件的管理,明確數(shù)字化工作過程中形成的工作文件的整理,、歸檔,、移交等管理要求。
5.7 檔案數(shù)字化外包
5.7.1 紙質(zhì)檔案數(shù)字化工作如需外包,,檔案部門應從企業(yè)性質(zhì),、股東組成、安全保密,、企業(yè)規(guī)模,、注冊資金情況等方面嚴格審查數(shù)字化加工企業(yè)的相關資質(zhì);按照GB/T 20530-2006第5章的要求評估數(shù)字化加工企業(yè)的技術能力;從規(guī)章制度的建立健全程度等方面考查加工企業(yè)的管理能力,。
5.7.2 在項目實施過程中,,應依據(jù)《檔案數(shù)字化外包安全管理規(guī)范》(檔辦發(fā)〔2014〕7號),從檔案部門,、數(shù)字化服務機構,、數(shù)字化場所、數(shù)字化加工設備,、檔案實體,、數(shù)字化成果移交接收與設備處理等層面執(zhí)行嚴格的安全管理要求。
5.7.3 檔案部門應指派專門人員參與紙質(zhì)檔案數(shù)字化外包業(yè)務的監(jiān)督,、指導,,完成質(zhì)量監(jiān)控、進度監(jiān)控,、投資監(jiān)控,、安全監(jiān)控和協(xié)調(diào)溝通等方面的工作。
6 檔案出庫
6.1 檔案保管部門應按照紙質(zhì)檔案數(shù)字化工作方案確定的數(shù)字化對象開展檔案調(diào)取,、清點,、登記等前期準備工作,并提交檔案出庫申請,,經(jīng)相關責任人批準后,,嚴格按照檔案庫房管理規(guī)定為數(shù)字化對象辦理出庫相關手續(xù),并與數(shù)字化部門共同清點無誤后,,對檔案進行交接出庫,。
6.2 紙質(zhì)檔案數(shù)字化過程中,應設置距離數(shù)字化加工場所較近的保管庫用以臨時存放紙質(zhì)檔案,,并對紙質(zhì)檔案的領取與歸還進行嚴格管理,,認真做好檢查、清點,、登記等工作,,確保紙質(zhì)檔案的安全,。
7 數(shù)字化前處理
7.1 確定掃描頁
原則上應將確定為數(shù)字化對象的紙質(zhì)檔案全部掃描,,不宜進行挑掃。如有不需要掃描的頁面應加以標注,。
7.2 編制頁號
7.2.1 應對沒有頁號或頁號不正確的檔案重新編制頁號,。
7.2.2 重新編制頁號時,應在統(tǒng)一位置書寫頁號,,且不壓蓋檔案內(nèi)容,。
7.2.3 書寫頁號所使用的筆、墨等不應破壞檔案原件
或?qū)n案長期保存造成影響,。
7.2.4 應將破損頁面,、缺頁等特殊情況進行登記,。
7.3 目錄數(shù)據(jù)準備
7.3.1 按照目錄數(shù)據(jù)庫建立時制定的數(shù)據(jù)規(guī)則,對照檔案原件內(nèi)容,,規(guī)范檔案中的目錄內(nèi)容,。
7.3.2 對需在目錄數(shù)據(jù)庫中進行標記的情況進行標記。
7.4 拆除裝訂
應以對紙質(zhì)檔案的保護為原則確定是否拆除裝訂,。如需拆除裝訂物,,應注意保護檔案不受損害,并對排列順序不準確的檔案進行重排,。特殊裝訂且拆除裝訂后需恢復的檔案,,在拆除裝訂物時應采用拍照等方式記錄檔案原貌,以便于恢復,。
7.5 技術修復
7.5.1 破損嚴重或其他無法直接進行掃描的紙質(zhì)檔案,,應先由專業(yè)技術人員進行技術修復。
7.5.2 折皺不平影響掃描質(zhì)量的紙質(zhì)檔案應先進行壓平等相應技術處理,。
8 目錄數(shù)據(jù)庫建立
8.1 應制定目錄數(shù)據(jù)庫數(shù)據(jù)規(guī)則,,包括數(shù)據(jù)字段長度、
字段類型,、字段內(nèi)容要求等,。目錄數(shù)據(jù)庫數(shù)據(jù)規(guī)則的制定應符合DA/T 18對檔案著錄的要求。在紙質(zhì)檔案目錄準備與目錄數(shù)據(jù)庫建立工作中均應嚴格遵守,。
8.2 數(shù)據(jù)庫選擇應考慮可轉(zhuǎn)換為通用數(shù)據(jù)格式,,以便于數(shù)據(jù)交換。
8.3 數(shù)據(jù)庫結構的設計應特別注意保持檔案的內(nèi)在聯(lián)系,,有利于紙質(zhì)檔案數(shù)字化成果的管理和利用,。
8.4 將紙質(zhì)檔案數(shù)字化前處理工作中對紙質(zhì)檔案目錄進行修改、補充的結果錄入數(shù)據(jù)庫,,形成準確,、完整的目錄數(shù)據(jù)。
8.5 可采用計算機自動校對與人工校對相結合的方式,,對目錄數(shù)據(jù)的質(zhì)量進行檢查,,包括著錄項目的完整性、著錄內(nèi)容的規(guī)范性和準確性等,。發(fā)現(xiàn)不合格的數(shù)據(jù)應及時進行修改,。
9 檔案掃描
9.1 基本要求
檔案掃描應根據(jù)紙質(zhì)檔案原件實際情況、數(shù)字化目的,、數(shù)字化規(guī)模,、計算機網(wǎng)絡和存儲條件等選擇相應的掃描設備,和進行相關參數(shù)的設置和調(diào)整。參數(shù)的設置和調(diào)整應保證掃描后數(shù)字圖像清晰,、完整,、不失真,圖像效果最接近檔案原貌,。
9.2 掃描設備
9.2.1 掃描設備的選擇應特別注意對檔案實體的保護,,盡量采用對檔案實體破壞性小的掃描設備進行數(shù)字化。
9.2.2 超出所使用掃描儀掃描尺寸的檔案可采用更大幅面掃描儀進行掃描,,也可以采用小幅面掃描儀分幅掃描后進行圖像拼接的方式處理,。分幅掃描時,相鄰圖像之間應留有足夠的重疊,,并且采用標版等方式明確說明分幅方法,;若后期采用軟件自動拼接的方式,重疊尺寸建議不小于單幅圖像對應原件尺寸的1/3,。
9.2.3 應遵循相關設備的使用規(guī)律進行定期維護,、保養(yǎng)。
9.3 掃描色彩模式
9.3.1 為最大限度保留檔案原件信息,,便于多種方式的利用,,宜全部采用彩色模式進行掃描。
9.3.2 頁面中有紅頭,、印章或插有照片,、彩色插圖、多色彩文字等的檔案,,應采用彩色模式進行掃描,。
9.3.3 頁面為黑白兩色,并且字跡清晰,、不帶插圖的檔案,,也可采用黑白二值模式進行掃描。
9.3.4 頁面為黑白兩色,,但字跡清晰度差或帶有插圖的檔案,,也可采用灰度模式掃描。
9.4 掃描分辨率
9.4.1 掃描分辨率的選擇,,應保證掃描后圖像清晰,、完整,并綜合考慮數(shù)字圖像后期利用方式等因素,。
9.4.2 掃描分辨率應不小于200dpi,。如文字偏小,、密集,、清晰度較差時,建議掃描分辨率不小于300dpi。
9.4.3 如有COM輸出,、仿真復制,、印刷出版等其他用途時,可根據(jù)需要調(diào)整掃描分辨率,。需要進行COM輸出的檔案,,掃描分辨率建議不小于于300 dpi;需要進行高精度仿真復制的檔案,,掃描分辨率建議不小于600 dpi,;需要進行印刷出版的檔案,可結合檔案幅面,、印刷出版幅面,、印刷精度要求等選擇合適的分辨率。
9.5 存儲格式
9.5.1 紙質(zhì)檔案數(shù)字圖像長期保存格式為TIFF,、JPEG或JPEG2000等通用格式,,圖像壓縮率的選擇可根據(jù)實際應用的需求而定。
9.5.2 紙質(zhì)檔案數(shù)字圖像利用時,,也可從網(wǎng)絡瀏覽速度,、易操作性、存儲空間占用等方面進行綜合考慮,,將圖像轉(zhuǎn)換為PDF等其他格式,。
9.5.3 同一批檔案應采用相同的存儲格式。
9.6 圖像命名
9.6.1 應以檔號為基礎對數(shù)字圖像命名,。圖像命名方式的選擇應確保圖像命名的唯一性,。
9.6.2 建議將數(shù)字圖像存儲為單頁文件,并按檔號與圖像流水號的組合對圖像命名,。
9.6.3 數(shù)字圖像確需存儲為多頁文件時,,可采用該檔案的檔號對圖像命名。
9.6.4 應科學建立紙質(zhì)檔案數(shù)字圖像的存儲路徑,,確保數(shù)據(jù)掛接的準確性,。
10 圖像處理
10.1 圖像拼接
對分幅掃描形成的多幅數(shù)字圖像,應進行拼接處理,,合并為一個完整的圖像,,以保證紙質(zhì)檔案數(shù)字圖像的整體性。拼接時應確保拼接處平滑地融合,,拼接后整幅圖像無明顯拼接痕跡,。
10.2 旋轉(zhuǎn)及糾偏
對不符合閱讀方向的數(shù)字圖像應進行旋轉(zhuǎn)還原。對出現(xiàn)偏斜的圖像應進行糾偏處理,,以達到視覺上基本不感覺偏斜為準,。
10.3 裁邊
如需對數(shù)字圖像進行裁邊處理,,應在距頁邊最外延至少2至3毫米處裁剪圖像。
10.4 去污
如需對數(shù)字圖像進行去污處理,,以去除在掃描過程中產(chǎn)生的污點,、污線、黑邊等影響圖像質(zhì)量的雜質(zhì),,應遵循展現(xiàn)檔案原貌的原則,,處理過程中不得去除檔案頁面原有的紙張褪變斑點、水漬,、污點,、裝訂孔等痕跡。
10.5 圖像質(zhì)量檢查
10.5.1 數(shù)字圖像不完整,、無法清晰識別或圖像失真度較大時,,應重新掃描。 10.5.2 對于漏掃,、重掃,、多掃等情況,應及時改正,。
10.5.3 數(shù)字圖像的排列順序與檔案原件不一致時,,應及時進行調(diào)整。
10.5.4 對數(shù)字圖像拼接,、旋轉(zhuǎn)及糾偏,、裁邊、去污等處理情況進行檢查,,發(fā)現(xiàn)不符合圖像質(zhì)量要求時,,應重新進行圖像處理。
11 數(shù)據(jù)掛接
11.1 應借助相關軟件對數(shù)據(jù)庫中的目錄數(shù)據(jù)與其對
應的紙質(zhì)檔案數(shù)字圖像進行掛接,,以實現(xiàn)目錄數(shù)據(jù)與數(shù)字圖像的關聯(lián),。
11.2 逐條對掛接結果進行檢查,包括目錄數(shù)據(jù)與紙質(zhì)檔案數(shù)字圖像對應的準確性,、已掛接數(shù)字圖像與實際掃描數(shù)量的一致性,、數(shù)字圖像是否能正常打開等,發(fā)現(xiàn)錯誤及時進行糾正,。
12 數(shù)字化成果驗收與移交
12.1 驗收方式
12.1.1 建議檔案部門成立專門的驗收組對紙質(zhì)檔案數(shù)字化成果進行驗收,。
12.1.2 應采用計算機自動檢驗與人工檢驗相結合的方式對紙質(zhì)檔案數(shù)字化成果進行驗收檢驗。
12.2 驗收內(nèi)容
12.2.1 紙質(zhì)檔案數(shù)字化成果包括數(shù)字圖像,、檔案目錄數(shù)據(jù),、元數(shù)據(jù)、數(shù)字化工作中產(chǎn)生的工作文件,、存儲載體等,。
12.2.2 應對目錄數(shù)據(jù)進行驗收,,主要包括數(shù)據(jù)庫中各條目的內(nèi)容、格式等的準確程度,、必填項是否填寫等。
12.2.3 應對元數(shù)據(jù)進行驗收,,主要包括元數(shù)據(jù)元素的完整性和賦值規(guī)范性等,。
12.2.4 應對數(shù)字圖像進行驗收,主要包括數(shù)字化參
數(shù),、存儲路徑,、命名的準確性、圖像的完整性,、排列順序的準確性,、圖像質(zhì)量等。
12.2.5 應對數(shù)據(jù)掛接進行驗收,,主要包括目錄數(shù)據(jù)與其對應的數(shù)字圖像的掛接的準確性等,。
12.2.6 應對工作文件進行驗收,主要包括工作文件的完整性,、規(guī)范性等,。
12.2.7 應對存儲載體進行驗收,主要包括載體的可用性,、有無病毒等,。
12.3 驗收指標
能夠采用計算機自動檢驗的項目應采用計算機自動檢驗的方式進行100%檢驗,檢驗合格率應為100%,。對于無法用計算機自動檢驗的項目,,可根據(jù)情況以件或卷為單位采用抽檢的方式進行人工檢驗。抽檢比率不得低于5%,,對于數(shù)據(jù)庫條目與數(shù)字圖像內(nèi)容對應的準確性,,抽檢合格率應為100%,其他內(nèi)容的抽檢合格率應不低于95%,。
12.4 驗收結論
12.4.1 每批紙質(zhì)檔案數(shù)字化成果質(zhì)量檢驗達到本標準12.2和12.3的要求,,予以驗收“通過”。驗收未通過應視情況進行返工或修改后,,重新進行驗收,。
12.4.2 驗收完成后須經(jīng)驗收組成員簽字。驗收“通過”的結論,,必須經(jīng)相關領導審核,、簽字后方有效。
12.5 移交
驗收合格的數(shù)據(jù)應按照紙質(zhì)檔案數(shù)字化工作方案及時移交,,并履行交接手續(xù),。移交單示例參見附錄B,。
13 檔案歸還入庫
13.1 檔案裝訂
紙質(zhì)檔案數(shù)字化工作完成后,拆除過裝訂物的檔案如需裝訂,,應注意保持檔案原貌,,做到安全、準確,、無遺漏,。
13.2 檔案歸還入庫
按照檔案入庫相關要求對紙質(zhì)檔案進行處理和清點,并履行檔案入庫手續(xù),。