廣東振越智能家具有限公司—主營:密集架,智能密集架,電動密集架,檔案密集架,是一家專注檔案裝具設(shè)備生產(chǎn)廠家。
1 范圍
本標準規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件光學字符識別(OCR)工作的組織、實施和管理。
本標準適用于字跡清晰、文本規(guī)范的紙質(zhì)檔案數(shù)字復(fù)制件的光學字符識別(OCR)工作。
2 規(guī)范性引用文件
下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
DA/T13 檔號編制規(guī)則
DA/T22 歸檔文件整理規(guī)則
DA/T31 紙質(zhì)檔案數(shù)字化規(guī)范
3 術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
字符 character
供組織、控制或表示數(shù)據(jù)用的元素集合中的一個元素。
[GB18030—2005,定義4.1]
3.2
字符集 characterset
多個字符的集合。
注:常見字符集有 ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。
3.3
光學字符識別 opticalcharacterrecognition;OCR
通過信息技術(shù)對圖像文件中的字符形狀進行識別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。
3.4
紙質(zhì)檔案數(shù)字復(fù)制件 digitalcopyofpaper-basedrecord紙質(zhì)檔案經(jīng)過數(shù)字化加工過程后形成的,存儲在磁帶、磁盤、光盤等載體上并能被計算機等電子設(shè)備識別的數(shù)字圖像。
3.5 檔案 OCR成果 OCRoutcomeofrecord
記錄通過 OCR技術(shù)獲取的紙質(zhì)檔案數(shù)字復(fù)制件文字內(nèi)容的文件。
3DA/T77—2019
3.6
識別準確率 recognitionaccuracy
通過OCR技術(shù)識別正確字符的比率。注:識別準確率=(識別正確字符數(shù)/應(yīng)識別字符總數(shù))×100%
3.7
識別速度 recognitionspeed單位時間內(nèi)通過 OCR技術(shù)識別字符的數(shù)量。
4 總則
4.1 檔案 OCR應(yīng)納入數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃、有序?qū)嵤?逐步實現(xiàn)常態(tài)化。
4.2 檔案 OCR應(yīng)科學開展,有利于實現(xiàn)檔案信息檢索和計算機輔助編目、編研開發(fā)、數(shù)據(jù)挖掘。
4.3 檔案 OCR應(yīng)基于檔案數(shù)字化工作,檔案 OCR成果與紙質(zhì)檔案數(shù)字復(fù)制件之間應(yīng)建立準確、可靠的關(guān)聯(lián)關(guān)系。
4.4 應(yīng)當釆取有效的管理和技術(shù)手段,加強檔案 OCR的過程管理和質(zhì)量控制,確保檔案 OCR 過程規(guī)范、成果可靠、數(shù)據(jù)安全。
4.5 涉密紙質(zhì)檔案數(shù)字復(fù)制件的 OCR工作,應(yīng)符合涉密檔案相關(guān)的管理和技術(shù)要求。
5 工作組織
5.1 機構(gòu)及人員
5.1.1 應(yīng)建立檔案 OCR工作機構(gòu),配備相應(yīng)素質(zhì)和技術(shù)水平的工作人員,組織開展檔案 OCR 工作的統(tǒng)籌規(guī)劃、組織實施、協(xié)調(diào)管理、技術(shù)保障、安全保障、監(jiān)督檢查、成果驗收和長期保存等。檔案 OCR 可與紙質(zhì)檔案數(shù)字化工作統(tǒng)籌配置工作機構(gòu)和人員。
5.1.2 檔案 OCR工作實行服務(wù)外包的,應(yīng)從企業(yè)性質(zhì)、股東組成、安全保密、企業(yè)規(guī)模、注冊資金情況等方面嚴格審查檔案 OCR服務(wù)供方的相關(guān)資質(zhì);從規(guī)章制度的建立健全程度等方面考查服務(wù)供方的管理能力,建立權(quán)責明確、覆蓋工作全過程的監(jiān)督機制和安全防范機制,確保檔案信息安全。對外聘的工作人員,應(yīng)進行安全審查,按規(guī)定進行保密教育。
5.2 流程控制
5.2.1 檔案 OCR流程包括圖像導(dǎo)入、圖像預(yù)處理、比對識別、修改校正、成果整理輸出五個業(yè)務(wù)環(huán)節(jié)。應(yīng)依據(jù)相關(guān)技術(shù)標準,對檔案 OCR全過程進行有效控制。
5.2.2 應(yīng)加強對檔案 OCR工作全流程的質(zhì)量管理和安全管理,建立完善的質(zhì)量、安全問題發(fā)現(xiàn)、修正機制,確保 OCR成果質(zhì)量和檔案信息安全。
5.3 工作文件與元數(shù)據(jù)
5.3.1 應(yīng)建立檔案 OCR工作方案、技術(shù)方案、工作審批材料、流程控制材料、數(shù)據(jù)驗收材料、項目驗收報告、成果移交材料等的管理工作文件,采取服務(wù)外包的還應(yīng)包括項目招標文件、投標文件、中標通知書、項目合同、保密協(xié)議、操作規(guī)程、監(jiān)管記錄等,以加強對檔案 OCR工作的管理。
5.3.2 應(yīng)參照相關(guān)標準,提出檔案 OCR 工作流程中相關(guān)元數(shù)據(jù)設(shè)計、捕獲、著錄和管理的基本要求,與對應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件管理過程元數(shù)據(jù)實施融合管理,并納入數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。
4DA/T77—2019
6 方案制定
6.1 確定工作策略
6.1.1
文 OCR工作開展前,應(yīng)當依據(jù)紙質(zhì)檔案數(shù)字復(fù)制件 OCR項目的計劃、合同、招投標書等有關(guān)項目件,對 OCR工作的識別處理系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、基礎(chǔ)設(shè)施、保障能力等方面進行業(yè)務(wù)評價。
6.1.2 評價通過后,應(yīng)根據(jù)以下因素,制定檔案 OCR的工作策略:
———圖像資源:符合導(dǎo)入標準的可識別的彩色(24bits)、灰度(256階)和黑白二值圖像。一般應(yīng)為TIFF、BMP、JPG、PDF(圖像)、OFD(圖像)格式文件。
———OCR引擎:對圖像包含文字進行高速度和高準確率識別的 OCR軟件開發(fā)包。
———OCR軟件:裝備 OCR引擎的軟件,可高速、準確輸出識別成果,支持人工比對和校正。應(yīng)根據(jù)需要識別的目標,按照項目資源的成本風險平衡原則確定 OCR 的范圍、質(zhì)量、效率、技術(shù)等要求。
———基礎(chǔ)設(shè)施:支持系統(tǒng)運行的場所、設(shè)施和設(shè)備,包括 OCR 設(shè)備及工作間、介質(zhì)的場外存放場所、備用的機房及輔助設(shè)施等。
———專業(yè)技術(shù)支持能力:對系統(tǒng)的運轉(zhuǎn)提供支撐和綜合保障的能力,以實現(xiàn)系統(tǒng)的預(yù)期目標。包括硬件、系統(tǒng)軟件和應(yīng)用軟件的問題分析和處理能力,網(wǎng)絡(luò)系統(tǒng)安全運行管理能力,溝通協(xié)調(diào)能力等。
———運行維護管理能力:保障系統(tǒng)相關(guān)的設(shè)備和軟件正常運行,提供長期、及時、全面的技術(shù)支持的能力。包括運行環(huán)境管理、系統(tǒng)管理、安全管理和變更管理等。
———災(zāi)難恢復(fù)預(yù)案:對系統(tǒng)災(zāi)難實行快速、有效的響應(yīng)和恢復(fù)。包括災(zāi)難緊急響應(yīng),災(zāi)后系統(tǒng)重建及重續(xù)運行,通信、后勤、技術(shù)等相關(guān)保障機制建設(shè)。
6.2 制定技術(shù)方案
6.2.1 應(yīng)當根據(jù)確定的檔案 OCR工作策略制定 OCR各工作系統(tǒng)技術(shù)方案,包含 OCR 的數(shù)據(jù)管理系統(tǒng)、OCR識別處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。技術(shù)方案中所涉及的系統(tǒng)應(yīng)滿足如下條件:
———與檔案管理系統(tǒng)相當?shù)陌踩Wo級別;
———具有可擴展性;
———對檔案管理系統(tǒng)無明顯可用性和性能影響。
6.2.2 為確保技術(shù)方案滿足檔案 OCR 工作策略的要求,應(yīng)對技術(shù)方案進行確認和驗證,并記錄和保存驗證及確認的成果。按照確認的 OCR軟件技術(shù)方案進行開發(fā),實現(xiàn)所要求的數(shù)據(jù)管理系統(tǒng)、OCR 識別處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。
6.2.3 應(yīng)按照經(jīng)過確認的技術(shù)方案,制定 OCR 軟件各階段的系統(tǒng)安裝及測試計劃,以及支持不同關(guān)
鍵業(yè)務(wù)功能的系統(tǒng)安裝及測試計劃,并組織最終用戶共同進行測試。確認以下各項功能可正確實現(xiàn):
———對識別圖像進行預(yù)處理;
———數(shù)據(jù)識別及校驗;
———輸出檔案 OCR成果;
———數(shù)據(jù)安全管理。