廣東振越智能家具有限公司—主營(yíng):密集架,智能密集架,電動(dòng)密集架,檔案密集架,是一家專注檔案裝具設(shè)備生產(chǎn)廠家。
7 檔案 OCR的實(shí)施
7.1 圖像導(dǎo)入
7.1.1 檔案 OCR實(shí)施前,應(yīng)先評(píng)估紙質(zhì)檔案數(shù)字復(fù)制件質(zhì)量是否符合 OCR 的基本要求。評(píng)估內(nèi)容DA/T77—2019一般應(yīng)包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對(duì)比度、灰度等。
7.1.2 紙質(zhì)檔案數(shù)字復(fù)制件的圖像分辨率應(yīng)不低于200dpi。特
殊情況下,如文字偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。文件命名應(yīng)符合 DA/T13、DA/T22、DA/T31的規(guī)定。
7.1.3 對(duì)質(zhì)量不能達(dá)到檔案 OCR工作基本要求的紙質(zhì)檔案數(shù)字復(fù)制件,應(yīng)按照 DA/T31的要求重新數(shù)字化后導(dǎo)入。
7.2 圖像預(yù)處理
7.2.1 二值化
7.2.1.1 在識(shí)別處理前,應(yīng)對(duì)彩色圖像進(jìn)行灰度化和二值化處理,對(duì)灰度圖像進(jìn)行二值化處理。應(yīng)采取局部自適應(yīng)二值化等算法,并支持自動(dòng)或手動(dòng)調(diào)節(jié)。
7.2.1.2 應(yīng)具備亮度和對(duì)比度值自動(dòng)、手動(dòng)調(diào)節(jié)功能。亮度和對(duì)比度值的設(shè)定以調(diào)整后的圖像中文字的筆畫連貫清晰為準(zhǔn)。
7.2.2 圖像降噪
7.2.2.1 對(duì)圖像中印刷體字符進(jìn)行識(shí)別處理前,需要根據(jù)噪聲的特征對(duì)待識(shí)別圖像進(jìn)行降噪處理,提升識(shí)別處理的精確度。
7.2.2.2 降噪處理應(yīng)去除在掃描過程中產(chǎn)生的污點(diǎn)、污線、黑邊等影響圖像質(zhì)量的雜質(zhì),去除檔案頁(yè)面原有的紙張褪變斑點(diǎn)、水漬、污點(diǎn)、裝訂孔等影響識(shí)別的地方。
7.2.3 傾斜校正
7.2.3.1 對(duì)圖像進(jìn)行識(shí)別前,應(yīng)進(jìn)行圖像方向檢測(cè)并進(jìn)行自動(dòng)水平或垂直傾斜校正。
7.2.3.2 應(yīng)支持由用戶指定圖像傾斜的角度,采用相應(yīng)的圖像旋轉(zhuǎn)算法進(jìn)行手工傾斜校正。
7.2.4 圖像監(jiān)測(cè)
圖像質(zhì)量控制程序應(yīng)自動(dòng)檢測(cè)圖像處理質(zhì)量。對(duì)無法達(dá)到質(zhì)量要求的圖像進(jìn)行標(biāo)注。
7.3 比對(duì)識(shí)別
7.3.1 版式分析
7.3.1.1 比對(duì)識(shí)別前應(yīng)對(duì)圖像中的字符塊結(jié)構(gòu)進(jìn)行版式分析,把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。
7.3.1.2 版式分析可采取多種分析方法,自動(dòng)檢測(cè)各版塊類型,對(duì)圖像內(nèi)部區(qū)域進(jìn)行邏輯歸類,記錄各版塊的位置,存儲(chǔ)版面信息。
7.3.2 檔案特征分析
7.3.2.1 歸檔章分析。建立歸檔章式樣庫(kù),自動(dòng)識(shí)別圖像中的歸檔章,并根據(jù)歸檔章樣式,識(shí)別出字段位置,如全宗號(hào)、年度、機(jī)構(gòu)、保管期限、件號(hào)、頁(yè)數(shù)等。
7.3.2.2 公文要素分析。建立公文格式庫(kù),可準(zhǔn)確識(shí)別公文的版頭、主體、版記三部分,識(shí)別公章、簽章等區(qū)域,比照公文樣式,識(shí)別密級(jí)和保密期限、緊急程度、發(fā)文字號(hào)、簽發(fā)人、標(biāo)題、主送機(jī)關(guān)、正文、附件說明、發(fā)文機(jī)關(guān)署名、成文日期、附注、附件、抄送機(jī)關(guān)等公文要素。公文要素 OCR識(shí)別要求見附錄 A。
7.3.2.3 表格分析。建立單獨(dú)表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發(fā)文稿紙、備考表等表格模板,識(shí)別表格中的字段位置。
7.3.2.4 印章分析。識(shí)別印章圖像位置,存儲(chǔ)印章圖像,建立印章名稱與印章圖像的關(guān)系庫(kù),用于版式恢復(fù)。
7.3.3 識(shí)別和匹配
7.3.3.1 識(shí)別時(shí)應(yīng)抽取字體、字號(hào)、粗體、斜體、首行縮進(jìn)等字符特征,通過相似度計(jì)算方法,與特征數(shù)據(jù)庫(kù)比對(duì),識(shí)別為計(jì)算機(jī)文字內(nèi)碼。
7.3.3.2 特征數(shù)據(jù)庫(kù)應(yīng)存儲(chǔ)多種印刷體字符、常用簽名和批注手寫體字符,具備可更新和可擴(kuò)充性。對(duì)使用頻率高的漢字、英文、數(shù)字以及常用的符號(hào)、常用簽名和批注手寫體字符應(yīng)建立高頻庫(kù)。應(yīng)將無法識(shí)別的手寫體篩選出來,通過人工識(shí)別,并將識(shí)別成果存入字符庫(kù)。
7.3.3.3 應(yīng)通過將比對(duì)后的識(shí)別文字根據(jù)上下文在可能的相似候選字群中找出最合乎邏輯的字詞對(duì)識(shí)別文字進(jìn)行除錯(cuò)或更正,以提高 OCR識(shí)別準(zhǔn)確率。
7.4 修改校正
7.4.1 應(yīng)對(duì)識(shí)別的文本進(jìn)行自動(dòng)語(yǔ)義識(shí)別和校正,通過詞匯庫(kù)和語(yǔ)義庫(kù)對(duì)識(shí)別后文本中的字符、詞匯、語(yǔ)句自動(dòng)進(jìn)行逐層分析更正。詞匯庫(kù)和語(yǔ)義庫(kù)應(yīng)具備更新和自動(dòng)學(xué)習(xí)功能。
7.4.2 應(yīng)對(duì)候選字、拒認(rèn)字和可能有問題的字詞、語(yǔ)句進(jìn)行標(biāo)記。
7.4.3 應(yīng)支持以人工方式對(duì) OCR成果進(jìn)行圖像與識(shí)別文字對(duì)照、修正等校正的功能,以滿足更高識(shí)別準(zhǔn)確率的特殊要求。
7.5 成果整理輸出
7.5.1 成果整理
7.5.1.1 支持按照紙質(zhì)檔案數(shù)字復(fù)制件的版式對(duì) OCR 成果的段落和表格進(jìn)行版面理解與重建。重建后 OCR成果的段落編排、表格樣式應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。
7.5.1.2 應(yīng)自動(dòng)分析、提取黨政機(jī)關(guān)公文的各公文要素,包括密級(jí)和保密期限、緊急程度、發(fā)文字號(hào)、簽發(fā)人、標(biāo)題、主送機(jī)關(guān)、正文、附件說明、發(fā)文機(jī)關(guān)署名、成文日期、附注、附件、抄送機(jī)關(guān)等。檔案 OCR成果中各公文要素位置應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。
7.5.1.3 應(yīng)支持調(diào)用、編輯、備份、導(dǎo)出 OCR成果,支持對(duì)文字、符號(hào)的搜索等功能。
7.5.2 成果輸出
7.5.2.1 檔案 OCR成果應(yīng)同時(shí)保存為純文本形式和雙層 PDF/OFD文件形式。
7.5.2.2 應(yīng)以紙質(zhì)檔案的件或頁(yè)為單位輸出、保存純文本形式檔案 OCR 成果。純文本形式 OCR 成
果保存規(guī)則參見表1:
7.5.2.3 應(yīng)以檔號(hào)為基礎(chǔ)對(duì)純文本形式檔案 OCR 成果命名,命名方式的選擇應(yīng)確保檔案 OCR 成果
命名唯一性。一件檔案保存為多個(gè)檔案 OCR成果文件時(shí),應(yīng)按檔號(hào)結(jié)合 OCR 成果順序流水號(hào)為檔案
OCR成果命名。
示例1:檔號(hào)為 A001-001-0001-0001的紙質(zhì)檔案數(shù)字復(fù)制件,對(duì)應(yīng)的 OCR成果文件名為 A00100100010001.txt。
示例2:檔號(hào)為 A001-001-0001-0002的紙質(zhì)檔案數(shù)字復(fù)制件包含收文處理單、文件正本兩個(gè)文件,對(duì)應(yīng)的 OCR成果文件名分別為 A00100100010002_01.txt和 A00100100010002_02.txt。
7.5.2.4 應(yīng)根據(jù)紙質(zhì)檔案數(shù)字復(fù)制件版式文件格式,自動(dòng)形成支持全文檢索的雙層 PDF 或 OFD 文件,方便全文檢索后對(duì)文件的閱讀。
7.5.2.5 應(yīng)支持按照檔案著錄規(guī)則和電子檔案元數(shù)據(jù)規(guī)范,自動(dòng)保存檔案 OCR 成果中的黨政機(jī)關(guān)公文要素。相關(guān)公文要素應(yīng)保存到數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)。
7.5.2.6 應(yīng)支持檔案 OCR成果中文簡(jiǎn)繁體的自動(dòng)轉(zhuǎn)換功能。
7.5.3 成果驗(yàn)收
7.5.3.1 應(yīng)采用計(jì)算機(jī)自動(dòng)檢驗(yàn)與人工檢驗(yàn)相結(jié)合的方式對(duì)紙質(zhì)檔案 OCR成果進(jìn)行驗(yàn)收檢驗(yàn)。
7.5.3.2 驗(yàn)收檢驗(yàn)內(nèi)容包括 OCR成果、提取的黨政機(jī)關(guān)公文要素、數(shù)據(jù)掛接情況、OCR工作文件和存儲(chǔ)載體等。
7.5.3.3 能夠采用計(jì)算機(jī)自動(dòng)檢驗(yàn)的項(xiàng)目應(yīng)采用計(jì)算機(jī)自動(dòng)檢驗(yàn)的方式進(jìn)行100%檢驗(yàn),對(duì)于無法用計(jì)算機(jī)自動(dòng)檢驗(yàn)的項(xiàng)目,可根據(jù)情況以件或卷為單位采用抽檢的方式進(jìn)行人工檢驗(yàn)。抽檢比率不得低于5%。