EN

紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范(DA T 77-2019)

時(shí)間:2023-10-12

ICS 01.140.20

A 14



中華人民共和國檔案行業(yè)標(biāo)準(zhǔn)

DA/T 77-2019

紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符

識別(OCR)工作規(guī)范

Specification for optical character recognition (OCR) of digital

copies of paper-based records

2019-12-16發(fā)布 2020-05-01 實(shí)施

國家檔案局 發(fā)布


DA/T 77-2019

本標(biāo)準(zhǔn)按照GB/T 1.1-2009給出的規(guī)則起草。

本標(biāo)準(zhǔn)由國家檔案局提出并歸口。

本標(biāo)準(zhǔn)起草單位:國家檔案局館室司、青島市檔案館。

本標(biāo)準(zhǔn)主要起草人:劉蕓、丁德勝、楊來青、鄒杰。


DA/T 77-2019

紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符

識別(OCR)工作規(guī)范

1 范圍

本標(biāo)準(zhǔn)規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作的組織、實(shí)施和管理。

本標(biāo)準(zhǔn)適用于字跡清晰、文本規(guī)范的紙質(zhì)檔案數(shù)字復(fù)制件的光學(xué)字符識別(OCR)工作。

2 規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

DA/T 13 檔號編制規(guī)則

DA/T 22 歸檔文件整理規(guī)則

DA/T 31 紙質(zhì)檔案數(shù)字化規(guī)范

3 術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

字符 character

供組織、控制或表示數(shù)據(jù)用的元素集合中的一個(gè)元素。

[GB 18030-2005,定義4.1]

3.2

字符集 character set

多個(gè)字符的集合。

注:常見字符集有ASCII字符集、GB 2312字符集、BIG5字符集、GB 18030字符集、Unicode字符集等。

3.3

光學(xué)字符識別 optical character recognition;OCR

通過信息技術(shù)對圖像文件中的字符形狀進(jìn)行識別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。

3.4

紙質(zhì)檔案數(shù)字復(fù)制件 digital copy of paper-based record

紙質(zhì)檔案經(jīng)過數(shù)字化加工過程后形成的,存儲(chǔ)在磁帶、磁盤、光盤等載體上并能被計(jì)算機(jī)等電子設(shè)備識別的數(shù)字圖像。

3.5

檔案OCR成果 OCR outcome of record

記錄通過OCR技術(shù)獲取的紙質(zhì)檔案數(shù)字復(fù)制件文字內(nèi)容的文件。


DA/T 77-2019

3.6

識別準(zhǔn)確率 recognition accuracy

通過OCR技術(shù)識別正確字符的比率。

注:識別準(zhǔn)確率=(識別正確字符數(shù)/應(yīng)識別字符總數(shù))x100%

3.7

識別速度 recognition speed

單位時(shí)間內(nèi)通過OCR技術(shù)識別字符的數(shù)量。

4 總則

4.1 檔案OCR應(yīng)納人數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃、有序?qū)嵤?,逐步?shí)現(xiàn)常態(tài)化。

4.2 檔案OCR應(yīng)科學(xué)開展,有利于實(shí)現(xiàn)檔案信息檢索和計(jì)算機(jī)輔助編目、編研開發(fā)、數(shù)據(jù)挖掘。

4.3 檔案OCR應(yīng)基于檔案數(shù)字化工作,檔案OCR成果與紙質(zhì)檔案數(shù)字復(fù)制件之間應(yīng)建立準(zhǔn)確、可靠的關(guān)聯(lián)關(guān)系。

4.4 應(yīng)當(dāng)采取有效的管理和技術(shù)手段,加強(qiáng)檔案OCR的過程管理和質(zhì)量控制,確保檔案OCR過程規(guī)范、成果可靠、數(shù)據(jù)安全。

4.5 涉密紙質(zhì)檔案數(shù)字復(fù)制件的OCR工作,應(yīng)符合涉密檔案相關(guān)的管理和技術(shù)要求。

5 工作組織

5.1 機(jī)構(gòu)及人員

5.1.1 應(yīng)建立檔案OCR工作機(jī)構(gòu),配備相應(yīng)素質(zhì)和技術(shù)水平的工作人員,組織開展檔案OCR工作的統(tǒng)籌規(guī)劃、組織實(shí)施、協(xié)調(diào)管理、技術(shù)保障、安全保障、監(jiān)督檢查、成果驗(yàn)收和長期保存等。檔案OCR可與紙質(zhì)檔案數(shù)字化工作統(tǒng)籌配置工作機(jī)構(gòu)和人員。

5.1.2 檔案OCR工作實(shí)行服務(wù)外包的,應(yīng)從企業(yè)性質(zhì)、股東組成、安全保密、企業(yè)規(guī)模、注冊資金情況等方面嚴(yán)格審查檔案OCR服務(wù)供方的相關(guān)資質(zhì);從規(guī)章制度的建立健全程度等方面考查服務(wù)供方的管理能力,建立權(quán)責(zé)明確、覆蓋工作全過程的監(jiān)督機(jī)制和安全防范機(jī)制,確保檔案信息安全。對外聘的工作人員,應(yīng)進(jìn)行安全審查,按規(guī)定進(jìn)行保密教育。

5.2 流程控制

5.2.1 檔案OCR流程包括圖像導(dǎo)入、圖像預(yù)處理、比對識別、修改校正、成果整理輸出五個(gè)業(yè)務(wù)環(huán)節(jié)。應(yīng)依據(jù)相關(guān)技術(shù)標(biāo)準(zhǔn),對檔案OCR全過程進(jìn)行有效控制。

5.2.2 應(yīng)加強(qiáng)對檔案OCR工作全流程的質(zhì)量管理和安全管理,建立完善的質(zhì)量、安全問題發(fā)現(xiàn)、修正機(jī)制,確保OCR成果質(zhì)量和檔案信息安全。

5.3 工作文件與元數(shù)據(jù)

5.3.1 應(yīng)建立檔案OCR工作方案、技術(shù)方案、工作審批材料、流程控制材料、數(shù)據(jù)驗(yàn)收材料、項(xiàng)目驗(yàn)收報(bào)告、成果移交材料等的管理工作文件,采取服務(wù)外包的還應(yīng)包括項(xiàng)目招標(biāo)文件、投標(biāo)文件、中標(biāo)通知書、項(xiàng)目合同、保密協(xié)議、操作規(guī)程、監(jiān)管記錄等,以加強(qiáng)對檔案OCR工作的管理。

5.3.2 應(yīng)參照相關(guān)標(biāo)準(zhǔn),提出檔案OCR工作流程中相關(guān)元數(shù)據(jù)設(shè)計(jì)、捕獲、著錄和管理的基本要求,與對應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件管理過程元數(shù)據(jù)實(shí)施融合管理,并納人數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。


DA/T 77-2019

6 方案制定

6.1 確定工作策略

6.1.1 OCR工作開展前,應(yīng)當(dāng)依據(jù)紙質(zhì)檔案數(shù)字復(fù)制件OCR項(xiàng)目的計(jì)劃、合同、招投標(biāo)書等有關(guān)項(xiàng)目文件,對OCR工作的識別處理系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、基礎(chǔ)設(shè)施、保障能力等方面進(jìn)行業(yè)務(wù)評價(jià)。

6.1.2 評價(jià)通過后,應(yīng)根據(jù)以下因素,制定檔案OCR的工作策略:

----圖像資源:符合導(dǎo)入標(biāo)準(zhǔn)的可識別的彩色(24 bits)、灰度(256階)和黑白二值圖像。一

般應(yīng)為TIFF、BMP、JPG、PDF(圖像)、OFD(圖像)格式文件。

----OCR引擎:對圖像包含文字進(jìn)行高速度和高準(zhǔn)確率識別的OCR軟件開發(fā)包。

----OCR軟件:裝備OCR引擎的軟件,可高速、準(zhǔn)確輸出識別成果,支持人工比對和校正。應(yīng)根

據(jù)需要識別的目標(biāo),按照項(xiàng)目資源的成本風(fēng)險(xiǎn)平衡原則確定OCR的范圍、質(zhì)量、效率、技術(shù)等要求。

----基礎(chǔ)設(shè)施:支持系統(tǒng)運(yùn)行的場所、設(shè)施和設(shè)備,包括OCR設(shè)備及工作間、介質(zhì)的場外存放場

所、備用的機(jī)房及輔助設(shè)施等。

----專業(yè)技術(shù)支持能力:對系統(tǒng)的運(yùn)轉(zhuǎn)提供支撐和綜合保障的能力,以實(shí)現(xiàn)系統(tǒng)的預(yù)期目標(biāo)。包

括硬件、系統(tǒng)軟件和應(yīng)用軟件的問題分析和處理能力,網(wǎng)絡(luò)系統(tǒng)安全運(yùn)行管理能力,溝通協(xié)

調(diào)能力等。

----運(yùn)行維護(hù)管理能力:保障系統(tǒng)相關(guān)的設(shè)備和軟件正常運(yùn)行,提供長期、及時(shí)、全面的技術(shù)

支持的能力。包括運(yùn)行環(huán)境管理、系統(tǒng)管理、安全管理和變更管理等。

----災(zāi)難恢復(fù)預(yù)案:對系統(tǒng)災(zāi)難實(shí)行快速、有效的響應(yīng)和恢復(fù)。包括災(zāi)難緊急響應(yīng),災(zāi)后系統(tǒng)

重建及重續(xù)運(yùn)行,通信、后勤、技術(shù)等相關(guān)保障機(jī)制建設(shè)。

6.2 制定技術(shù)方案

6.2.1 應(yīng)當(dāng)根據(jù)確定的檔案OCR工作策略制定OCR各工作系統(tǒng)技術(shù)方案,包含OCR的數(shù)據(jù)管理系統(tǒng)、OCR識別處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。技術(shù)方案中所涉及的系統(tǒng)應(yīng)滿足如下條件:

----與檔案管理系統(tǒng)相當(dāng)?shù)陌踩Wo(hù)級別;

----具有可擴(kuò)展性;

----對檔案管理系統(tǒng)無明顯可用性和性能影響。

6.2.2 為確保技術(shù)方案滿足檔案OCR工作策略的要求,應(yīng)對技術(shù)方案進(jìn)行確認(rèn)和驗(yàn)證,并記錄和保存驗(yàn)證及確認(rèn)的成果。按照確認(rèn)的OCR軟件技術(shù)方案進(jìn)行開發(fā),實(shí)現(xiàn)所要求的數(shù)據(jù)管理系統(tǒng)、OCR識別處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。

6.2.3 應(yīng)按照經(jīng)過確認(rèn)的技術(shù)方案,制定OCR軟件各階段的系統(tǒng)安裝及測試計(jì)劃,以及支持不同關(guān)鍵業(yè)務(wù)功能的系統(tǒng)安裝及測試計(jì)劃,并組織最終用戶共同進(jìn)行測試。確認(rèn)以下各項(xiàng)功能可正確實(shí)現(xiàn):

----對識別圖像進(jìn)行預(yù)處理;

----數(shù)據(jù)識別及校驗(yàn);

----輸出檔案OCR成果;

----數(shù)據(jù)安全管理。

7 檔案OCR的實(shí)施

7.1 圖像導(dǎo)入

7.1.1 檔案OCR實(shí)施前,應(yīng)先評估紙質(zhì)檔案數(shù)字復(fù)制件質(zhì)量是否符合OCR的基本要求。評估內(nèi)容


DA/T 77-2019

一般應(yīng)包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對比度、灰度等。

7.1.2 紙質(zhì)檔案數(shù)字復(fù)制件的圖像分辨率應(yīng)不低于200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。文件命名應(yīng)符合DA/T 13、DA/T 22、DA/T 31的規(guī)定。

7.1.3 對質(zhì)量不能達(dá)到檔案OCR工作基本要求的紙質(zhì)檔案數(shù)字復(fù)制件,應(yīng)按照DA/T31的要求重新數(shù)字化后導(dǎo)入。

7.2 圖像預(yù)處理

7.2.1 二值化

7.2.1.1 在識別處理前,應(yīng)對彩色圖像進(jìn)行灰度化和二值化處理,對灰度圖像進(jìn)行二值化處理。應(yīng)采取局部自適應(yīng)二值化等算法,并支持自動(dòng)或手動(dòng)調(diào)節(jié)。

7.2.1.2 應(yīng)具備亮度和對比度值自動(dòng)、手動(dòng)調(diào)節(jié)功能。亮度和對比度值的設(shè)定以調(diào)整后的圖像中文字的筆畫連貫清晰為準(zhǔn)。

7.2.2 圖像降噪

7.2.2.1 對圖像中印刷體字符進(jìn)行識別處理前,需要根據(jù)噪聲的特征對待識別圖像進(jìn)行降噪處理,提升識別處理的精確度。

7.2.2.2 降噪處理應(yīng)去除在掃描過程中產(chǎn)生的污點(diǎn)、污線、黑邊等影響圖像質(zhì)量的雜質(zhì),去除檔案頁面原有的紙張褪變斑點(diǎn)、水漬、污點(diǎn)、裝訂孔等影響識別的地方。

7.2.3 傾斜校正

7.2.3.1 對圖像進(jìn)行識別前,應(yīng)進(jìn)行圖像方向檢測并進(jìn)行自動(dòng)水平或垂直傾斜校正。

7.2.3.2 應(yīng)支持由用戶指定圖像傾斜的角度,采用相應(yīng)的圖像旋轉(zhuǎn)算法進(jìn)行手工傾斜校正。

7.2.4 圖像監(jiān)測

圖像質(zhì)量控制程序應(yīng)自動(dòng)檢測圖像處理質(zhì)量。對無法達(dá)到質(zhì)量要求的圖像進(jìn)行標(biāo)注。

7.3 比對識別

7.3.1 版式分析

7.3.1.1 比對識別前應(yīng)對圖像中的字符塊結(jié)構(gòu)進(jìn)行版式分析,把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。

7.3.1.2 版式分析可采取多種分析方法,自動(dòng)檢測各版塊類型,對圖像內(nèi)部區(qū)域進(jìn)行邏輯歸類,記錄各版塊的位置,存儲(chǔ)版面信息。

7.3.2 檔案特征分析

7.3.2.1 歸檔章分析。建立歸檔章式樣庫,自動(dòng)識別圖像中的歸檔章,并根據(jù)歸檔章樣式,識別出字段位置,如全宗號、年度、機(jī)構(gòu)、保管期限、件號、頁數(shù)等。

7.3.2.2 公文要素分析。建立公文格式庫,可準(zhǔn)確識別公文的版頭、主體、版記三部分,識別公章、簽章等區(qū)域,比照公文樣式,識別密級和保密期限、緊急程度、發(fā)文字號、簽發(fā)人、標(biāo)題、主送機(jī)關(guān)、正文、附件說明、發(fā)文機(jī)關(guān)署名、成文日期、附注、附件、抄送機(jī)關(guān)等公文要素。公文要素OCR識別要求見附錄A。

7.3.2.3 表格分析。建立單獨(dú)表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發(fā)文稿紙、備考表等表格模板,識別表格中的字段位置。

7.3.2.4 印章分析。識別印章圖像位置,存儲(chǔ)印章圖像,建立印章名稱與印章圖像的關(guān)系庫,用于


DA/T 77-2019

版式恢復(fù)。

7.3.3 識別和匹配

7.3.3.1 識別時(shí)應(yīng)抽取字體、字號、粗體、斜體、首行縮進(jìn)等字符特征,通過相似度計(jì)算方法,與特征數(shù)據(jù)庫比對,識別為計(jì)算機(jī)文字內(nèi)碼。

7.3.3.2 特征數(shù)據(jù)庫應(yīng)存儲(chǔ)多種印刷體字符、常用簽名和批注手寫體字符,具備可更新和可擴(kuò)充性。對使用頻率高的漢字、英文、數(shù)字以及常用的符號、常用簽名和批注手寫體字符應(yīng)建立高頻庫。應(yīng)將無法識別的手寫體篩選出來,通過人工識別,并將識別成果存入字符庫。

7.3.3.3 應(yīng)通過將比對后的識別文字根據(jù)上下文在可能的相似候選字群中找出最合乎邏輯的字詞對識別文字進(jìn)行除錯(cuò)或更正,以提高OCR識別準(zhǔn)確率。

7.4 修改校正

7.4.1 應(yīng)對識別的文本進(jìn)行自動(dòng)語義識別和校正,通過詞匯庫和語義庫對識別后文本中的字符、詞匯、語句自動(dòng)進(jìn)行逐層分析更正。詞匯庫和語義庫應(yīng)具備更新和自動(dòng)學(xué)習(xí)功能。

7.4.2 應(yīng)對候選字、拒認(rèn)字和可能有問題的字詞、語句進(jìn)行標(biāo)記。

7.4.3 應(yīng)支持以人工方式對OCR成果進(jìn)行圖像與識別文字對照、修正等校正的功能,以滿足更高識別準(zhǔn)確率的特殊要求。

7.5 成果整理輸出

7.5.1 成果整理

7.5.1.1 支持按照紙質(zhì)檔案數(shù)字復(fù)制件的版式對OCR成果的段落和表格進(jìn)行版面理解與重建。重建后OCR成果的段落編排、表格樣式應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。

7.5.1.2 應(yīng)自動(dòng)分析、提取黨政機(jī)關(guān)公文的各公文要素,包括密級和保密期限、緊急程度、發(fā)文字號、簽發(fā)人、標(biāo)題、主送機(jī)關(guān)、正文、附件說明、發(fā)文機(jī)關(guān)署名、成文日期、附注、附件、抄送機(jī)關(guān)等。檔案OCR成果中各公文要素位置應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。

7.5.1.3 應(yīng)支持調(diào)用、編輯、備份、導(dǎo)出OCR成果,支持對文字、符號的搜索等功能。

7.5.2 成果輸出

7.5.2.1 檔案OCR成果應(yīng)同時(shí)保存為純文本形式和雙層PDF/OFD文件形式。

7.5.2.2 應(yīng)以紙質(zhì)檔案的件或頁為單位輸出、保存純文本形式檔案OCR成果。純文本形式OCR成果保存規(guī)則參見表1:

表1 OCR成果保存規(guī)則

紙質(zhì)檔案數(shù)字復(fù)制件保存形式

檔案OCR成果保存形式

用途

一件檔案保存為一個(gè)文件

一個(gè)txt文件

便于紙質(zhì)檔案數(shù)字復(fù)制件和OCR

成果管理

一件檔案分組件(收發(fā)文處理單、

正文、定稿等)保存為多個(gè)文件

一個(gè)紙質(zhì)檔案數(shù)字復(fù)制件文件保

存一個(gè)txt文件

一件檔案按頁保存為多個(gè)文件

一頁保存一個(gè)txt文件

便于全文檢索后原件頁面的準(zhǔn)確

定位和呈現(xiàn)

7.5.2.3 應(yīng)以檔號為基礎(chǔ)對純文本形式檔案OCR成果命名,命名方式的選擇應(yīng)確保檔案OCR成果


DA/T 77-2019

命名唯一性。一件檔案保存為多個(gè)檔案OCR成果文件時(shí),應(yīng)按檔號結(jié)合OCR成果順序流水號為檔案OCR成果命名。

示例1:檔號為A001-001-0001-0001的紙質(zhì)檔案數(shù)字復(fù)制件,對應(yīng)的OCR成果文件名為A00100100010001.txt。

示例2:檔號為A001-001-0001-0002的紙質(zhì)檔案數(shù)字復(fù)制件包含收文處理單、文件正本兩個(gè)文件,對應(yīng)的OCR成果文件名分別為A00100100010002_01.txt和 A00100100010002_02.txt。

7.5.2.4 應(yīng)根據(jù)紙質(zhì)檔案數(shù)字復(fù)制件版式文件格式,自動(dòng)形成支持全文檢索的雙層PDF或OFD文件,方便全文檢索后對文件的閱讀。

7.5.2.5 應(yīng)支持按照檔案著錄規(guī)則和電子檔案元數(shù)據(jù)規(guī)范,自動(dòng)保存檔案OCR成果中的黨政機(jī)關(guān)公文要素。相關(guān)公文要素應(yīng)保存到數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。

7.5.2.6 應(yīng)支持檔案OCR成果中文簡繁體的自動(dòng)轉(zhuǎn)換功能。

7.5.3 成果驗(yàn)收

7.5.3.1 應(yīng)采用計(jì)算機(jī)自動(dòng)檢驗(yàn)與人工檢驗(yàn)相結(jié)合的方式對紙質(zhì)檔案OCR成果進(jìn)行驗(yàn)收檢驗(yàn)。

7.5.3.2 驗(yàn)收檢驗(yàn)內(nèi)容包括OCR成果、提取的黨政機(jī)關(guān)公文要素、數(shù)據(jù)掛接情況、OCR工作文件和存儲(chǔ)載體等。

7.5.3.3 能夠采用計(jì)算機(jī)自動(dòng)檢驗(yàn)的項(xiàng)目應(yīng)采用計(jì)算機(jī)自動(dòng)檢驗(yàn)的方式進(jìn)行100%檢驗(yàn),對于無法用計(jì)算機(jī)自動(dòng)檢驗(yàn)的項(xiàng)目,可根據(jù)情況以件或卷為單位采用抽檢的方式進(jìn)行人工檢驗(yàn)。抽檢比率不得低于5%。

8 檔案OCR質(zhì)量要求

8.1 識別準(zhǔn)確率

8.1.1 檔案OCR對檔案中文、數(shù)字、英文印刷體的識別準(zhǔn)確率在95%以上。

8.1.2 檔案OCR對常用簽名識別準(zhǔn)確率達(dá)到90%以上,手寫體識別準(zhǔn)確率達(dá)到80%以上。

8.2 強(qiáng)抗噪能力

8.2.1 檔案OCR應(yīng)當(dāng)具備對噪點(diǎn)的強(qiáng)抵抗能力,識別過程中能夠有效屏蔽較大程度的噪點(diǎn)干擾。

8.2.2 檔案OCR應(yīng)能準(zhǔn)確判別紙質(zhì)檔案數(shù)字復(fù)制件上的污點(diǎn)、污線、黑邊、紙張褪變斑點(diǎn)、水漬、污點(diǎn)、裝訂孔等,提高識別準(zhǔn)確率。

8.3 識別速度

8.3.1 識別速度指標(biāo)與識別準(zhǔn)確率指標(biāo)應(yīng)同時(shí)適用。

8.3.2 在主流計(jì)算機(jī)軟硬件平臺下,A4紙幅面中文識別速度不低于1000字/s,英文識別速度不低于2 000字/s。

8.4 版面還原度

8.4.1 應(yīng)實(shí)現(xiàn)復(fù)雜版面的精確還原,采用分欄技術(shù),智能分析中文(簡體、繁體)、英文字體,文、表、圖混排文本,識別后無需人工干預(yù),自動(dòng)還原排版。

8.4.2 識別后的文檔與原導(dǎo)入圖像版面還原度應(yīng)達(dá)到90%以上。


DA/T 77-2019

9 檔案OCR成果的管理與應(yīng)用

9.1 成果管理

9.1.1 應(yīng)保持檔案OCR成果各組成要素對應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件、檔案目錄、元數(shù)據(jù)之間的邏輯層次和關(guān)聯(lián)關(guān)系。

9.1.2 以純文本形式保存的檔案OCR成果應(yīng)使用檔號作為文件名,可在存儲(chǔ)載體中以檔號為基礎(chǔ)逐級建立層次文件夾單獨(dú)保存,也可與紙質(zhì)檔案數(shù)字復(fù)制件統(tǒng)一保存。

9.1.3 支持全文檢索的雙層PDF或OFD文件可與對應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件統(tǒng)一存儲(chǔ)。數(shù)字檔案館(室)應(yīng)用系統(tǒng)應(yīng)記錄并維護(hù)不同文件版本之間的聯(lián)系。

9.1.4 檔案OCR成果文件管理權(quán)限應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件相同。

9.1.5 OCR成果應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件同步開展數(shù)據(jù)備份工作。

9.2 成果應(yīng)用

9.2.1 檔案OCR成果應(yīng)通過數(shù)字檔案館(室)應(yīng)用系統(tǒng)實(shí)現(xiàn)全文檢索,提高檔案信息檢索效率。

9.2.2 可發(fā)揮檔案OCR成果提取的歸檔信息和黨政機(jī)關(guān)公文要素的作用,輔助開展檔案自動(dòng)著錄、目錄質(zhì)量核查,以及紙質(zhì)檔案數(shù)字復(fù)制件掛接準(zhǔn)確性核查等業(yè)務(wù)工作。

9.2.3 可利用檔案OCR成果,結(jié)合數(shù)據(jù)挖掘技術(shù)開展數(shù)據(jù)分析、知識管理、詞庫建設(shè)等工作。


DA/T 77-2019

附錄A

(規(guī)范性附錄)

公文要素OCR識別要求

公文要素OCR識別要求見表A.1。

表A.1 公文要素OCR識別要求

公文要素

是否識別

識別要求

1 正本

1.1 份號

-

1.2 密級和保密期限

正常識別,識別成果輔助檔案著錄

1.3 緊急程度

正常識別,識別成果輔助檔案著錄

1.4 發(fā)文機(jī)關(guān)標(biāo)志

1.5 發(fā)文字號

正常識別,識別成果輔助檔案著錄

1.6 簽發(fā)人

正常識別

1.7 標(biāo)題

正常識別,去除軟回車,識別成果輔助檔案著錄

1.8 主送機(jī)關(guān)

正常識別,去除軟回車

1.9 正文

正常識別,去除軟回車,表格基本符合原貌,單元格內(nèi)文字內(nèi)容完整

1.10 附件說明

正常識別,去除軟回車

1.11發(fā)文機(jī)關(guān)署名

正常識別,自動(dòng)拆分聯(lián)合發(fā)文機(jī)關(guān),識別成果輔助檔案著錄

1.12成文日期

正常識別,識別成果輔助檔案著錄

1.13印章

1.14簽發(fā)人簽名章

1.15附注

正常識別,去除軟回車

1.16 附件

正常識別,去除軟回車,表格基本符合原貌,單元格內(nèi)文字內(nèi)容完整

1.17 抄送機(jī)關(guān)

正常識別,去除軟回車

1.18印發(fā)機(jī)關(guān)和印發(fā)日期

1.19 頁碼

2 文件處理單/發(fā)文稿紙

2.1 起草人

正常識別,手寫體自動(dòng)學(xué)習(xí)提高識別效率,識別成果輔助檔案元數(shù)據(jù)記錄

2.2 簽發(fā)人

正常識別,手寫體自動(dòng)學(xué)習(xí)提高識別效率,識別成果輔助檔案元數(shù)據(jù)記錄

2.3 起草時(shí)間

正常識別,識別成果輔助檔案元數(shù)據(jù)記錄

2.4簽發(fā)時(shí)間

正常識別,識別成果輔助檔案元數(shù)據(jù)記錄

2.5閱辦意見

正常識別,手寫體自動(dòng)學(xué)習(xí)提高識別效率,識別成果輔助檔案元數(shù)據(jù)記錄

2.6 批辦意見

正常識別,手寫體自動(dòng)學(xué)習(xí)提高識別效率,識別成果輔助檔案元數(shù)據(jù)記錄

2.7 辦理結(jié)果

正常識別,手寫體自動(dòng)學(xué)習(xí)提高識別效率,識別成果輔助檔案元數(shù)據(jù)記錄