哪一種掃描儀對文字識別率高,并可以直接轉(zhuǎn)換為WORD,進(jìn)行編輯?

熱心網(wǎng)友

關(guān)鍵是識別軟件。

熱心網(wǎng)友

實在地說,現(xiàn)在所有的市場上主流的掃描儀都可以,而且識別率都差不多。識別率的關(guān)鍵在于識別軟件和你的操作水平。現(xiàn)在的主流識別軟件對中文的識別都不錯,但是對標(biāo)點和公式的識別能力就不怎么樣了。要設(shè)置掃描的色彩深度、分辨率、亮度和對比度、去網(wǎng)紋等參數(shù)。這里要注意的是掃描分辨率,一般來說掃描分辨率要合適,通常設(shè)置在300dpi;分辨率設(shè)置過低過高都的話會嚴(yán)重影響識別率。某些識別軟件要求必須用黑白二色TIFF格式來掃描,不支持用真彩色來掃描,否則識別率就非常低。用其他格式掃描的也可用圖形處理軟件轉(zhuǎn)換成黑白二色TIFF格式后識別。關(guān)鍵是要多用,慢慢會掌握規(guī)律的。TH-OCR MF7。5網(wǎng)上培訓(xùn)下面是: §1、OCR快速入門 啟動OCR識別軟件,點按掃描圖標(biāo),出現(xiàn)掃描界面。 將要識別的原稿放入掃描儀,"預(yù)覽"并設(shè)置掃描參數(shù)及掃描區(qū)域,最后點按"掃描"進(jìn)行終掃。 掃描完成后退出掃描界面,文字圖像將出現(xiàn)在識別界面中,首先進(jìn)行版面分析,即將要識別的部分按順序及類別分別劃分,再點按識別圖標(biāo)進(jìn)行識別。 識別完成后直接進(jìn)入編輯界面,可進(jìn)行文字的修正。若想進(jìn)行重新識別或掃描則需退回到識別界面并點按鋼筆圖標(biāo)繼續(xù)。 編輯完成后,可直接存盤成為純文本的格式或?qū)С龀蒖TF格式的文件。 §2、OCR詳解 一、簡介 OCR是一種光學(xué)字符識別軟件,"OCR7。5"是目前最新版本,它保留原有版本簡體多體、繁體多體(宋體、仿宋體、黑體、楷體、魏碑)、中英文混排、橫豎版面混排識別及版面分析等功能外,新增加了批量識別、手寫識別、表格自動識別及導(dǎo)出表格等功能。 OCR程序組的介紹,OCR安裝過程很簡單,完成后在"開始/程序"中將新添一個"紫光OCR MF7。5"程序組,包含內(nèi)容有: Select system Inner-code選擇系統(tǒng)內(nèi)碼 TH-OCR MF7。5執(zhí)行程序 TH-OCR Readme Uninstall TH-OCR卸載程序 二、操作流程: 啟動TH-OCR MF7。5應(yīng)用程序 系統(tǒng)設(shè)置(設(shè)置系統(tǒng)參數(shù)、設(shè)置識別參數(shù)、設(shè)置其它參數(shù)、設(shè)置后編改參數(shù))一般按默認(rèn)設(shè)置值即可 打開已掃描好的黑白二值圖像文件或掃描二值圖像 像版面處理(版面傾斜校正、版面分析處理、設(shè)置區(qū)域?qū)傩裕?文字識別(圖象表格文字的分別定義、最終識別) 編輯修改識別結(jié)果 存盤、導(dǎo)出及退出TH-OCR。 注:整個流程中會出現(xiàn)三個不同界面(掃描驅(qū)動界面、識別界面、文本編輯界面) 三、菜單 文件菜單包括文件管理、掃描、打印及退出四部分的命令。主要命令如下: 另存為:可將圖像(TIFF、BMP、PCX)或文本文件(TXT不含格式的純文本文件)指明路徑、文件名及文件格式存儲起來。 導(dǎo)出:可將文件導(dǎo)出成為RTF(包含文字及表格的一定屬性的且可被word直接打開的一種文件格式)或TXT(導(dǎo)出時可設(shè)定是否包含硬回車)。 關(guān)閉所有文件:當(dāng)掃描多頁時,可合并多頁已識別好的文件或臨時文件;可選擇是否刪除圖像文件、跟蹤文件及原單頁的文本文件。 掃描設(shè)置:包括使用TWAIN界面掃描和直接終掃兩類選項;通常默認(rèn)是使用TWAIN界面掃描,而直接終掃的優(yōu)勢在于速度快,可提高工作效率,建議在做大量掃描識別工作且原稿一致的情況時使用。 掃描:詳見"掃描儀使用手冊" 打印:建議用戶最好在word或wps等文字編排軟件中進(jìn)行打印。 分辨率設(shè)定與字號大小對照表 文字大小 準(zhǔn)確分辨率(DPI) 推薦分辨率(DPI) 1號(26磅) 150 200 2號(22磅) 180 3號(16磅) 200 4號(14磅) 240 300 小4號(12磅) 280 5號(10。5磅) 300 小5號(9磅) 350 400 6號(7。5磅) 400 7號(5。5磅) 500 600 8號(5磅) 600 編輯:(編輯與識別是兩個不同操作界面,按F4或"鋼筆"圖標(biāo)可切換這兩個操作界面)此菜單主要是對剪貼板的管理,執(zhí)行剪切、拷貝、粘貼、清除等操作,還有對識別后文字修改方式的選項。 圖像:包括圖像處理、區(qū)域管理及識別類型等設(shè)定。 命令:包括識別、版面分析、系統(tǒng)設(shè)置等(其中用戶自學(xué)習(xí)、修改用戶庫的功能只在零售版OCR7。5中支持) 設(shè)置:系統(tǒng)、掃描、識別、后編改、其它 顯示:控制顯示比例、顯示不同頁的文件及工具條、狀態(tài)行的顯示。 幫助 四、表格的識別與導(dǎo)出 表格被掃描出來后便會進(jìn)入識別界面,識別步驟如下: 版面分析: 將表頭或文本部分用鼠標(biāo)畫一個方框框出,并定義為"正文"屬性,框線為蘭色。 將完整的表格圖像框出,定義成"表格"屬性,框線為粉紅色。 依原稿類型定義文字屬性為簡體多體、繁體多體或其它 識別 導(dǎo)出(由于包含表格,因此一定要導(dǎo)出為RTF格式,否則格線是斷開的)。 五、技巧 原稿一定要擺放端正,若稍有傾斜可使用OCR中的傾斜校正,若傾斜角度較大時,則需進(jìn)行手動的糾斜(按住鼠標(biāo)的右鍵在圖像中拉一條平行于傾斜文字行的直線。然后,放開鼠標(biāo)的右鍵則校正完成。)但如果傾斜角度超過15o,則會由于傾斜校正產(chǎn)生較大的失真和誤差,從而影響識別結(jié)果,建議重新掃描圖像。 當(dāng)版面分析出現(xiàn)多個文本識別區(qū)域,需要改變區(qū)域之間識別的順序時,具體操作為:在當(dāng)前的區(qū)域內(nèi)部,按住鍵盤上Ctrl鍵的同時按住鼠標(biāo)左鍵并拖動畫線到新所在的區(qū)域中即可。 注意: 日文識別模塊為選購件; 進(jìn)行日文識別必須具備日文環(huán)境; 手寫識別對文稿有一定的要求,文字需寫在無格白紙上,自間距合適,而且筆跡要規(guī)范,不要潦草。 六、退出(退出時,建議用戶刪除不需要的圖像及跟蹤文件,可節(jié)省硬盤資源) 七、常見問題 在掃描文稿圖像時,提示"只能掃描二值圖像"或"該程序執(zhí)行了非法操作"。OCR軟件一般只能識別黑白圖像,因此掃描時只能使用"黑白二值"模式。若設(shè)置了多個掃描區(qū)域,而其中有區(qū)域設(shè)置為彩色或灰度模式,便會出現(xiàn)"該程序執(zhí)行了非法操作"的提示。掃描時提示"裝入TWAIN。dll錯誤"。請正確安裝紫光掃描儀的驅(qū)動程序,連接好掃描儀,并將紫光掃描儀打開。識別完成后屏幕為空白,只有光標(biāo)閃動。如果原稿中有圖形,OCR會認(rèn)為此文件不符合要求而不作識別。此時應(yīng)先進(jìn)行版面分析,將所要識別的文字區(qū)域按順序框出識別區(qū)域后再進(jìn)行識別。識別出的文字出現(xiàn)亂碼。 是否文字的方向不對,請正確調(diào)整文字方向。 是否定義的文字屬性(簡體多體、繁體多體、純英文、手寫體等)與原稿不符,請設(shè)定字旁有輔助線,字體為斜體或藝術(shù)字等,此類原稿不能被正確識別。 是否原稿中的文的分辨率是否不合適,請在掃描 掃描時設(shè)置相應(yīng)的文字屬性。時參照分辨率設(shè)定與字號大小對照表中的推薦值選擇適合的分辨率。 掃描文稿時設(shè)定了鏡像處理功能,掃描結(jié)果圖像與原稿左右相反。 原稿不清晰(如傳真件、油印試卷、報紙等),若是報紙,可以適當(dāng)?shù)卣{(diào)節(jié)圖像的對比度或亮度以得到較好的掃描效果,提高識別率。 文章開始部分識別率較高,但后半部識別率低。 原稿在掃描時擺放的不正,若傾斜角度不大可進(jìn)行傾斜校正,否則需重新掃描。 表格識別時,只識別出表頭而無表格。沒有單獨定義出表格屬性。請按表格的識別與導(dǎo)出部分的說明進(jìn)行版面分析。識別繁體字得到簡體字而非繁體字。 請從Windows操作系統(tǒng)的"開始"菜單指向"程序"中的"紫光OCR"程序組,選中"Select System Inner-code"選項,在"CODESET"對話框中選定"GBK-code(All China)"選項。不能退出系統(tǒng)退出時,在"關(guān)閉所有文件"對話框的合并文件欄選中"合并所有結(jié)果文件"選項或在暫時文件欄選中"以新名存儲暫時文件"選項,但未命名。請指定文件名或取消選項。取得幫助從"幫助"菜單選擇"目錄和索引"命令,顯示幫助主題,可以選擇幫助主題或索引幫助內(nèi)容;選擇"快速指南"命令,顯示OCR識別的基本操作流程。 。