什么是OCR?
OCR(Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法 將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成 文本格式,供文字處理軟件進一步編輯加工的技術。
一個OCR識別系統,其目的很簡單,只是要把影像作一個轉換,使影像內的圖形繼續(xù)保存、有表格則表格內資料及影像內的文字,一律變成計算機文字,使 能達到影像資料的儲存量減少、識別出的文字可再使用及分析,當然也可節(jié)省因鍵盤輸入的人力與時間。 從影像到結果輸出,須經過影像輸入、影像前處理、文字特征抽取、比對識別、最后經人工校正將認錯的文字更正,將結果輸出。
OCR識別技巧
1.分辨率的設置是文字識別的重要前提。一般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結果。但也不是掃描分辨率設得越高識別正確 率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識別,設置掃描分辨率時千萬不要超過掃描儀的光學分辨率,不然 會得不償失。
2. 掃描時適當地調整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最為關鍵,掃描亮度和對比度值的設定以觀察掃描后的圖像中漢字的筆畫較細但又不 斷開為原則。進行識別前,先看看掃描得到的圖像中文字質量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應該增加 亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應減小亮度后再試試。
3.選好掃描軟件。選一款好的適合自己的OCR軟件是作好文字識別工作的基礎。ABBYY FineReader
12 OCR文字識別軟件提供快速、準確、方便的方式來掃描文件、PDF格式、數字或移動電話圖像轉換成可編輯的格式,與99,8%的識別準確率OCR技術即刻能夠識別文本,復制和粘貼,搜索或編輯,轉換幾乎所有打印的文檔類型,包括書籍,雜志上的文章與復雜的布局。
再選一個圖像軟件,第一,OCR軟件不能識別所有的掃描儀;第二,也是最關鍵的,利用圖像軟件的掃描接口掃描出來的圖像便于處理。