2019年6月3日星期一

OCR技術按待識別對像的分類



  1、印刷體漢字識別

  從識別技識別證帶術的難度來說,印刷體識別要比手寫體識別容易,而且與手寫體識別相比,印刷體識別已經實用化,而且在向更高的性能、更完善的用戶界面的方向發展。因為它有著廣泛的應用前景。目前,辦公自動化已經成為信息社會不可避免的發展趨勢。雖然在計算機網絡飛速發展的今天,許多信息已經電子化,世界各地出現了許多“電子版”的報紙、雜志等出版物,但是我們可以看到印刷材料的數量也大大地增加了,一些專業單位如新聞社、圖書館、古籍出版社、報刊館等所接觸的印刷材料更是浩如煙海,畢竟閱讀印刷材料更為符合人的自然閱讀習慣;同時,網絡信息資源的爆炸性增長以及網絡傳輸容量的限制,都是方便、快速地獲取這些信息的約束因素。電子文檔與印刷文本資料如同一枚硬幣的兩面,互相補充,互相促進,在未來的十幾年或更長的時間內將不會出現一者被另一者取代的情況。

  2、手寫漢字識別

  手寫漢字識別是一種重要的、適用於手寫文稿隨時輸入計算機的方法,也是機器字符識別最為困難的一個課題,這些困難和問題表現在:

  1)高速織帶漢字類別多。僅《康熙字典》中就包含了49000多個漢字,而常用的漢字就有4000多個,因而漢字識別問題屬於大類別(或者成為超多類)模式和別問題,在模式識別理論和方法研究方面有重大意義。

  2)漢字字形結構復雜。漢字集合中相似字較多,有些漢字的差別僅為一點或一個筆畫,由於手寫變形的存在,使得手寫體中相似字的區分比印刷體要困難得多。因不同人書寫風格的差異造成手寫漢字的變形很大。

  手寫漢字字形的變化是最難以解決的問題。一般認為,聯機手寫漢字識別比脫機手寫漢字識別相對容易些。聯機手寫漢字識別是一種人工實時地把漢字輸入計算機的方法,它利用書寫板把筆畫變為一維電信號,輸入計算機的是以坐標點序列表示的筆尖移動軌跡,因而被處理的是一維的PP織帶線條(筆畫)串,這些線串含有筆畫數目、筆畫走向、筆順和書寫速度等信息,而脫機手寫漢字識別理的僅是二維的漢字點陣圖像,是漢字識別領域中最後一個十分困難的問題,目前仍然處於實驗室研究階段。由此可見,對非特定人脫機手寫漢字識別而言,如果對手寫漢字的書寫不加任何限制(即為自由手寫體漢字),則識別難度相當大。

  3、手寫體數字識別

  手寫字數字識別是光特多龍織帶學字符識別的一個分支,它研究的對像是:如何利用電子計算機自動辨認人手寫在紙張上的阿拉伯數字。在整個OCR領域中,最為困難的就是脫機手寫字符的識別。到目前為止,盡管人們在脫機手寫英文、漢字識別的研究中已取得很多可喜成就,但距實用還有一定距離。

  字符識別處理的信息可分為兩大類:一類是文字信息,處理的主要是用各國家、各民族的文字(如:漢字,英文等)書寫或印刷的文本信息,目前在印刷尼龍織帶體和聯機手寫方面技術已趨向成熟,並推出了很多應用系統;另一類是數據信息,主要是由阿拉伯數字及少量特殊符號組成的各種編號和統計數據,如:郵政編碼、統計報表、財務報表、銀行票據等等,處理這類信息的核心技術是手寫數字識別。因此,手寫數字的識別研究有著重大的顯示意義,一旦研究成功並投入應用,將產生巨大的社會和經濟效益。

没有评论:

发表评论