#OCR #光學辨識技術 #聯合知識庫 #長達69年的報紙資料庫 #報紙數位化
#報時光是怎麼練成的
【報紙數位化】
以前做一則剪報或找一則「舊聞」,
經常要費盡千辛萬苦,也不一定能找到。
而現今只要上去知識庫就能輕鬆找到,資料查找相當方便
分享2001年聯合知識庫開站的說明,
來了解一張張歲月裡泛黃的紙本報紙,
當年是怎麼變成數位內容的。
圖說:五二○事件街頭衝突過後,警方坐於街邊看報紙
日期:1988/5/21
來源:聯合報
攝影:聯合報攝影組
#報時光UDNtime
歷史新聞
【2001-02-19/聯合報/11版/話題】
製作過程
每篇文章 錯誤不到一個字
【記者李彥甫╱專題報導 】如何把已經泛黃的數十年舊報紙,轉換為資訊時代可用的知識?如何把每天產生數十萬字報紙新聞有效地分類整理?即使資訊科技發展至今,仍沒有一項技術可以滿足上述需求。今天(十九日)正式上線的聯合知識庫,事實上是整合國內外多項技術,克服各項技術障礙,自行開闢了一條新途徑,才能造就最大的華文新聞資料庫。
聯合知識庫以光學辨識技術(OCR)進行報紙的整版掃描,再用圖文切割方式,將報紙版面上的內容分區切塊辨識儲存,然後再以新開發的系統進行「自動為主、人工為輔」的兩套循環校對除錯,最後在使用上輔以人工智慧資料加值與搜尋引擎技術。
在這條報紙數位化的生產線上,先透過大尺寸的數位掃描器將報紙影像掃入電腦中,後端的影像處理伺服器進行去除影像雜訊,接著切割報紙標題與內文區塊,校對版面,並逐版把切割完成的報紙影像登入資料庫中。文字條稿影像登入資料庫後,接著將依照定做的文字辨識核心進行辨識,此階段的正確率可以達到百分之九十八以上。
不過,新聞內文的部分可以直接登入資料庫,但標題的部分卻需要人工輸入。這是因為報紙標題的欄位、字體、字形非常多元化,電腦畢竟不夠聰明到可以辨識如此複雜的變化,利用人工輸入反而快速而省事。下一步則是困難度甚高的「校對」,全景軟體公司提供了「集字校對工具」,將辨識出的相同文字排列,進行電腦自動比對,約可過濾出百分之二辨識上有疑問的文字及符號,然後進行人工確認,此階段的正確率約百分之九十八點八八。接著再使用切字及難字校對,完成後的正確率約為百分之九十九點六二。但是這樣還不夠,必須進行下一個程序的校對─「逐字校對」 (整篇校對 ),但所謂「逐字」,並非重新校對所有的字,而是校對電腦挑選出來的可疑字。
經過兩套循環的校對除錯,聯合知識庫內容與原報紙內容相比,正確率已可達到百分之九十九點九一。一般而言,見報文章平均字數約七百字,也就是說,聯合知識庫的內容基本上已可做到「每篇文章錯不到一個字」的精準度。
同時也有78部Youtube影片,追蹤數超過4萬的網紅吳老師教學部落格,也在其Youtube影片中提到,JAVA證照考題解答分享(Android證照的跳板) http://terry55wu.blogspot.tw/2014/01/javaandroid.html 課程大綱: 1.認識 AWT類別 2.認識並學習如何建立視窗物件 3.學習如何管理與配置版面 4.事件處理:1.認識 Java的委派...
中文字體轉換線上 在 巴黎不打烊 Facebook 八卦
| 設計師的角色(暴走文長)|
上週在南法渡假,週六我們開了七個多小時的車回到巴黎,週日就進辦公室加班一整天。這個星期二、三、四連著三天,我們每天交一個標案出去。(每天趕一個標案妳還有時間po文?嘿咩,就說po文是我繁忙工作中的紓壓啊!)
我們的工作常常在進展時是「不能說的秘密」,無論是品牌客戶或博物館美術館,在客戶方的公關媒體曝光前,基於職業道德,我們不會對外說自己在做什麼。除了非常親近的朋友問候時,我才會說自己在跟什麼主題奮戰(朋友們常常聽到我在做什麼主題之後,就已讀不回不理我了😂)。
這些年來,我奮戰過的主題非常多,有時尚精品、汽車、卡車、輪胎、石油探勘器材、電子貨幣、殞石、潛水艇、機器人⋯等,很多主題是翻譯成中文我都不見得能懂的專業,卻要以設計師的專業去美化、簡化這些內容,讓一般大眾或客戶的客戶能了解或買單。
時尚精品的目標客戶是品味人士,這是最容易達標的。殞石、潛水艇、機器人這些展覽的群眾目標是一般大眾,電子貨幣客戶的客戶是各國央行的總裁,石油探勘器材客戶的客戶是石油國家的王子或大國的政府高層官員,還有其他千奇百怪的目標客戶,我們這樣小小的設計師,如何用設計和他們對話?
這些形形色色的案子,當然不是只有我們設計師的角色在完成。所有的案子分工細緻,科學類的案子有科學家參與其中,任何視覺設計的邏輯性和科學性都會被放大關注。人類學的展覽有專業人類學家審核所有圖面、影片的正確性。那前幾年小皇宮一檔「巴洛克時期的聖人畫像展」呢?館方的專業研究人員有歷史學家、藝術史學家和神學家,因此我們所做的一切視覺設計都必需經過他們的法眼。
今天在我的個人臉書頁面看到很多朋友轉載下面這則新聞,使用圖庫和錯誤字體讓設計圈的朋友批評聲浪不斷,尤其是三百萬的預算更讓此話題放大(大家也知道很多人愛說納稅人的錢)。
這種也是我們在法國也會遇到的案子,巴黎不打烊不務正業過久每天都在婆婆媽媽或風花雪月文,只好恢復正經來談談此事。設計師的角色到底是什麼?
首先,用圖庫這件事就被好多人罵翻了。ㄟ,你真的身為設計師沒有用過一次圖庫嗎?不是我要幫這位設計師說話(我也不認識她🙄),但是在沒有預算的時候,雖然是下下策,但圖庫是解決設計師問題的好幫手(不然這些圖庫公司如何生存?)。我自己承認,這些年來我用過一次,是某台商客戶不願花錢拍照做商品目錄的風景圖時。
然而這次被罵翻的原因是許多人覺得三百萬換來的是圖庫相片,而且還不是石虎,是隻美洲豹!這個就要分二個部分來說,一是預算應該足夠到設計師自己繪圖,二是主辦單位似乎沒有專業人員審圖?出了這樣的錯,不只是設計師不專業,承辦方也不專業(哇!好敢講,得罪人囉!)。
再來,我們討論設計師使用沒有版權的字體。(下面的事說出來可能會得罪更多人,但巴黎不打烊的讀者都知道我是吃誠實丸長大的,其他讀者就先打預防針一下。)在和台灣的工作中,我們常常發現對方使用沒有版權的繪圖軟體,因為沒有版權無法更新軟體,而要求我們轉換檔案讓舊版軟體也能使用。
的確許多的專業繪圖軟體不便宜,ADOBE是月繳型,其他3Ds、autocad⋯等的正版都不便宜。但是我們在要求別人尊重智慧財產權的同時,設計師也該尊重別人的智慧財產。這些繪圖軟體、字體的費用,是我們專業生財工具之一,是不能小看的投資。以歐洲的印刷業務來說,專業的印刷廠可以從設計師給的設計檔案中知道是不是正版軟體。各大品牌、博物館美術館也不會想要和有侵權可能,或連設計軟體都無法跟進的設計師合作。
在字體的選擇上面,為了避免不必要的麻煩,法國的美術館多會選用免費的字體。偶爾遇到付費的字體,可以自行購買再向客戶請款,或客戶方自己知道也會提供字體。這些設計的細節,都不只是設計師單方面承擔,而是工作合約上甲乙雙方面的。
這一篇文又長又看起來沒重點是嗎?簡單的結論是這整個事件是個低級錯誤,而犯錯的人不只是設計師,還有不專業的主辦方。另一個重點是,歡迎訂閱巴黎不打烊線上書籍「在巴黎當設計師」,裡面會有更多我在巴黎設計工作遇到的實例分享(放心,沒有石虎或美洲豹傻傻分不清的事,多的是美感、美學和文化上的差異)。
(天啊!😱我好會趁時事置入式行銷啊!😜)
中文字體轉換線上 在 粉紅色小屋 Pink Phang Phang Facebook 八卦
【關於台語漢字】
剛剛看到這篇文章有感,分享給各位朋友。
之前參加過一些座談、電台,或是朋友私訊問到,如何在電腦輸入台語漢字?其實有兩個主要問題,第一個是:如何輸入?第二個是:輸入後的字型?
其實,輸入台語漢字的方式有很多種:
1. 直接安裝「臺灣閩南語漢字輸入法」(註),只要依「臺灣閩南語羅馬字拼音方案」輸入臺羅拼音,就會列出所有對應的漢字供使用者選字。
2. 透過大量閱讀有台語漢字的文章或查字典認字,透過認字的方式,直接使用現有倉頡或嘸蝦米輸入,這個方式不受拼音的影響,透過拆字,一樣可以輸入你要的漢字。
3. 用現有的注音輸入,轉換成台語漢字的,譬如「佇」(tī)必須輸入ㄓㄨˋ,這個方式必須想一下就是了。
不過上敘都只是解決了輸入的問題,這篇文章則提到輸入後字型的問題,這其中也包括漏字等問題。使用既有的中文輸入法,有許多罕用字是缺少的,當整排字體都完整,但唯獨某個罕用字只能用預設字元替代,那真的很麻煩。有時候不得不用拼字的方式,不只困擾也影響整體字型美感。
各位只要查線上字典,看到那種只有擺張圖檔的漢字,都待解決(譬如:gâu 或文中提到的 𤆬 字),這真是浩大工程。這篇對台語漢字的字型提出許多精彩見解,值得一讀。
我們的創作會使用手寫台語漢字字,最主要也是想傳達台語漢字字型的概念,不過電腦輸入的字型,是另外一個領域跟排版上的問題,期待未來可以見到台語漢字字型的多種可能面貌!
註:
臺灣閩南語漢字輸入法
http://www.edu.tw/pages/detail.aspx?Node=3683&Page=15638&Index=6&WID=c5ad5187-55ef-4811-8219-e946fe04f725
中文字體轉換線上 在 吳老師教學部落格 Youtube 的評價
JAVA證照考題解答分享(Android證照的跳板)
http://terry55wu.blogspot.tw/2014/01/javaandroid.html
課程大綱:
1.認識 AWT類別
2.認識並學習如何建立視窗物件
3.學習如何管理與配置版面
4.事件處理:1.認識 Java的委派事件模式。2.認識並學習使用各種事件處理類別。3.學習各種物件的事件處理 。
之後:
1.分享最新的JAVA DOCS資訊與中文化版本,
並設定ECLIPSE直接讀取JAVA說明檔的設定方法。
2.利用實例綜合練習變數宣告、資料型別、運算子、
流程控制的IF...ELSE與各種迴圈方法的應用。
3.說明陣列與多維陣列的使用與實例。
漸漸更深入JAVA語法的核心,有些同學似乎已經吃不消,
但有些同學可能以前學過,所以一下子就解出來了,
也很大方的分享出他的解法,
不過這樣有時反而讓一些沒學過JAVA的同學備感壓力。
因為老師以為大家都會了,所以就加速往前,害一些同學在後面趕的很辛苦,
腦筋已經被迴圈給轉的頭昏,還沒弄懂題目,又要接下一題,
所以真有點兩難,好在助教的提醒,有稍放慢一點進度,
若有程度較好的同學,請些自行預息後面的課程,
或是先準備TQC JAVA的學術科考題好了,再不然好心一點,
充當一下老師的分身,幫忙同學一下,感謝!
101模擬樂透彩
102系統日期、時間顯示
103亂數排序器
104河洛之數
105陣列行列轉換
106數值過濾器
107求平均值
108九九乘法表
109面積與體積計算
110單字測驗
202利息計算
204期末考分數計算
206四則運算
208三角形邊長判斷
210字元搜尋器
302字體設定選擇器
304簡易繪圖板
306滑鼠感應視窗
308藝人音樂評等
310年齡計算
相關JAVA教學:
發表時間 文章標題
2015-06-22 JAVA網路程式設計第1天上課分享(HTML 5與JavaScript)
2015-06-21 艾鍗JAVA物件導向程式設計2(流程控制)
2015-06-21 JAVA程式設計第2次上課(環境安裝與變數與Math類別)
2015-06-20 從JAVA入門到智慧型手機設計第2次上課
2015-06-20 從JAVA入門到智慧型手機設計第1次上課
2015-01-16 如何在JAVA顯示河洛之數結果
2015-01-16 如何在JAVA顯示系統時間並格式化
2015-01-16 JAVA物件導向設計第3堂課:JSP與APP跳板
2015-01-16 JAVA物件導向設計第2堂課:JSP與APP跳板
2015-01-16 JAVA物件導向第1堂課:JSP與APP跳板
2014-01-20 佛光資應系JAVA證照考題解答分享(Android證照的跳板)
2013-08-19 艾鍗JAVA物件導向程式設計課程上課影音分享(2)
2013-08-02 總統府旁JAVA網路程式設計第2天上課分享
2013-08-02 總統府旁JAVA網路程式設計第1天上課分享
2013-03-15 從JAVA入門到智慧型手機設計第2次上課
2013-03-11 從JAVA入門到智慧型手機設計(1)
2012-10-27 有七星潭海浪聲的JAVA入門與證照分享
2012-09-14 JAVA程式設計第7次上課
2012-08-29 JAVA程式設計第1次上課
2012-05-31 有七星潭海浪聲的JAVA入門與證照分享1
2012-04-08 JAVA證照考題解答分享,Android證照的跳板
2012-01-25 JAVA證照考題解答分享,Android證照的跳板
2011-10-04 JAVA程式設計總整理
2010-10-30 湜憶電腦 TQC JAVA進階級先修課程之二
2010-10-30 湜憶電腦 TQC JAVA進階級先修課程
2010-05-30 最近的生活很JAVA--分享GOOGLE服務在教學上的應用
2010-05-30 文化大學推廣部JAVA程式設計第 5 次上課
2010-05-30 文化大學推廣部JAVA程式設計第 4 次上課
2010-05-30 文化大學推廣部JAVA程式設計第 3 次上課
2010-05-30 文化大學推廣部JAVA程式設計第 2 次上課
2010-05-30 程式語言排行榜,C語言居冠,JAVA次之
2010-05-30 最近的生活很JAVA--分享GOOGLE服務在教學上的應用
2010-05-22 JAVA程式設計第2次上課(環境安裝與變數與Math類別)
2009-08-27 TQC JavaScipt 實用級線上影音
2009-08-24 TQC JavaScipt 線上影音教學課程 101自動瀏覽器
2009-03-12 Java、VisualBasic、Visual C++有什麼不一樣呢?
java下載,jdk,eclipse,java教學網站,java教學影片,java eclipse教學,eclipse 教學,java證照解答,AWT類別, 電腦證照
![post-title](https://i.ytimg.com/vi/SYW17Yl-DCM/hqdefault.jpg)
中文字體轉換線上 在 吳老師教學部落格 Youtube 的評價
JAVA實用級解題分享之1(JAVA開發環境ECLIPSE設定與術科題目開啟)
這是在佛光大學資訊應用學系所講 JAVA入門證照的解題,
可以當成是學習JAVA的入門,
需要的是環境的設置與試題的理解,
學會這些題目,考不考證照就看自己了,
畢竟學會做出作品才是真的,
可以延伸到其他的設計需求,
如:
Android APP開發、JSP動態網頁、Servlet伺服器端的開發、
JavaScript、Jquery、Jquery Mobile、
其他C#的語法也和JAVA很類似。
完整教學:
https://www.youtube.com/playlist?list=PLgzs-Q3byiYMVnYJCPsbyaITTdYtPf8DG
部落格:
http://terry55wu.blogspot.tw/2014/01/javaandroid.html
01_JAVA開發環境與術科題目說明
02_開啟ECLIPSE與101題試題說明
03_101題解答01(產生7個號碼與輸出)
04_101題解答02(產生不重覆與除錯模式)
05_102題解答01(用Date類別產生日期時間)
JAVA證照考題解答分享(Android證照的跳板)
課程大綱:
1.認識 AWT類別
2.認識並學習如何建立視窗物件
3.學習如何管理與配置版面
4.事件處理:1.認識 Java的委派事件模式。2.認識並學習使用各種事件處理類別。3.學習各種物件的事件處理 。
之後:
1.分享最新的JAVA DOCS資訊與中文化版本,
並設定ECLIPSE直接讀取JAVA說明檔的設定方法。
2.利用實例綜合練習變數宣告、資料型別、運算子、
流程控制的IF...ELSE與各種迴圈方法的應用。
3.說明陣列與多維陣列的使用與實例。
漸漸更深入JAVA語法的核心,有些同學似乎已經吃不消,
但有些同學可能以前學過,所以一下子就解出來了,
也很大方的分享出他的解法,
不過這樣有時反而讓一些沒學過JAVA的同學備感壓力。
因為老師以為大家都會了,所以就加速往前,害一些同學在後面趕的很辛苦,
腦筋已經被迴圈給轉的頭昏,還沒弄懂題目,又要接下一題,
所以真有點兩難,好在助教的提醒,有稍放慢一點進度,
若有程度較好的同學,請些自行預息後面的課程,
或是先準備TQC JAVA的學術科考題好了,再不然好心一點,
充當一下老師的分身,幫忙同學一下,感謝!
101模擬樂透彩
102系統日期、時間顯示
103亂數排序器
104河洛之數
105陣列行列轉換
106數值過濾器
107求平均值
108九九乘法表
109面積與體積計算
110單字測驗
202利息計算
204期末考分數計算
206四則運算
208三角形邊長判斷
210字元搜尋器
302字體設定選擇器
304簡易繪圖板
306滑鼠感應視窗
308藝人音樂評等
310年齡計算
TQC JAVA實用級20題已經上完,準備開始講進階級的第三類10題,
但上進階級10題若是沒有 AWT類別的概念,恐怕很難接上第三類的 AWT視窗設計,
所以就在上進階級前,先給湜憶學員一些概念,可以不只在電腦證照考試受用,
在日後撰寫程式也可以更得心應手,JAVA工程師職缺很大,主要是人才培養不易,
要有好的培訓計畫,才能學的好又能有系統,才不致學的有挫折感,
這那上課方式,我也會將之有系統的轉換成雲端教學方式,在線上就可以學習,
並可以與老師隨時互動,得知學習進度與成效,
而這樣的方式已經很成功在各校電腦課程進行中,
從學員們的滿分成效就可以一窺端倪,要有效率又學的好真的不太容易,
很需要學習方法,上課無章法只會浪費時間與金錢,有效率有成果的學習才是王道,
快上完JAVA的進階級,期待每個學員都能順利取得 JAVA證照。
java下載,jdk,eclipse,java教學網站,java教學影片,java eclipse教學,eclipse 教學,java證照解答,AWT類別, 電腦證照
![post-title](https://i.ytimg.com/vi/IH6OlbJrRzc/hqdefault.jpg)
中文字體轉換線上 在 吳老師教學部落格 Youtube 的評價
JAVA證照考題解答分享(Android證照的跳板)
http://terry55wu.blogspot.tw/2014/01/javaandroid.html
課程大綱:
1.認識 AWT類別
2.認識並學習如何建立視窗物件
3.學習如何管理與配置版面
4.事件處理:1.認識 Java的委派事件模式。2.認識並學習使用各種事件處理類別。3.學習各種物件的事件處理 。
之後:
1.分享最新的JAVA DOCS資訊與中文化版本,
並設定ECLIPSE直接讀取JAVA說明檔的設定方法。
2.利用實例綜合練習變數宣告、資料型別、運算子、
流程控制的IF...ELSE與各種迴圈方法的應用。
3.說明陣列與多維陣列的使用與實例。
漸漸更深入JAVA語法的核心,有些同學似乎已經吃不消,
但有些同學可能以前學過,所以一下子就解出來了,
也很大方的分享出他的解法,
不過這樣有時反而讓一些沒學過JAVA的同學備感壓力。
因為老師以為大家都會了,所以就加速往前,害一些同學在後面趕的很辛苦,
腦筋已經被迴圈給轉的頭昏,還沒弄懂題目,又要接下一題,
所以真有點兩難,好在助教的提醒,有稍放慢一點進度,
若有程度較好的同學,請些自行預息後面的課程,
或是先準備TQC JAVA的學術科考題好了,再不然好心一點,
充當一下老師的分身,幫忙同學一下,感謝!
101模擬樂透彩
102系統日期、時間顯示
103亂數排序器
104河洛之數
105陣列行列轉換
106數值過濾器
107求平均值
108九九乘法表
109面積與體積計算
110單字測驗
202利息計算
204期末考分數計算
206四則運算
208三角形邊長判斷
210字元搜尋器
302字體設定選擇器
304簡易繪圖板
306滑鼠感應視窗
308藝人音樂評等
310年齡計算
相關JAVA教學:
發表時間 文章標題
2015-06-22 JAVA網路程式設計第1天上課分享(HTML 5與JavaScript)
2015-06-21 艾鍗JAVA物件導向程式設計2(流程控制)
2015-06-21 JAVA程式設計第2次上課(環境安裝與變數與Math類別)
2015-06-20 從JAVA入門到智慧型手機設計第2次上課
2015-06-20 從JAVA入門到智慧型手機設計第1次上課
2015-01-16 如何在JAVA顯示河洛之數結果
2015-01-16 如何在JAVA顯示系統時間並格式化
2015-01-16 JAVA物件導向設計第3堂課:JSP與APP跳板
2015-01-16 JAVA物件導向設計第2堂課:JSP與APP跳板
2015-01-16 JAVA物件導向第1堂課:JSP與APP跳板
2014-01-20 佛光資應系JAVA證照考題解答分享(Android證照的跳板)
2013-08-19 艾鍗JAVA物件導向程式設計課程上課影音分享(2)
2013-08-02 總統府旁JAVA網路程式設計第2天上課分享
2013-08-02 總統府旁JAVA網路程式設計第1天上課分享
2013-03-15 從JAVA入門到智慧型手機設計第2次上課
2013-03-11 從JAVA入門到智慧型手機設計(1)
2012-10-27 有七星潭海浪聲的JAVA入門與證照分享
2012-09-14 JAVA程式設計第7次上課
2012-08-29 JAVA程式設計第1次上課
2012-05-31 有七星潭海浪聲的JAVA入門與證照分享1
2012-04-08 JAVA證照考題解答分享,Android證照的跳板
2012-01-25 JAVA證照考題解答分享,Android證照的跳板
2011-10-04 JAVA程式設計總整理
2010-10-30 湜憶電腦 TQC JAVA進階級先修課程之二
2010-10-30 湜憶電腦 TQC JAVA進階級先修課程
2010-05-30 最近的生活很JAVA--分享GOOGLE服務在教學上的應用
2010-05-30 文化大學推廣部JAVA程式設計第 5 次上課
2010-05-30 文化大學推廣部JAVA程式設計第 4 次上課
2010-05-30 文化大學推廣部JAVA程式設計第 3 次上課
2010-05-30 文化大學推廣部JAVA程式設計第 2 次上課
2010-05-30 程式語言排行榜,C語言居冠,JAVA次之
2010-05-30 最近的生活很JAVA--分享GOOGLE服務在教學上的應用
2010-05-22 JAVA程式設計第2次上課(環境安裝與變數與Math類別)
2009-08-27 TQC JavaScipt 實用級線上影音
2009-08-24 TQC JavaScipt 線上影音教學課程 101自動瀏覽器
2009-03-12 Java、VisualBasic、Visual C++有什麼不一樣呢?
java下載,jdk,eclipse,java教學網站,java教學影片,java eclipse教學,eclipse 教學,java證照解答,AWT類別, 電腦證照
![post-title](https://i.ytimg.com/vi/BOIA-pzqrJU/hqdefault.jpg)