科技創新(一百三十四):AIoT產業-即將遍地開花的人工智慧影像辨識應用

科技創新(一百三十四):AIoT產業-即將遍地開花的人工智慧影像辨識應用

影像辨識,是當今人工智慧最常被應用的類型之一,以AIoT(人工智慧+物聯網)的角度,在金融科技、智慧零售、智慧工廠、智慧農業、智慧安防(安全防護)、智慧城市,以及先進輔助駕駛系統與自動駕駛車上,都能夠發揮大的作用,可說是最多元的AIoT應用項目。

影像辨識是機器視覺的主要應用,早年被稱為電腦視覺,起源於1963年賴瑞。羅伯茲的博士論文,Machine Perception Of Three-Dimensional Solids”(中文翻譯:機器對三維固體的認知),其中談到輸入的固體影像會如何被電腦做認知的描述,而賴瑞。羅伯茲也因此被稱為電腦視覺之父,而1966年,美國麻省理工的明斯基教授聘請了一名大學一年級學生,並指派他在夏季解決問題:「將相機連接到計算機並讓機器描述它所看到的內容。」,這兩件事開始了用電腦做辨識物體與人像的時代;1970年代開始對選定的人像有一點進展,可以識別後知道五官、頭髮的對應位置;1980年代開始使用幾何來對應,1990年代開始使用統計分析來做影像分析效果提升,西元2000年代以後使用大型標注的數據集來強化。而華裔科學家史丹佛教授李飛飛跟其他人創了著名的ImageNet,在2007 年到2009 年,收集了超過 320 萬個被標記的圖像,分為12 個大類別, 5247 個小類別,從2010 年開始,ImageNet 設立了競賽規則,邀請了全世界的電腦科學研究者參加競賽,比賽內容是比較各家的演算法識別特定圖像的錯誤率,低者為勝。在2012 年的 ImageNet 比賽,來自多倫多大學的 Geoffrey HintonIlya Sutskever Alex Krizhevsky 提交「AlexNet」,其使用GPU達成的深度卷積神經網絡算法,而這種演算法的圖形識別錯誤率低至 16%,大勝第二名。從此,深度卷積神經網絡演算法成了主流的影像識別的研究方向。之後每年的ImageNet的比賽識別率突飛猛進,特別是2015年時,微軟的團隊獲得了ImageNet冠軍,其辨識錯誤率低到3.57%,贏過人類的5.1%,之後2016年、2017年到冠軍結果年年進步,而ImageNet大賽也於2017年辦了最後一場後就不再辦了。也因為這些在ImageNet獲勝的模型在比賽完被公佈出來,大家可以直接拿來使用,讓電腦視覺辨識蓬勃發展。

談完了歷史,接下來談談各種AIoT應用,首先,人臉識別是最常見的應用。在台灣的7-11跟全家便利商店內的連網電視,都具備有照相模組,辨識店內客戶們後,運算對應出其大約年齡及性別。後來結合系統的照片數據,可以更進一步的辨識出身份,桃園機場海關的快速通關就是使用人臉辨識,用了它之後,通關速度快了很多;而現在很多公司使用它替代打卡系統及供應商進出系統,例如鴻海精密及精誠資訊,透過臉部辨識知道是哪個員工上下班,取代傳統打卡系統;或是7-11X-Store,以及中國的阿里巴巴下的盒馬鮮生的很多門店,就讓客戶透過人臉辨識,確認身份後進入;在台灣很多民營銀行也紛紛導入人臉辨識(需在客戶同意下應用),希望用此科技上更強化客戶體驗,例如可以在VTM做人臉辨識後取款等;在中國大陸更是普遍將人臉辨識,用在安防系統中,之前BBC記者測試中國大陸的天網系統,從出機場到被系統找到,只需要七分鐘,非常快速;還有在中國大陸舉辦的張學友演唱會上,聽說也透過安防的人臉辨識系統,找到多個逃犯。另外,使用蘋果公司智慧型手機iPhone X系列機種智慧型手機的朋友,就能感受到iPhone 使用人臉辨識認證的便利:將手機面向自己的臉,就可以自動解鎖,不必滑開再輸入密碼,比使用辨識錯誤率較高的指紋更方便,而這可以用在所有需要在手機上認證的應用上。
另外還有表情辨識應用:透過辨識人臉上的表情,可以了解到被辨識者此刻的心情,在零售及銀行業上很有用。先透過影像,瞭解客戶此刻的情緒狀況,銷售人員可再針對此做更進一步地發揮,例如,客戶心情很好,並且搭配過去的數據,瞭解客戶的偏好,此時對應做推銷,可能達成事半功倍的業績效果。
接下來談到動作辨識,常見的有人體動作辨識與移動軌跡辨識。人體動作辨識,目的是辨識人體的行動,例如在運動時,透過對運動員的動作紀錄與識別,教練可已對運動員做更進一步的動作修正與指導。而移動軌跡辨識,目的是瞭解人員移動的軌道,這有多種應用,例如在足球賽,人工智慧可以針對對戰雙方球員行動的即時軌跡分析,協助教練及時下達戰術指令;在零售業上,其可用於了解個別顧客在店內的動線,以及從眾多顧客的行動軌跡,找出場域內的銷售熱點;在安防上,人工智慧對行動軌跡判斷應用也很多,例如,盾心科技的智慧安防系統,可以透過行動軌跡判斷,是否有人非法侵入保全區域,一但確定,就通知保全人員處理;還有國外大城市綜合應用行動軌跡、動作、表情等綜合,使用人工智慧判斷是否為恐怖分子的行動,而及時給予處理,避免造成重大災害。
在工業上的應用則是聚焦在需要光學辨識上,根據台大機械范光照教授之前提出的簡報,可知至少應用在以下產業:
1.   IC及一般電子業:應用在PCBBGALCD螢幕、被動元件形狀腳位及定位、生產插件、晶元(Wafer)鏡面研磨、生產組裝、被動元件辨識上。
2.     機械工具/自動化機械:應用在零件尺寸、外形、瑕疵檢測、零件分類比對、裝配定位、加工定位、熔焊檢測上。
3.     電機工業:應用在控制器紅外線熱像儀檢測、電線瑕疵、裂縫檢測、纜線配置檢測電機工業上。
4.     金屬鋼鐵業:應用在鋼板尺寸檢測、表面瑕疵檢測、鑄件瑕疵檢測、材料金像檢測上。
5.     橡膠/塑膠製品:應用在保特瓶口尺寸檢測、製品顏色分類檢上。
6.     食品加工/包裝業:應用在瓶內液位高度、異物或灰塵檢測、包裝印刷辨識上。
7.     紡織皮革工業:應用在表面針織紋路檢測、色差檢測、皮革表面特性檢測上。
8.     汽車工業:應用在陶軸裁切定位、零件塗黃油檢測、白車身檢驗上。
這些應用本來就有企業切入,但是應用人工智慧把技術門檻降低也是不爭的事實。另外較新型的工業機器人,會利用機器視覺辨識,以進行辨識、檢測、比對、導引,以及與人員協作的功能,以精確動作,達成作業目標。
在農業上,相關應用也不少:透過辨識農田中作物的狀態,可以判斷作物是否生病,果實是否成熟到可以採收,也可以透過無人機裝上攝影鏡頭,透過影像以人工智慧做數量判定,或是噴灑農藥的協助。另外在國外有各種各樣的農耕機器人,有收穫果實、耕耘播種、剷除雜草……等等功能,它們身上都具備有機器視覺功能,在收穫果實機器人運作時用來判斷果實是否成熟,符合採收標準,以使用機器手臂進行採收;剷除雜草機器人運作時,辨識出田中符合雜草標準的草,然後予以剷除;耕耘播種機器人運作時,則是利用影像辨識,協助其正確地在土地中動作。
最近當紅的自動駕駛車,它本身最重要的感測器就是照相模組、雷達及光達,透過照相模組接收到的影像來做人工智慧辨識,確認車子行進的路況、其他車輛與行人及周遭環境狀況,再予以即時反應。不過照相模組在大霧、大雨、大雪、沙塵、光線不良……等等不良環境狀況時,因為所接收到的數據大受干擾,正確性不足,人工智慧的判斷力大打折扣,也因此需要搭配雷達及光達這樣的高速掃描技術,即時構建周遭環境的正確數據,才能夠即時做出正確反應。
在智慧城市上的應用,除了之前提到的透過城市內公共場所的連網照相模組對環境做安防監控外,最常見的應用則是在道路交通上,如台灣高速公路e-Tag系統用機器視覺對所有車子進行辨識,進行交通狀況判斷與壅塞疏導;中國大陸杭州市的智慧大腦,對重要道路的交通狀況用連網照相機做影像辨識收集數據,以及時做交通紓解安排。
上述提到的人工智慧在影像辨識上的應用,之前人工智慧運算多是在雲端上的眾多伺服器上進行,這樣影像傳輸數據量很大,全部往雲端上傳才處理,反應速度不及時是被詬病的重點,所以未來發展會把相關的推論運算放在終端設備做即時運算(即邊緣運算),而只會把重要的運算後結果傳到雲端伺服器上,以作以後的整合數據分析。而仍需要大量雲端伺服器運算能力的人工智慧數據學習,本來一般中小企業有負擔不起機器費用與沒有人才的窘境,但隨著GoogleMicrosoftFacebookAmazon……等等公司將自家的研究成果開源,相關工具越來越發達,降低人才培育學習門檻;而且Amazon Web ServiceMicrosoft Azure,以及Google Cloud Platform……等等公有雲企業提供機器學習高效運算能力的機器做MLaaS服務(Machine Learning as a Service機器學習即服務),讓進入門檻大為降低,成本讓大部分公司負擔得起,讓越來越多的公司開始投入,導致相關應用在未來會越來越多,普及後在我們身邊將會處處可見。
`

裴有恆

現為昱創企管顧問有限公司總經理,多家公司的顧問、新北市工業會會務顧問與生產力4.0委員會委員,以及多家媒體的科技專欄與特約作家,同時也是趨勢觀察者。講授與輔導課題有物聯網、人工智慧、Fintech、工業4.0、大數據、產品創新、服務創新、商業模式創新與專案管理。現在同時也是Google查詢物聯網顧問、物聯網教練、AIoT教練、物聯網講師丶AIoT教練丶AIoT 顧問丶數位轉型教練丶數位轉型講師人名第一名。

發佈留言