雖然這篇三階反矩陣記法鄉民發文沒有被收入到精華區:在三階反矩陣記法這個話題中,我們另外找到其它相關的精選爆讚文章
在 三階反矩陣記法產品中有13篇Facebook貼文,粉絲數超過3,992的網紅台灣物聯網實驗室 IOT Labs,也在其Facebook貼文中提到, 機器學習識別特徵阻絕代測 上鏈回送監理資料庫防竄改 人臉辨識加酒精鎖阻酒駕 串區塊鏈上傳比對告警 2021-05-24社團法人台灣E化資安分析管理協會元智大學多媒體安全與影像處理實驗室 本文將介紹酒精防偽人臉影像辨識系統,結合了人臉辨識、酒精鎖以及區塊鏈應用,以解決酒駕問題,並透過監控系統避免...
同時也有1部Youtube影片,追蹤數超過3萬的網紅李祥數學,堪稱一絕,也在其Youtube影片中提到,成為這個頻道的會員並獲得獎勵:https://www.youtube.com/channel/UCU2axN3MDyvq01LOK1umZGQ/join 追蹤我的ig:https://www.instagram.com/garylee0617/ 加入我的粉絲專頁:https://www.face...
-
三階反矩陣記法 在 李祥數學,堪稱一絕 Youtube 的最佳解答
2020-09-27 18:00:10成為這個頻道的會員並獲得獎勵:https://www.youtube.com/channel/UCU2axN3MDyvq01LOK1umZGQ/join
追蹤我的ig:https://www.instagram.com/garylee0617/
加入我的粉絲專頁:https://www.facebook.com/pg/garylee0617/
有問題來這裡發問:https://www.facebook.com/groups/577900652853942/
喜歡這支影片,記得按個"喜歡",並且分享
訂閱就可以看到最新的影片
你最棒,記得按鈴鐺^^
高中數學重要觀念解析:https://www.youtube.com/playlist?list=PLOAKxvSm6LGkzAh5k3h-CI0-clwS7xsWm
數學思考題型:https://www.youtube.com/playlist?list=PLOAKxvSm6LGmx__4F2KucNWpEvr1rawkw
關於數學的兩三事:https://www.youtube.com/playlist?list=PLOAKxvSm6LGlD5ABfGtLkOhNIRfWxIRc5
真的祥知道:https://www.youtube.com/playlist?list=PLOAKxvSm6LGmQC77bAQPdl_Bw5VK8KQc-
YouTube合作影片:https://www.youtube.com/playlist?list=PLOAKxvSm6LGlQk7b-jDmCaUjJ57UMSXsf
高中數學講座:https://www.youtube.com/playlist?list=PLOAKxvSm6LGmgafYQliX1Ewh2Ajun9NNn
學測考前猜題:https://www.youtube.com/playlist?list=PLOAKxvSm6LGko-fghK4k3eZJ23pmWqN_k
指考數甲數乙總複習https://www.youtube.com/playlist?list=PLOAKxvSm6LGlrdoVFRflK46Cm25CGvLBr
統測考前猜題:https://www.youtube.com/playlist?list=PLOAKxvSm6LGkP_Nvl8iToZUWNfOHT42Pg
抖音精選:https://www.youtube.com/playlist?list=PLOAKxvSm6LGmoWuzdrsxoeKQBR_GgZyIk
國中會考總複習:https://www.youtube.com/playlist?list=PLOAKxvSm6LGlbMqjF4W6ElHM_lrFZijkg
三階反矩陣記法 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
機器學習識別特徵阻絕代測 上鏈回送監理資料庫防竄改
人臉辨識加酒精鎖阻酒駕 串區塊鏈上傳比對告警
2021-05-24社團法人台灣E化資安分析管理協會元智大學多媒體安全與影像處理實驗室
本文將介紹酒精防偽人臉影像辨識系統,結合了人臉辨識、酒精鎖以及區塊鏈應用,以解決酒駕問題,並透過監控系統避免代測狀況發生。且利用區塊鏈不可修改的特性,將車輛與人臉資料串上區塊鏈,以確保駕駛人的不可否認性。
長長期以來「酒駕」都是一個很嚴肅且必須被重視的議題,儘管在2019年立法院修法酒駕及拒絕酒測的罰則,但是抱持僥倖心態的人還是數不勝數,導致因酒駕釀成車禍的悲劇還是一再重演,讓不少的家庭因此破滅。
據統計,從2015年到2018年的酒駕取締件數都逾10萬件,而因為酒駕車禍的死亡人數逾百人。在2019年酒駕新制上路以後,2020年警方酒駕取締件數有明顯下降至約6萬件,雖然成功達到嚇阻效果,但是死亡人數仍與去年前年持平,可見離完全遏止酒駕還有很長的路需要努力。
立法院於2018年三讀通過了「道路交通管理處罰條例部分條文修正案」,酒駕者必須重新考照,並且只能駕駛具有酒精鎖(Alcohol Interlock)的車輛,所謂酒精鎖,屬於車輛點火自動鎖定裝置,在汽車發動前必須進行酒測,通過才能將汽車發動,而且在每45分鐘至60分鐘後酒精鎖系統就會要求駕駛人在一定時間內進行重新酒測,以便防範在行車過程中有飲酒的情況發生,若駕駛人未遵守其要求,車子就會強制熄火並鎖死,必須回酒精鎖服務中心才能將鎖解開。
由於法案的方式無法完全遏止酒駕,因此許多創新科技或是企業致力於研究相關科技來解決酒駕的問題。
其中本田(Honda)汽車與日立(Hitachi)公司研發出手持型酒精含量檢測裝置,讓駕駛人必須在駕駛之前都先進行酒測,若酒精濃度超標就會將汽車載具上鎖,藉此避免酒駕意外或事故發生,且該技術結合了智慧鑰匙功能,若偵測到酒測值超標,車輛中的顯示面板將會發出警告訊號告知駕駛人,避免酒駕上路之問題。
另一方面則是解決酒精殘值之問題,因為有許多駕駛人都會認為,休息一下後,身體也無感到不適,即駕車出門,等到駕駛人被警方臨檢時才知道酒測未通過,因此收到罰單,甚至是吊銷駕照處罰等。
根據醫學研究指出,酒精是在人體體內由肝臟代謝,實際代謝時間必須看體質以及飲酒量而定。台灣酒駕防制社會關懷協會建議,喝酒後至少要10至20小時後再駕車比較安全。多數人無具備酒精代謝時間的觀念,導致駕駛人貿然上路,待意外發生或罰單臨頭時,已經為時已晚。
背景知識說明
本文介紹的方法為酒精鎖結合攝影鏡頭進行人臉辨識,並將人臉特徵資料與車輛資料串上區塊鏈,並利用區塊鏈不可篡改的特性,來避免駕駛人在解鎖酒精鎖時發生他人代測的問題。
由於人臉辨識技術具備防偽性、身分驗證的特性,因此將酒精鎖的技術結合人臉辨識,便可確認為駕駛本人。
何謂人臉辨識
人臉辨識技術屬於生物辨識的一種,基於人工智慧、機器學習、深度學習等技術,將大量人臉的資料輸入至電腦中做為模型訓練的素材,讓電腦透過演算法學習人類的面部特徵,藉以歸納其關聯性最後輸出人臉的特徵模型。
目前人臉辨識技術已經遍佈在日常生活之中,其應用面廣泛,最為常見的應用即為智慧型手機的解鎖、行動支付如LINE Pay、Apple Pay等,其他應用還包括行動網路銀行、網路郵局、社區大樓門禁管理系統、企業監控系統、機場出入關、智能ATM、中國天眼系統等。一般來說,人臉辨識皆具備以下幾個特性:
‧ 普遍性:屬於任何人皆擁有的特徵。
‧ 唯一性:除本人以外,其他人不具相同的特徵。
‧ 永續性:特徵不易隨著短時間有大幅的改變。
‧ 方便性:人臉辨識容易實施,設備容易取得,如相機鏡頭。
‧ 非接觸性:不須直接接觸儀器,也可以進行辨識,這部分考量到衛生問題以及辨識速度。
人臉辨識透過人臉特徵的分析比對進行身分的驗證,別於其他生物辨識如虹膜辨識、指紋辨識,無須近距離接觸,也可以精準地辨識身分,且具有同時辨識多人的能力。因應新冠肺炎疫情肆虐全球,人臉辨識技術也被用來管理人來人往的人流。人臉辨識的儀器可以搭配紅外線攝影機來測量人體體溫,在門禁進出管制系統中,利於提高管理效率,有效掌握到進出人員的身分,以及幫助衛生福利部在做疫調時更容易掌握到確診病患行經的足跡。
人臉辨識的步驟
人臉辨識的過程與步驟,包括人臉偵測、人臉校正、人臉特徵值的摘取,進行機器學習與深度學習、輸出人臉模型,從影像中先尋找目標人臉,偵測到目標後會將人臉進行預處理、灰階化、校正,並摘取特徵值,接著人臉資料交給電腦進行機器學習與深度學習運算,最後輸出已訓練好的模型。相關辨識的步驟,如圖1所示。
人臉偵測
基於Haar臉部檢測器的基本思想,對於一個一般的正臉而言,眼睛周圍的亮度較前額與臉頰暗、嘴巴比臉頰暗等其他明顯特徵。基於這樣的模式進行數千、數萬次的訓練,所訓練出的人臉模型,其訓練時間可能為幾個小時甚至幾天到幾周不等。利用已經訓練好的Haar人臉特徵模型,可以有效地在影像中偵測到人臉。
Python中的Dilb函式庫提供了訓練好的人臉模型,可以偵測出人臉的68個特徵點,包括臉的輪廓、眉毛、眼睛、鼻子、嘴巴。基於這些特徵點的資料就能夠進行人臉偵測,如圖2~4所示。圖中左上角的部分是偵測到的分數,若分數越高,代表該張影像就越可能是人臉,右側括弧中的編號代表子偵測器的編號,代表人臉的方向,其中0為正面、1為左側、2為右側。
人臉的預處理
偵測到人臉後,要針對圖片進行預處理。通常訓練的影像與攝影鏡頭拍出來的照片會有很大的不同,尤其會受到燈光、角度、表情等影響,為了改善這類問題,必須對圖片進行預處理以減少這類的問題,其中訓練的資料集也很重要:
‧ 幾何變換與裁剪:將影像中的人臉對齊與校正,將影像中不重要的部分進行裁切,並旋轉人臉,並使眼睛保持水平。
‧ 針對人臉的兩側用直方圖均衡化:可以增強影像中的對比度,可以改善過曝的影像或是曝光不足的問題,更有效地顯示與取得人臉目標的特徵點。
‧ 影像平滑化:影像在傳遞的過程中若受到通道、劣質取樣系統或是受到其他干擾導致影像變得粗糙,藉由使用圖形平滑處理,可以減少影像中的鋸齒效應和雜訊。
人臉特徵摘取
關於人臉特徵摘取,相關的技術說明如下:
‧ 歐式距離:人臉辨識是一個監督式學習,利用建立好的人臉模型,將測試資料和訓練資料進行匹配,最直觀的方式就是利用歐式距離來計算所有測試資料與訓練資料之間的距離,選擇差距最小者的影像作為辨識結果。由於人臉資料過於複雜,且需要大量的訓練集資料與測試集資料,會導致計算量過大,使辨識的速度過於緩慢,因此需要透過主成分分析法(Principal Components Analysis,PCA)來解決此問題。
‧ 主成分分析法:主成分分析法為統計學中的方法,目的是將大量且複雜的人臉資料進行降維,只保留影像中的主成分,即為影像中的關鍵像素,以在維持精確度的前提下加快辨識的速度。先將原本的二維影像資料每列資料減掉平均值,並計算協方差矩陣且取得特徵值與特徵向量,接著將訓練集與測試集的資料進行降維,讓新的像素矩陣中只保留主成分,最後則將降維後的測試資料與訓練資料做匹配,選擇距離最近者為辨識的結果。由於影像資料經過了降維的步驟,因此人臉辨識的速度將會大幅度地提升。
‧ 卷積神經網路:卷積神經網路(Convolutional Neural Network,CNN)是一種神經網路的架構,在影像辨識、人臉辨識至自駕車領域中都被廣泛運用,是深度學習(Deep Learning)中重要的一部分。主要的目的是透過濾波器對影像進行卷積、池化運算,藉此來提取圖片的特徵,並進行分類、辨識、訓練模型等作業。在人臉辨識的應用中,首先會輸入人臉的影像,再透過CNN從影像提取像素特徵並轉換成特定形式輸出,並用輸出的資料集進行訓練、辨識等等。
何謂酒精鎖
酒精鎖(圖5)是一種裝置在車輛載體中的配備,讓駕駛人必須在汽車發動前進行酒測,通過後才能將車輛發動。且每隔45分鐘至60分鐘會發出要求,讓駕駛人在時間內再次進行檢測。
根據歐盟經驗,提高罰款金額以及吊銷駕照只有在短期實施有效,只有勸阻的效果,若在執法上不夠嚴謹,被吊照者會轉變成無照駕駛,因此防止酒駕最有效的方法就是強制讓駕駛人無法上路,這就是「酒精鎖」的設計精神。
在本國2020年3月1日起酒駕新制通過後,針對酒駕犯有了更明確且更嚴厲的規定,在酒駕被吊銷駕照者重考後,一年內車輛要裝酒精鎖,未通過酒測者無法啟動,且必須上15小時的教育訓練才能重考,若酒駕累犯三次,要接受酒癮評估治療滿一年、十二次才能重考。
許多民眾對於「酒精鎖」議論紛紛,懷疑是否會發生找其他人代吹酒精鎖的疑慮,為防範此問題,酒精鎖在啟動後的五分鐘內重新進行吹氣,且汽車在行駛期間的每45至60分鐘內,便會隨機要求駕駛重新進行酒測,如果沒有通過測量或是沒有測量,整合在汽車智慧顯示面板的酒精鎖便會發出警告,並勸告駕駛停止駕車。
對於酒精鎖的實施,目前無法完全普及到每一台車子,而且對於沒有飲酒習慣的民眾而言,根本是多此一舉,反而增加不少麻煩給駕駛。若還有每45~60分鐘的隨機檢測,會導致多輛汽車必須臨時停靠路邊進行檢測,可能加劇汽車違規停車的發生頻率。
認識區塊鏈
區塊鏈技術是一種不依賴於第三方,透過分散式節點(Peer to Peer,P2P)來進行網路數據的存儲、交易與驗證的技術方法。本質上就是一個去中心化的資料庫,任何人在任何時間都可以依照相同的技術標準將訊息打包成區塊並串上區塊鏈,而這些被串上區塊鏈的區塊無法再被更改。區塊鏈技術主要依靠了密碼學與HASH來保護訊息安全,也是賦予區塊鏈技術具有高安全性、不可篡改性以及去中心化的關鍵。區塊鏈相關概念,如圖6所示。
區塊鏈的原理與特性
可以將區塊鏈想像成是一個大型公開帳本,網路上的每個節點都擁有完整的帳本備份,當產生一筆交易時,會將這筆交易廣播到各個節點,而每個節點會將未驗證的交易HASH值收集至區塊內。接著,每個節點進行工作量證明,選取計算最快的節點進行這些交易的驗證,完成後會把區塊廣播給到其他節點,其他節點會再度確認區塊中包含的交易是否有效,驗證過後才會接受區塊並串上區塊鏈,此時就無法再將資料進行篡改。
關於區塊鏈的特性,可分成以下四部分做說明:
1. 去中心化:區塊鏈其中一個最重要的核心宗旨,就是「去中心化」,區塊鏈採用分散式的點對點傳輸,該概念架構中,節點與節點之中沒有所謂的中心,所有的操作都部署在分散式的節點中,而無須部署在中心化機構的伺服器,一筆交易或資料的傳輸不再需要第三方的介入,因此又可以說每個節點就是所謂的「中心」。這樣的結構也加強了區塊鏈的穩定性,不會因為其中的部分節點故障而癱瘓整個區塊鏈的結構。
2. 不可篡改性:透過密碼學與雜湊函數的運用來將資料打包成區塊並上鏈,所有區塊都有屬於它的時間戳記,並依照時間順序排序,而所有節點的帳本資料中又記錄了完整的歷史內容,讓區塊鏈無法進行更改或是更改成本很高,因此使區塊鏈具備「不可篡改性」,並且同時確保了資料的完整性、安全性以及真實性。
3. 可追溯性:區塊鏈是一種鏈式的資料結構,鏈上的訊息區塊依照時間的順序環環相扣,這便使得區塊鏈具有可追溯的特性。可追本溯源的特性適用在廣泛的領域中,如供應鏈、版權保護、醫療、學歷認證等。區塊鏈就如同記帳帳本一般,每筆交易記錄著時間和訊息內容,若要進行資料的更改,則會視為一筆新的交易,且舊的紀錄仍會存在無法更動,因此仍可依照過去的交易事件進行追溯。
4. 匿名性:在去中心化的結構下,節點與節點之間不分主從關係,且每個節點中都擁有一本完整的帳本,因此區塊鏈系統是公開透明的。此時,個人資料與訊息內容的隱私就非常重要,區塊鏈技術運用了HASH運算、非對稱式加密與數位簽章等其他密碼學技術,讓節點資料在完全開放的情況下,也能保護隱私以及用戶的匿名性。
區塊鏈與酒精鎖
由於區塊鏈的技術具備去中心化、記錄時間以及不可篡改的特性,且更加強酒精鎖的檢測需要身分驗證的保證性。當進行酒精鎖檢測解鎖時,系統記錄駕駛人吹氣時間以及車輛的相關資訊,還有人臉特徵資料打包成區塊並串上區塊鏈。因此,在同一時間當監控系統偵測到當前駕駛人與吹氣人不同時,此時區塊鏈中所記錄的資料便能成為一個強而有力的依據,同時也能讓其他的違規或違法事件可以更容易進行追溯。
酒駕防偽人臉辨識系統介紹
為了解決酒精鎖發生駕駛人代測的問題,酒精鎖產品應導入具有身分驗證性的人臉辨識技術。酒駕防偽人臉辨識系統即為駕駛人在進行酒精鎖解鎖時,要同時進行人臉辨識,來確保駕駛人與吹氣人為同一人。
在駕駛座前方的位置會安裝攝影鏡頭,作為駕駛的監控裝置。進行酒測吹氣的人臉資料將會輸入到該系統中的資料庫儲存,並將人臉資料以及酒測的時間戳記打包成區塊串上區塊鏈,當汽車已經駛動時,攝影鏡頭將會將當前駕駛人畫面傳回系統進行人臉比對驗證。如果驗證成功,會將通過的紀錄與時間戳一同上傳至區塊鏈,若是系統偵測到駕駛人與吹氣人為不同對象,系統將發出警示要求駕駛停車並重新進行檢測,並同時將此次異常的情況進行記錄上傳到區塊鏈中。
如果駕駛持續不遵循系統指示仍持續行駛,該系統會將區塊鏈的紀錄傳送回給開罰的相關單位,並同時發出警報以告知附近用路人該車輛處於異常情況,應先行迴避。且該車輛於熄火後,酒精鎖會將車輛上鎖,必須聯絡酒精鎖廠商或酒精鎖服務中心才能解鎖。相關的系統概念流程圖,如圖7所示。
區塊鏈打包上鏈模擬
在進行酒測解鎖完畢以及進行人臉資料儲存後,會透過CNN將影像轉換輸出成128維的特徵向量作為人臉資料的測量值,接著將128個人臉特徵向量資料取出,並隨著車輛資訊一起打包到同一個區塊,然後串上區塊鏈。取出的人臉特徵資料,如圖8所示。
要打包成區塊和上鏈的內容,包括了人臉特徵資料、車牌號碼、酒測解鎖時間點等相關輔助資料,接著透過雜湊函數將相關的資料打包成區塊。以車牌號碼ABC-1234為例,圖9顯示將車輛資料和人臉資料進行區塊鏈的打包,並進行HASH運算。
將人臉資料和車輛相關資料作為一次的交易內容,並打包區塊,經過HASH後的結果如圖10所示,其中prev_hash屬性代表鏈結串列指向前一筆資料,由於這是實作模擬情境,並無上一筆資料,其中messages屬性代表內容數,一筆代表車牌資料,另一筆則為人臉資料。time屬性則代表區塊上鏈的時間點,代表車輛解鎖的時間點。
情境演練說明
話說小禛是一間企業的上班族,平時以開車為上下班的交通工具,他的汽車配置了酒駕防偽影像辨識系統,以下模擬小禛下班後準備開車的情境。
已經下班的小禛今天打算從公司開車回家,當小禛上車準備發動車子時,他必須先拿起安裝在車上的酒測器進行吹氣,並將臉對準攝影鏡頭讓系統取得小禛的人臉影像。小禛在汽車發動前的人臉影像,如圖11所示。
待攝影鏡頭偵測到小禛的人臉後,接著系統便會擷取臉上五官的68個特徵點,如圖12所示。然後,相關數據再透過CNN轉換輸出成128維的特徵向量作為人臉資料的測量值,如圖13所示。
酒精鎖通過解鎖後,車輛隨之發動,解鎖成功的時間點將會記錄成時間戳記,隨著影像與相關資料串上區塊鏈。在行駛途中,設置在駕駛座前方的鏡頭將擷取目前駕駛的人臉,以取得駕駛人的128維人臉特徵向量測量值,並且與汽車發動前所存入的人臉資料進行比對,藉以判斷目前的駕駛人與剛才的吹氣人臉是否為同一位駕駛。當驗證通過後,也會再將通過的紀錄與時間戳上傳至區塊鏈中,如此一來,區塊鏈的訊息內容便完整記載了這一次駕車的紀錄,檢測通過的示意圖如圖14所示。
系統通過辨識後,便確認了駕駛人的身分與吹氣人一致。且透過時戳的紀錄和區塊鏈的輔助,也確保了駕駛的不可否認性。若有其他違規事件發生時,區塊鏈的紀錄便成為一個強而有力的依據來進行追溯。
如此一來,便可以預防小禛喝酒卻找其他人代吹酒測器的情況發生。在駕駛的途中,如果有需要更換駕駛人,必須待車輛靜止時,從車載系統發出更換駕駛要求,再重新進行酒測以及重複上述流程,才可以更換駕駛人。如果沒有按照該流程更換駕駛,系統將視為異常情況。
結語
酒駕一直是全球性的問題,將有高機率導致重大交通事故,造成人員傷亡、家庭破碎,進而醞釀後續更多的社會問題,皆是酒駕所引發的不良效益。為了解決酒駕的問題,各個國家都有不同的酒駕標準或是法律規範,但是大部分國家的規範和制度都只有嚇阻作用卻無法完全遏止。在不同的國家防止酒駕的方式不盡相同,有的國家如新加坡,透過監禁及鞭刑來遏止酒駕犯,又或者是薩爾瓦多,當發現酒駕直接判定死刑,這樣的制度雖嚇阻力極強,但是若讓其他國家也跟進,會造成違憲或是違反人權等問題。因此,各國都在酒駕的問題方面紛紛投入研究,想要達到零酒駕的社會。
為達成此理想,本文介紹了基於區塊鏈的酒駕防偽辨識系統,利用酒精鎖搭配人臉辨識技術以及區塊鏈技術,使有飲酒的駕駛人無法發動汽車。且該系統搭載在行車電腦中,結合攝影鏡頭的監控對駕駛進行酒測防制管理,將人臉資料、酒精鎖、解鎖時間點與相關資訊打包成區塊並上鏈。基於區塊鏈技術內容的不易篡改,可加強駕駛人的不可否認性,當汽車發生異常情況時,便能利用有效且可靠的依據進行追溯。人工智慧和物聯網時代已經來臨,透過酒駕防偽辨識系統來改善酒駕問題,在未來能夠普及並結合法規,智慧汽車以及智慧科技的應用將會帶給人們更安全、更便利的社會。
附圖:圖1 人臉辨識的步驟。
圖2 人臉特徵點偵測(正臉)。
圖3 人臉特徵點偵測(左側臉)。
圖4 人臉特徵點偵測(右側臉)。
圖5 酒精鎖。 (圖片來源:https://commons.wikimedia.org/wiki/File:Guardian_Interlock_AMS2000_1.jpg with Author: Rsheram)
圖6 區塊鏈分散式節點的概念圖。
圖7 系統概念流程圖。
圖8 取出人臉128維特徵向量。
圖9 儲存車輛相關資料及人臉資料到區塊。
圖10 HASH後及打包成區塊的結果。
圖11 汽車發動前小禛的人臉影像。
圖12 小禛的人臉影像特徵點。
圖13 小禛的人臉特徵向量資料。
圖14 系統通過酒測檢測者與駕駛人為同一人。
資料來源:https://www.netadmin.com.tw/netadmin/zh-tw/technology/CC690F49163E4AAF9FD0E88A157C7B9D
三階反矩陣記法 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
訓練AI模型,要多少數據?拆解企業人工智慧專案為何難落地
2020.12.09 by 若水AI Blog
企業導入AI似乎已成為一種趨勢,但是訓練AI模型,需要多少數據?其背後的商業命題與成本又該如何解決?帶你來一起窺探AI專案背後的秘密!
企業的AI專案在釐清問題本質、找到命題之後,首先會面臨到一個問題:收集數據(Data Collection)和建立AI模型(Model Establishing),該以什麼作為評估基準?
訓練一個AI數據模型,需要多少數據?
訓練AI數據模型時,其實有三個要素,彼此互相影響。分別是: 商業問題的複雜度 、 AI模型複雜度 (Model Complexity),以及 數據複雜度 (Data Complexity)。
因此,如果想知道需要多少訓練數據(Training Data),建議先釐清:這個AI專案到底要處理什麼問題,以及這個問題有多複雜?確定之後,再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度,用不同複雜度的模型和精準數據彼此搭配,找出最佳平衡,才能讓AI專案順利落地。
但光憑想像,很難評估實際的AI數據量和成效,所以開始AI的第一步,需要先透過POC概念驗證(Proof of Concept)實驗來找答案。
簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。
一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)
上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。
我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。
增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。
數據哪裡來?發展AI人工智慧之前,先建立數據流
先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。
AI數據收集(Data Collection)最大的挑戰,在於針對不同型態的命題,會產生不同的AI數據需求,因此需要建立的「數據流」(Data Pipeline),AI數據處理 (Data Processing)和數據標註(Data Annotation)的模式及流程也會有所不同。
發展AI之前,如果能建立起從數據收集(Data Collection)、數據處理(Data Processing)到AI模型學習的數據流(Data Pipeline),並確保可以順暢運行,實際訓練AI模型時才會省力很多。
數據不夠或太多怎麼辦?
Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。
如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。
POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。
如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?
我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。
過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。
猜猜結果如何?兩次實驗的表現,只差異不到1%。
所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。
AI模型訓練,記得校準商業目標
企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值 。
所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。
比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。
最常見的訓練方法,是用成本函數(Cost Function)的方式,訓練完再回去調整AI模型的評分(Rating),用加扣分的方式,告訴機器它的學習表現是好是壞,做對就加分,做錯就扣分。
上述評分原則的制定,和企業的商業價值考量息息相關,所以一般在組織分工,會由PM專案團隊負責判斷哪些項目重要,請資料科學家設計在上述Cost Function裡面。
很多人以為,AI人工智慧開發要做到很完美才行,但其實根據我們的經驗,只要AI開發成本符合預算、AI模型表現可接受(大約做到60–70分),而且結果有助於降低成本,就可以算是達到商業目標。反過來,即使AI模型表現非常好(高達90分),但成本卻遠超出預算,就不建議執行。
另外,因為POC階段會做很多的實驗,需要拿兩個穩定且可以互相比較的基準做A/B Test,所以做好基礎建設非常重要。
如果一個團隊裡面有三位工程師,但三個人做出來的結果都無法互相比較,那麼這個實驗就會變得霧裡看花,導致AI專案難以落地。
AI數據小學堂:模型指標(metrics)
在做模型實驗時,通常會用混淆矩陣(Confusion Matrix)的四種指標:TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative),以及Count、Unique和Accuracy等等函數,來判斷這個模型的表現好不好。
P或TN值,代表模型辨識的答案正確,和預期結果一致。例如:模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值,則代表模型的判斷錯誤,例如「明明是貓,模型卻說不是貓」、「明明不是貓,模型卻說它是貓」。
附圖:AI模型 若水國際
AI模型的POC概念驗證實驗怎麼做?
資料來源:https://www.bnext.com.tw/article/60440/ai-strategy-04?fbclid=IwAR1SOhjjGxypdGgOGfaBIl_a1IsZFJAQZ8J2aeDd98spbUfOdg7hiPQP7UA
三階反矩陣記法 在 閱讀前哨站 Facebook 的精選貼文
【🎁抽獎贈書活動】《#從內做起》x2本
🔊你有沒有注意過,在家族聚會的餐桌上,誰的聲音最有份量?當一群好友聚在一起,誰是大家聽從與追隨的對象?在工作場合的會議裡,誰的意見最快得到大家的接納?你腦中第一個浮現的人,就具備了一種特質:「領導力」。
✍️心得圖文版 https://readingoutpost.com/the-leader-within-you/
【以前的我對領導力的定義】
幾年前的我,總認為「領導者」就是握有職位和頭銜的人,像是一家公司的執行長或副總,自己也把晉升職等當成工作的主要目標。直到某一次跟同事們聊到副總A和副總B,同事說副總A如果離開了公司,在社會上仍然享譽、充滿影響力,副總B相形之下則會失色許多。
這讓我不禁好奇,對自己問了一個假設性的問題:「如果把職位和頭銜拿掉,你是誰?」當時,我腦袋只有一片空白,我好像什麼都不是。後來,隨著自己也成為了主管,必須學習如何帶領團隊,我開始接觸《與成功有約》與《主管這樣帶人就對了》之類談領導管理的經典書籍,試著回答自己最初的問題。
漸漸地,我對這些書中的一種想法產生共鳴:「領導力就是影響力,一個人的成功在於他對其他人的生命帶來多少正面的影響。」我開始檢視自己對生活和團隊的安排,是否跟心目中的領導力互相符合。我也產生了更多的好奇心,想學習更多關於這方面的事情。
【我為什麼想讀這本書?】
我之前在〈閱讀前哨站〉分享的文章,流露出了對領導力的求知渴望,天恩出版社向我推薦了一本經典書籍《從內做起》的最新再版,我馬上深受吸引。這本書的作者是知名的領導學專家約翰.麥斯威爾(John Maxwell),已年逾70歲的他仍充滿熱情幫助更多人成為一個好的領袖。
這本書的第一版在1993年出版,過了25年之後,他重新淬鍊這些年來教導與實踐領導力的經驗,翻修了書中89%的內容,並且增加了兩個全新的章節,形成這本2.0版。我雖然沒讀過最早的那個版本,但是我喜歡這種反芻人生經驗,並對以往的觀念做出新詮釋的做法,許多的智慧反而在此時更顯得永恆。
書背的一段話讓我著迷:「即使是一個最內向的人,在一生中,也會影響上萬個人。」作者說,你根本不知道自己將會觸摸到多少生命,你所能做的就是開發自己的影響力。我曾經在《安靜,就是力量》的讀書心得裡分享過我是一個十足的「內向者」,對於一個內向者如何成為領導者、如何擴大自己的影響力,一直是我樂此不疲的課題。
【為什麼領導力很重要?】
回到在這篇文章開頭提到的問題:「在家族聚會的餐桌上,誰的聲音最有份量?」這個人不一定是最年長的人,反而是最讓大家信任、對家族做出最多貢獻的人。如果你是有孩子的父母親,你的小孩是比較聽你的、還是聽另一半的?「當一群好友聚在一起,誰是大家聽從與追隨的對象?」這個人也不一定是頭銜最顯赫、薪水賺最多的人。
在職場上,為什麼有些人要請同事幫忙就難以啟齒?有些人卻可以輕鬆尋得跨單位的支援?甚至,有些主管要指派下屬做事情,還得搬出官威用考績來威脅。原來,這背後的差異就在於「領導力的高低」,有些人使盡全力仍無法影響別人,有些人則自然而然有人自願協助。
作者認為:「領導力就是博取人來追隨你的能力。」如果一個人懂得提高自己的領導力,會讓生活更美好和有成就,也會讓職場更順暢和有效率。與其追求身分、職位或頭銜,不如明白領導力的運作方式,讓自己學會如何培養和建立領導力,進一步加深對別人的影響力。
作者把領導力的程度,由淺入深歸納成「領導力的五個階層」。這是一個有順序的發展藍圖,非常精準地描述了各種階段裡的領導力程度。此外,書中共十個章節,每個章節都談一種「建立領導力的方法」,我將它們拆解到對應的各階層當中,讓你了解在每個階段最該注重的是什麼事情。
【1.職位:靠權力影響】
我在職場上最討厭聽到老闆們說的一句話就是:「因為這是大老闆要的。」然後,就沒有其他理由了,單純要你按照「高階職位」給的指示去辦事。這種做法看似簡單又暴力,不講情理但快速有效,在講求效率和效果的企業裡,似乎是種司空見慣的現象。
這是領導力的第一個階段,你仰賴權柄去影響別人,一旦拔去職位和頭銜,你就什麼也不是。所以作者提出我們需要啟動「自律」和「自我成長」兩個方法,用持續一致的學習心態,讓自己開始接觸和練習更多關於領導力的事情,讓自己朝下一個階段前段。
【2.認可:靠關係影響】
第二階段需要建立別人對你的認可,使人自願為你效力。領導者必須表達對別人的關心、建立連結、獲得信任,開始藉由關係的累積,對別人發揮影響力。這個階段很適合採取「僕人式領導」的方式來建立關係,也就是「如果你幫助人得到他們想要的,他們會幫助你得到你想要的。」
這個時候你不倚賴自己的職位和頭銜,反而選擇相信別人、從別人的角度看事情、打造一種鼓勵的氛圍,你衡量自己的成功是以增加他人多少價值而定。當這層關係建立起來之後,別人會開始自願幫忙你。
【3.生產:靠成果影響】
第三個階段要發揮你對別人的關心,你的首要目標是幫助整個團隊獲得成就、創造成果。你必須願意從對方身上學習,並且與他們一起工作,利用共同的目標來凝聚向心力、提升團隊士氣。上一個階段是關係型領導,這個階段則是成果型領導,懂得融合兩者的領導者,會創造出一個強而有力的最佳組合。
首先,在這個階段你必須掌握「解決問題」的心態與技巧。凡事總有困難、總會出錯,領導人的心態則是把別人視為問題或分心的事情,當作改進的機會。但是不能總是「代替」對方解決問題,而是先「陪同」近距離觀察他們面對問題的反應,花時間幫他們學習如何解決,然後教導他們掌握解決問題的能力,最後才「放手」讓他們自己來。
其次,是懂得制定「優先次序」。如果每件事情都優先,等於沒有事情優先,而且當小事情太被關注,大問題很可能就會產生。以「重要性」/「急迫性」的矩陣準則來檢視自己的工作清單,確保自己將重要的事情當成最高優先。此外,也要在行事曆上保留至少20%的「餘裕」時間,利用這些空白的時段提高自我察覺的能力、保留思考的時間、恢復自己的精力。
【4.立人:靠幫助別人影響】
立人指的就是「人才發展」。作者認為一個領導者之所以優秀,不是因為他們本身有能力,而是因為他們有培育他人的能力。領導者應該幫助他人開發潛力,讓他們學會更有效率的工作方式,最高竿的還能指導別人如何也成為一個領導者。立人就是一個「複製」的過程,倍增你的影響力。
在這個過程中,你的「態度」會大幅影響你想要發展的對象,一個領導者最重要的心態就是「全力以赴」。這也是一種無論遇到任何問題,都願體挺身而出,替團隊拔除一切障礙取勝的態度。尤其在困難時刻,必須樹立楷模,展現出決心、堅韌、專注、果斷,展現出對長期目標的正向態度。當你在對方身上「創造正向的改變」,這股影響力便會繼續傳遞下去,如同作者說的:「你能走多遠不是重點,而是你能帶領別人跟你走多遠」。
【5.巔峰:靠尊敬影響】
這裡的空氣很稀薄,只有少數人能夠到達這個層次。透過前面四個階段的深化,人們會對這個階段的你已經抱以十足的尊敬和信任。他們之所以追隨和聽從你的聲音,許多時候單純是因為你的品格和信念感動了他們。
在這個階段的領導者具有「願景」,他們看到願景、追逐願景,然後幫助別人也看到並追逐。前西德總理康拉德.艾德諾(Konrad Adenauer)說過:「我們都活在同樣的天空下,但我們的地平線不同。」每個人都有潛力懷抱願景,但不是每個人都真的有。
作者認為「品格」是領導力的根基,擁有優秀的品格並不保證人生或領導就能成功,但是拙劣的品格最終會使一切事情出軌失控。擁有品格的領導者,能夠和別人之間建立堅定的信任,並且讓自己的內在比外在來得強大。
最後,作者根據過去五十多年觀察各國領袖和企業領導人的觀察,他的結論是鏗鏘有力的:領導力就是「影響力」。如同他最喜歡的格言「凡自以為是領袖,卻無人追隨,只是紙上談兵而以。」在巔峰階段的領導者,透過各個階層的深化,加強了自己的影響力,進一步發展出最深刻的「領導力」。
【培養領導力的過程?】
讀完這本書之後,我深深著迷於「領導力的五個階層」這個概念,也知道了對於不同的團體或個人,我們都處在不同的階層。例如一個人可能在朋友之間是第三個階層的領導者,但是剛就職的環境裡可能就只是第一階層的領導者。面對不同的對象,都需要重新建立這層關係,重新走過這段過程。
我以前也曾經認為,有些人天生看起來就有「領袖樣」,但是作者在書中不斷強調:「領導力不是天生,而是後天養成的。」我從他的字裡行間發現一件最重的事情,也是書中十種建立領導力的方法裡最具代表的,那就是「自我成長」。
「自我成長」是作者在這本書2.0版加上的最新章節,在最後的十章,我認為這就是貫串全書最重要的一章。他建立領導力的方法是透過寫作和出書,出版過好幾十本暢銷書的他自嘲道:「我年輕時全心全意學習寫作,出版的前七本書有個共通點:它們的銷量都不好。」這段話除了令我會心一笑之外,也似乎讓我明白了些什麼。
他以自己的故事做為楷模,也就是「成長即目標。」已經七十多歲的他,在書中仍不斷流露對於自我成長的渴望,對過去錯誤的修正,對未來抱持的新展望。在建立領導力的過程中,最重要的就是抱持成長的心態,總是虛心學習,力求精進,在過程中不斷改變自己,領導力成了隨之而來的成就。
【後記:喚醒你的內在領袖】
我很喜歡書中的這句話:「一切有價值的事都是上坡。」作者認為自律對成功的重要性不言可喻,這段旅程就像一段上坡的山路,在過程中我們會遇到無數的困難、挫折、阻力。登山好手吉米.威泰克(Jim Whittaker)曾經帶領無數人登上山頂,他說:「你去征服的永遠都不是山岳,你征服的只是自己。」這也是作者最想傳達給我們的精神。
作者用自己的經歷和業界與學界的故事,交織出這本涵蓋廣泛的領導力書籍。《從內做起》的英文書名是「Developing the leader within you 2.0」,翻成中文是「發展你的內在領袖」,但是我更喜歡「喚醒你的內在領袖」這個說法。我們內心的領導力其實一直都在,是時候讓他發芽茁壯。
【抽獎辦法】感謝 天恩出版社
《從內做起》天恩官網購書連結 https://bit.ly/3jC1EEP
1、抽出「2本」《從內做起》送給閱讀前哨站的粉絲們!有興趣的朋友請在底下「按讚留言」,「公開分享」本則動態參加抽獎。
2、留言請寫下:對你的人生各個領域最有影響力的人是誰?挑一個寫,例如:「對我的投資觀念最有影響力的是約翰伯格先生」
3、活動時間:即日起至2020/11/24(二)晚上十點截止,隔天在留言中公布名單,隨機抽出2名正取,2名備取。
4、請正取得獎者於2020/11/25(三)晚上十點前,私訊回覆寄件姓名、地址、電話,超過期限未認領由備取遞補,寄送僅限台澎金馬。