dataset是什麼的八卦，Yahoo名人娛樂都在討論

「dataset是什麼」的推薦目錄：

關於dataset是什麼在台灣物聯網實驗室 IOT Labs Facebook
關於dataset是什麼在台灣物聯網實驗室 IOT Labs Facebook

關於dataset是什麼在 [email protected] Youtube

dataset是什麼在台灣物聯網實驗室 IOT Labs Facebook 八卦

2020-12-14 12:01:59 有 0 人按讚

訓練AI模型，要多少數據？拆解企業人工智慧專案為何難落地

2020.12.09 by 若水AI Blog

企業導入AI似乎已成為一種趨勢，但是訓練AI模型，需要多少數據？其背後的商業命題與成本又該如何解決？帶你來一起窺探AI專案背後的秘密！

企業的AI專案在釐清問題本質、找到命題之後，首先會面臨到一個問題：收集數據（Data Collection）和建立AI模型（Model Establishing），該以什麼作為評估基準？

訓練一個AI數據模型，需要多少數據？

訓練AI數據模型時，其實有三個要素，彼此互相影響。分別是：商業問題的複雜度、 AI模型複雜度（Model Complexity），以及數據複雜度（Data Complexity）。

因此，如果想知道需要多少訓練數據（Training Data），建議先釐清：這個AI專案到底要處理什麼問題，以及這個問題有多複雜？確定之後，再來判斷應該選用哪種程度的模型來做訓練。根據不同的商業命題複雜度，用不同複雜度的模型和精準數據彼此搭配，找出最佳平衡，才能讓AI專案順利落地。

但光憑想像，很難評估實際的AI數據量和成效，所以開始AI的第一步，需要先透過POC概念驗證（Proof of Concept）實驗來找答案。

簡單來說，就是針對不同複雜程度的商業問題，嘗試選用不同複雜度的模型搭配測試，直到模型跑出來的曲線，符合理想目標。

一般狀態下，假設商業問題本身的複雜度很高，我們會預期要選擇複雜度較高的模型。但是如果數據量不足，那麼選擇複雜度較高的AI模型，反而會比用簡單的AI模型效果還差。（上圖左上、右上，分別代表複雜度10和複雜度50的問題，可以明顯看出複雜的模型曲線比較接近學習數據集（Dataset），但是在測試數據集上的誤差 Eout，反而比簡單模型還差了許多。）

上圖的左下和右下，是以不同複雜度的模型去做POC，跑出來的結果曲線圖。藍色線代表的是學習數據（Training Data）成效，紅色線代表的是測試數據（Testing Data）成效。最理想的POC目標，應該是兩條曲線很貼近彼此，而且位置越低越好。

我們會發現，左下這張圖的兩條曲線雖然彼此貼近，但是就算增加數據，也無法降低誤差。這表示模型偏誤（Bias）高，效果不佳，應該要增加模型複雜度（Model Complexity）。

增加模型複雜度之後，就會像右下這張圖，藍色曲線（學習數據）雖然數值很低，但在學習數據不足的情況下（灰色區塊），紅色曲線（測試數據）卻「飄」得太高。這表示模型變異誤差（Variance）高，應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後，我們就可以達到理想的結果（兩條曲線很貼近彼此，而且位置越低越好）。

數據哪裡來？發展AI人工智慧之前，先建立數據流

先前我在文章裡提到，很多企業會急著開發AI模型，但AI專案落地經驗的三大關鍵之一，其實是先確認：是否已經準備好數據了？如果沒有這樣的能力，談AI落地其實有點好高騖遠。

AI數據收集（Data Collection）最大的挑戰，在於針對不同型態的命題，會產生不同的AI數據需求，因此需要建立的「數據流」（Data Pipeline），AI數據處理（Data Processing）和數據標註（Data Annotation）的模式及流程也會有所不同。

發展AI之前，如果能建立起從數據收集（Data Collection）、數據處理（Data Processing）到AI模型學習的數據流（Data Pipeline），並確保可以順暢運行，實際訓練AI模型時才會省力很多。

數據不夠或太多怎麼辦？

Google開設的機器學習（Machine Learning）課程中，第一項原則就開宗明義地指出：「Don’t be afraid to launch a product without machine learning」。

如果你的產品或業務不一定需要用到機器學習（Machine Learning），那就別用，除非你有AI數據。有數據，再來談機器學習（Machine Learning）。但在業界的實際狀況，大家不是沒有數據，而是只有一些些，這時候該怎麼辦？我會建議，先從小地方開始做起，也就是從POC專案著手。

POC專案要有具體成效，除了要注意設計專案、實驗模型的指標（Metrics），企業最重要的是要先定義清楚：AI專案要達到什麼樣的指標，才算是成功？這樣最後做出來的成果，才會真正符合商業目標。

如果今天不是沒有AI數據，而是數據很多，又該從何下手呢？

我建議，嘗試減少訓練AI人工智慧時的「數據大小」和「數據筆數」。

過去曾經處理過一個AI專案，數據多達2億筆。第一次實驗，把數據全部餵進AI模型，取得結果。第二次，只拿其中有代表性的500萬筆出來訓練人工智慧。

猜猜結果如何？兩次實驗的表現，只差異不到1%。

所以，如果企業對於AI數據的品質和數量有一定程度的自信根據，其實不用把數據全部餵進AI模型訓練（Model Training），只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具（Cluster），可以做到這點，幫助省時省力。

AI模型訓練，記得校準商業目標

企業發展AI人工智慧的最終目的，還是希望能達到商業目標，創造價值。

所以，訓練AI模型時，團隊如果不知道如何判斷哪個指標，對AI模型學習來說比較重要，建議回歸初心，重新釐清「這個專案想達到的商業目標是什麼」。

比方，趨勢科技（Trend Micro）要開發一個能夠判斷電腦病毒的AI，但是勒索病毒（denial-of-access attack）和廣告病毒對客戶的傷害程度大不相同。這時候，工程師就會針對這個命題，餵給AI模型不同病毒種類的數據，讓它學會判斷不同病毒的重要性，分辨出哪些病毒比較嚴重不能有判斷錯誤，而哪些病毒比較無害，不一定要做到一百分。

最常見的訓練方法，是用成本函數（Cost Function）的方式，訓練完再回去調整AI模型的評分（Rating），用加扣分的方式，告訴機器它的學習表現是好是壞，做對就加分，做錯就扣分。

上述評分原則的制定，和企業的商業價值考量息息相關，所以一般在組織分工，會由PM專案團隊負責判斷哪些項目重要，請資料科學家設計在上述Cost Function裡面。

很多人以為，AI人工智慧開發要做到很完美才行，但其實根據我們的經驗，只要AI開發成本符合預算、AI模型表現可接受（大約做到60–70分），而且結果有助於降低成本，就可以算是達到商業目標。反過來，即使AI模型表現非常好（高達90分），但成本卻遠超出預算，就不建議執行。

另外，因為POC階段會做很多的實驗，需要拿兩個穩定且可以互相比較的基準做A/B Test，所以做好基礎建設非常重要。

如果一個團隊裡面有三位工程師，但三個人做出來的結果都無法互相比較，那麼這個實驗就會變得霧裡看花，導致AI專案難以落地。

AI數據小學堂：模型指標（metrics）

在做模型實驗時，通常會用混淆矩陣（Confusion Matrix）的四種指標：TP（True Positive）、TN（True Negative）、FP（False Positive）、FN（False Negative），以及Count、Unique和Accuracy等等函數，來判斷這個模型的表現好不好。

P或TN值，代表模型辨識的答案正確，和預期結果一致。例如：模型正確判斷出「這是一隻貓」、「這不是一隻貓」。而FP或FN值，則代表模型的判斷錯誤，例如「明明是貓，模型卻說不是貓」、「明明不是貓，模型卻說它是貓」。

附圖：AI模型若水國際
AI模型的POC概念驗證實驗怎麼做？

資料來源：https://www.bnext.com.tw/article/60440/ai-strategy-04?fbclid=IwAR1SOhjjGxypdGgOGfaBIl_a1IsZFJAQZ8J2aeDd98spbUfOdg7hiPQP7UA

Tags: dataset是什麼

台灣物聯網實驗室 IOT Labs

About author

本專頁將不定時網羅搜集國內外與物聯網相關新聞及技術，並無條件與 IOT 從業人員或對物聯網有興趣的大眾分享，若有任何不足或建議之處，歡迎隨時留言，一起研究研究。^.^

看過「dataset是什麼」的人也都在關心：

dataset是什麼在台灣物聯網實驗室 IOT Labs Facebook 八卦

By 台灣物聯網實驗室 IOT Labs

2021-02-05 10:12:55 有 0 人按讚

Google、軟銀都陣亡過！盤點 AI 專案失敗的 4 大原因

Posted on2021/02/04
若水AI Blog

【我們為什麼挑選這篇文章】為了適應未知多變的世界，許多企業搶做「數位轉型」，從公司營運的各層面如客戶體驗、商業模式、企業文化到作業流程等，透過科技的導入來提升效率與效能；而對製造業企業而言，原料採購、物流管理、庫存調配、生產、行銷等環節則是企業主進行數位轉型會優先考量的面向。

在這之中，AI 的運用扮演很關鍵的角色，如何將 AI 應用到上述各層面並實際執行，是許多企業面臨的挑戰，有哪些要點是執行 AI 專案時需特別留意的？（責任編輯：賴佩萱）

作者：若水 AI 資料資料處理部負責人簡季婕

2020 年，突如其來的新冠肺炎疫情（Covid-19）改變了許多產業的命運，同時加速推促 AI 落地的速度，AI 人工智慧的應用將成為企業的新日常。

若水 AI 資料服務團隊本著為臺灣 AI 應用落地盡份心力的初衷，順著這波改變，推出全新系列內容：與機器學習（ML : Machine Learning）、AIOps 智慧運維（Artificial Intelligence for IT Operations）有關的實用文，分享各界專家在每一天如何持續營運、優化 AI 架構以及資料處理的基本功。

【若水導讀】AI 專案順利通關的三個絕招：

1. AI 資料來源要多元，避免學習偏誤
2. 標註前，請先建立客觀的 AI 資料標註（Data Annotation）原則
3. 讓 AI 人工智慧成為組織的共同語言，會更容易成功
企業都想做 AI，但實際上沒那麼簡單

根據《臺灣人工智慧學校 AI Academy Taiwan》2019 年針對臺灣各大產業 1,095 位業界校友的調查統計，成功導入 AI 人工智慧的臺灣企業僅占 20%。放眼國際，許多全球知名企業的 AI 專案也慘遭滑鐵盧：

Google 在泰國落地測試智慧醫療失敗，拖慢醫療流程；美國杜克大學發佈的 PULSE 演算法誤將歐巴馬的頭像還原為白人，引發種族歧視爭議。

在日本，軟銀（Softbank）社長孫正義原本打算以 AI 機器人取代銷售人員，沒想到 AI 機器人無法應付實際場域的複雜性，計畫負責人只好承認失敗：「我們把機器學習（Machine Learning）想得太簡單了」。

AI 專案難實際執行，問題出在哪？

若水經手過臺灣、日本超過 200 個的 AI 資料處理專案，從橫跨各大產業領域的專案經驗，整理出企業 AI 之所以無法順利落地的四大原因。

1. AI 模型訓練過程中沒有加入實際場域的資料

無論是剛導入 AI 而產生資料處理需求的新手企業，還是已有 AI 專案經驗、為了 retrain 模型再度找上若水的老手企業，都曾經在同一個地方卡關：AI 資料標註品質有做到位元，但 AI 模型卻無法應用落地。

為什麼？

原因在於，客戶並未以「實際場景」的資料來進行 AI 模型訓練。
現在市面上有許多開放資料集（Open Dataset）或是免費的商用網路圖片，企業通常會優先使用這些免費資源進行 AI 資料標註（Data Annotation）讓機器學習，但是放到實際場域測試後，經常發現 AI 模型成效不佳，無法適用於實際場景，最終還是需要回過頭再進行第二次模型訓練（Model Training）。

因此在 AI 專案開始前，建議企業首先需要在內部建立資料資料流（Data Pipeline），而在收集資料時，不只使用開放資料集（Open Dataset），也須確保有使用符合實際應用場景的資料來訓練 AI 模型，全盤考量資料類型、角度等多元性，避免機器學習偏誤。

2. AI 資料標註原則定義不夠客觀

與企業工程師對接 AI 資料處理需求時，當我們詢問這批人臉辨識（Face Recognition）的 AI 資料標註的原則是什麼，常常會接到諸如此類的回答：「頭太小的話，就不要標註數據」。

一般人的邏輯覺得很合理的事情，對於機器學習（Machine Learning）來說卻是一大挑戰。機器學習需要知道的是趨近「絕對客觀」的原則，例如，所謂的頭太大、太小，換算成具體數值會是幾乘幾大小的 pixel？如果圖片背景融色或模糊，也需要標註起來嗎？

一旦 AI 資料標註原則不夠客觀，AI 模型很容易隨著人的「主觀認定」來學習，當專案換了一位工程師，機器學習出來的效果可能也會跟著變。在我們的經驗，原則的訂定最好透過「對話」，藉由反覆詰問，才能加快釐清目標。有了歸納、定義出客觀的 AI 資料標註原則。就會加快模型學習（Model Learning）成效。

為了清楚定義圖片融色或模糊的問題，我們採用國際照明委員會（International Commission on Illumination）訂定的 Delta E 標準，和影像（圖像）品質評估標準 BRISQUE，和客戶確認彼此認知是否一致。

根據國際標準，人的肉眼能分辨得出來的色差，至少會在 Delta E 值 2 以上。所以，當一張影像測出來 Delta E 值小於 2，就表示這張圖的融色程度太高，無法標註。

假如客戶希望「太模糊的圖片不要標註」，團隊也會根據 BRISQUE（影像品質評估標準）的標準，輸出不同模糊指數的圖片，請客戶確認所謂的模糊，具體來說是 70% 還是 80%。

3. AI 模型訓練（Model Training）沒有循序漸進

以肢體行為辨識（Posture Estimation）為例，Coco Dataset 從一開始只辨識人體 7 大主要關鍵點（Key Point），後來逐步發展成 25 點，甚至快 40 點，有些客戶會希望若水 AI 團隊可以一次就標註 40 個關鍵點，直接拿去機器學習（Machine Learning）。

說起來，機器學習和教小孩很像，一下子給太多的特徵點（Feature Points）反而會「揠苗助長」，導致 AI 模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶，一開始想用難度較高的 Segmentation 方式讓模型學習人的行為，但是人的行為百百種、語意切割（Segmentation）的變異度也高，就比較難學得好。

當這些客戶再回頭來找若水，通常會比較循序漸進，從小地方開始逐步改進 AI 模型。

4. 缺乏管理層的理解與支持

AI 熱潮讓許多企業趨之若鶩，然而 AI 要能夠順利落地，除了上述三項實務建議，企業管理層對於 AI 的認知和支持更是一大關鍵。
許多臺灣企業的 AI 數位轉型主導者，可能是傳統公司裡面有豐富資歷的 CTO 技術長或管理階層，對於 AI 人工智慧這個全新領域的概念，比較缺乏深度的理解，也沒有類似 AI 模型訓練和測試的相關經驗，從上述 4 個原因去追尋難以落地的根源，或許能有所助益。

資料來源：https://buzzorange.com/techorange/2021/02/04/ai-project-difficulties/?fbclid=IwAR04ZC1-1MquyCObEI5HIfTKtV-OkcfxL_R8vRin4YgQMl8cnhS_6aM59vU

Tags: dataset是什麼

台灣物聯網實驗室 IOT Labs

About author

dataset是什麼在 [email protected] Youtube 的評價

By [email protected]

2021-02-03 15:00:04 有 44,885 人看過有 0 人喜歡

肝癌－張文龍臨床腫瘤科專科醫生＠FindDoc.com

FindDoc Facebook : https://www.facebook.com/FindDoc
FindDoc WeChat : 快徳健康香港 FindDoc
FindDoc Instagram：@finddochk

（一）肝癌有什麼治療選擇？ 00:06

（二）標靶藥物是什麼？有什麼好處和副作用？ 00:55

（三）是否每個肝癌患者都適合使用口服標靶藥治療？ 02:36

（四）標靶藥物費用昂貴有沒有藥物津貼？ 03:13

(本短片作健康教育之用，並不可取代任何醫療診斷或治療。治療成效因人而異，如有疑問，請向專業醫療人士諮詢。)

參考資料：
1. Liu, C. Y., Chen, K. F., & Chen, P. J. (2015). Treatment of Liver Cancer. Cold Spring Harbor perspectives in medicine, 5(9), a021535. https://doi.org/10.1101/cshperspect.a021535
2. M., Kudo; K.-H., Han; S.-L., Ye; J., Zhou; Y.-H., Huang; S.-M., Lin; et al. (2020): Supplementary Material for: A Changing Paradigm for the Treatment of Intermediate-Stage Hepatocellular Carcinoma: Asia- Pacific Primary Liver Cancer Expert Consensus Statements. Karger Publishers. Dataset. https://doi.org/10.6084/m9.figshare.12293318.v1
3. Kudo, M., Finn, R. S., Qin, S., Han, K. H., Ikeda, K., Piscaglia, F., Baron, A., Park, J. W., Han, G.,
Jassem, J., Blanc, J. F., Vogel, A., Komov, D., Evans, T., Lopez, C., Dutcus, C., Guo, M., Saito, K., Kraljevic, S., Tamai, T., … Cheng, A. L. (2018). Lenvatinib versus sorafenib in first-line treatment of patients with unresectable hepatocellular carcinoma: a randomised phase 3 non-inferiority trial. Lancet (London, England), 391(10126), 1163–1173. https://doi.org/10.1016/S0140-6736(18)30207-1
4. Xie, F., Feng, S., Sun, L., & Mao, Y. (2018). The first-line treatment for unresectable hepatocellular carcinoma patients: lenvatinib versus sorafenib, or beyond?. Hepatobiliary surgery and nutrition, 7(3), 221–224. https://doi.org/10.21037/hbsn.2018.06.06
5. OncoLink. (2020). Lenvatinib (Lenvima®). Retrieved from https://www.oncolink.org/cancer- treatment/oncolink-rx/lenvatinib-lenvima-r

資料來源：https://www.FindDoc.com

查詢醫生資訊：
https://www.finddoc.com

[email protected]

About author

香港最全面醫療資訊影片平台，超過200位專科醫生、中醫、物理治療師、營養師等解答你的健康問題。搜尋全港各區醫生資料，即上FindDoc.com! At FindDoc, we aim to increase general public health awareness through our FindDocTV videos. Patients can make doctors’ appointments online using our platform Anytime Anywhere. FindDoc is Free and open to both patients and doctors.

dataset是什麼的八卦，Yahoo名人娛樂都在討論

「dataset是什麼」的推薦目錄：

dataset是什麼 在 台灣物聯網實驗室 IOT Labs Facebook 八卦

About author

看過「dataset是什麼」的人也都在關心：

dataset是什麼 在 台灣物聯網實驗室 IOT Labs Facebook 八卦

About author

dataset是什麼 在 [email protected] Youtube 的評價

About author

你可能也想看看

搜尋相關連結

dataset是什麼在台灣物聯網實驗室 IOT Labs Facebook 八卦

dataset是什麼在台灣物聯網實驗室 IOT Labs Facebook 八卦

dataset是什麼在 [email protected] Youtube 的評價