創新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI佈局進入科研收穫季
本文來自量子位微信公眾號
……………………………………………………………………
NeurIPS 2019放榜,創新工場AI工程院論文在列。
名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。
一作是創新工場南京國際AI研究院執行院長馮霽,二作是創新工場南京國際人工智慧研究院研究員蔡其志,南京大學AI大牛周志華教授也在作者列。
論文提出了一種高效生成對抗訓練樣本的方法DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到“資料下毒”的目的。
創新工場介紹稱,這一研究就並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,還能協助針對性地制定防範“AI駭客”的完善方案,推動AI安全攻防領域的發展。
NeurIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來備受學術界和產業界的高度關注,是AI學術領域的“華山論劍”。
作為AI領域頂會,NeurIPS也是最火爆的那個,去年會議門票在數分鐘內被搶光,而且在論文的投稿錄取上,競爭同樣激烈。
今年,NeurIPS會議的論文投稿量再創新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。
▌“資料下毒”論文入選頂會NeurIPS
那這次創新工場AI工程院這篇入選論文,核心議題是什麼?
我們先拆解說說。
近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想像中堅不可摧。
例如,在訓練(學習階段)或是預測(推理階段)這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。
創新工場AI工程院為此專門成立了AI安全實驗室,針對人工智慧系統的安全性進行了深入對評估和研究。
在被NeurIPS收錄的論文中,核心貢獻就是提出了高效生成對抗訓練資料的最先進方法之一——DeepConfuse。
▌給數據下毒
通過劫持神經網路的訓練過程,教會雜訊生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現了“資料下毒”。
顧名思義,“資料下毒”即讓訓練資料“中毒”,具體的攻擊策略是通過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。
“資料下毒”與常見的“對抗樣本攻擊”是不同的攻擊手段,存在於不同的威脅場景:前者通過修改訓練資料讓模型“中毒”,後者通過修改待測試的樣本讓模型“受騙”。
舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練資料。
研發人員在目視檢查訓練資料時,通常不會感知到異常(因為使資料“中毒”的噪音資料在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。
但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底“懵圈”,陷入什麼也認不出的尷尬境地。
更有甚者,攻擊者還可以精心調整“下毒”時所用的噪音資料,使得訓練出來的機器人視覺模型“故意認錯”某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。
為了達成這一目的,這篇論文設計了一種可以生成對抗雜訊的自編碼器神經網路DeepConfuse。
通過觀察一個假想分類器的訓練過程更新自己的權重,產生“有毒性”的雜訊,從而為“受害的”分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸優化問題。
▌下毒無痕,毒性不小
從實驗資料可以發現,在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同資料集上,使用“未被下毒”的訓練資料集和“中毒”的訓練資料集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。
與此同時,從實驗結果來看,該方法生成的對抗雜訊具有通用性,即便是在隨機森林和支援向量機這些非神經網路上也有較好表現。
其中,藍色為使用“未被下毒”的訓練資料訓練出的模型在泛化能力上的測試表現,橙色為使用“中毒”訓練資料訓練出的模型的在泛化能力上的測試表現。
在CIFAR和IMAGENET資料集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網路結構上具有很高的遷移能力。
此外,論文中提出的方法還能有效擴展至針對特定標籤的情形下,即攻擊者希望通過一些預先指定的規則使模型分類錯誤,例如將“貓”錯誤分類成“狗”,讓模型按照攻擊者計畫,定向發生錯誤。
例如,下圖為MINIST資料集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練資料集、無特定標籤的訓練資料集、以及有特定標籤的訓練資料集。
實驗結果有力證明,為有特定標籤的訓練資料集做相應設置的有效性,未來有機會通過修改設置以實現更多特定的任務。
對資料“下毒”技術的研究並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範“AI駭客”的完善方案。
隨著AI演算法、AI系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術,並有針對性地為自動駕駛、AI輔助醫療、AI輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。
▌還關注聯邦學習
除了安全問題之外,人工智慧應用的資料隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。
近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及資料安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。
具體而言,聯邦學習系統是一個分散式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共用自己的訓練資料,但仍然能利用其餘幾方參與者提供的資訊更好的訓練聯合模型。
換言之,各方可以在在不共用資料的情況下,共用資料產生的知識,達到共贏。
創新工場AI工程院也十分看好聯邦學習技術的巨大應用潛力。
今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為IEEE聯邦學習標準制定委員會副主席,著手推進制定AI協同及大資料安全領域首個國際標準。
創新工場也將成為聯邦學習這一技術“立法”的直接參與者。
▌創新工場AI工程院科研成績單
創新工場憑藉獨特的VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋樑角色。
創新工場2019年廣泛開展科研合作,與其他國際科研機構合作的論文,入選多項國際頂級會議,除上述介紹的“資料下毒”論文入選NeurlPS之外,還有8篇收錄至五大學術頂會,涉及影像處理、自動駕駛、自然語言處理、金融AI和區塊鏈等方向。
┃兩篇論文入選ICCV
Disentangling Propagation and Generation for Video Prediction
https://arxiv.org/abs/1812.00452
這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。
Joint Monocular 3D Vehicle Detection and Tracking
https://arxiv.org/abs/1811.10742
這篇論文提出了一種全新的線上三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動資訊估計三維的車輛資訊。
┃一篇論文入選IROS
Monocular Plan View Networks for Autonomous Driving
http://arxiv.org/abs/1905.06937
針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。
┃三篇論文入選EMNLP
Multiplex Word Embeddings for Selectional Preference Acquisition
提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。
What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
https://assert.pub/papers/1909.00421
提出了一個新模型(VisCoref)及一個配套資料集(VisPro),用以研究如何將代詞指代與視覺資訊進行整合。
Reading Like HER: Human Reading Inspired Extractive Summarization
人類通過閱讀進行文本語義的摘要總結大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要資訊,2)進而進行細緻的閱讀選取關鍵句子形成摘要。
本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,並採用策略梯度方法來求解。
┃一篇論文入選IEEE TVCG
sPortfolio: Stratified Visual Analysis of Stock Portfolios
https://www.ncbi.nlm.nih.gov/pubmed/31443006
主要是對於金融市場中的投資組合和多因數模型進行可視分析的研究。通過三個方面的分析任務來幫助投資者進行日常分析並升決策準確性。
並提出了一個全新的視覺化分析系統sPortfolio,它允許使用者根據持倉,因數和歷史策略來觀察投資組合的市場。sPortfolio提供了四個良好協調的視圖。
┃一篇論文入選NSDI
Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones
https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf
提出了一種名為非同步共識組 Monoxide 的區塊鏈擴容方案,可以在由 4.8 萬個全球節點組成的測試環境中,實現比比特幣網路高出 1000 倍的每秒交易處理量,以及 2000 倍的狀態記憶體容量,有望打破“不可能三角”這個長期困擾區塊鏈性能的瓶頸。
▌獨特的“科研助推商業”思路
國內VC,發表論文都很少見,為什麼創新工場如此做?
這背後在於其“VC+AI”模式。
最獨特之處在于,創新工場的AI工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。
這種“科研助推商業”的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作。
同時,由AI工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務拓展團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。
“科研助推商業”並不是簡單地尋找有前景的科研專案,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速反覆運算、商務拓展、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。
以AI為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。
創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦AI工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋樑角色。
於是,創新工場AI工程院也就順勢而生。
創新工場人工智慧工程院成立於2016年9月,以“科研+工程實驗室”模式,規劃研發方向,組建研發團隊。
目前已經設有醫療AI、機器人、機器學習理論、計算金融、電腦感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院。
目標是培養人工智慧高端科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。
而且, 創新工場還與國內外著名的科研機構廣泛開展科研合作。
例如,今年3月20日,香港科技大學和創新工場宣佈成立電腦感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。
此外,創新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。
IEEE聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的專案。
創新工場表示,自身的科研團隊將深度參與到聯邦學習標準的制定過程中,希望為AI技術在真實場景下的安全性、可用性以及保護資料安全、保護使用者隱私貢獻自己的力量。
森林圖後設分析 在 新思惟國際 Facebook 八卦
以前老師只有教我們如何評讀,但是 #新思惟 除了教我們評讀外,最重要的是,教我們如何自己完成,並將之寫成研究論文。
身為臨床醫師真的心動了,為了讓自己的醫療行為更符合實證醫學,還有讓自己的學術研究更多樣化,深深覺得投資自己要趁早……
▒ 時間就是金錢,效率才是王道。
來上課之前,自己也先買了幾本系統性回顧及後設分析的書,還有 RevMan 5 和 CMA 統計軟體的書,本來想自己摸索。
但是臨床醫師時間有限,自己看完很多還是不清楚,還是需要過來人帶著我們走一遍。
▒ 教你完成 meta-analysis 的精美圖表
紙上談兵沒有用,重要的是,如何自己完成。聽懂了、學會了,最重要是完成,否則都是空談。
講師、助教們,一有問題就到我們身旁幫忙解決,讓 meta-analysis 中的森林圖和漏斗圖及各種圖表一一出現。
而且課前、課中、課後完整一套的學習課程,坊間真的找不到。
📣 無資源也能起步,許自己一個有論文的未來!
現在 meta-analysis 容易寫、容易發,還被多數學校升等接受,初學者也能畫出投稿等級的圖表,對沒有資源的年輕研究者而言,確實是研究起步的好領域。
面向新手、協助起步的高品質工作坊,讓你的能力拼圖,加上重要的一大塊!
這堂課可以學......
✓ Meta-analysis 研究規劃的策略思維。
✓ 手把手教你,做出投稿等級的優化圖表!
✓ 論文寫作、搜尋文獻、投稿審閱的重要眉角。
✓ 給學術初學者的起步建議。
🔹最新活動|5/5(日)統合分析工作坊
🔹立刻報名|https://meta-analysis.innovarad.tw/event/
森林圖後設分析 在 地圖並非疆域 Facebook 八卦
接續前一天的時間線
我們今天要來講的是「時間線治療及人格基礎」這本書中的第二部份:後設程式!
我想應該很多人不知道NLP的後設程式吧!
那麼,我就來介紹一下吧!
「你說你是獅子座的嗎?那你一定是自大狂!」
「哈哈哈,不,我是天蠍座,你小心不要亂說我壞話,我可是非常會記仇的喔!」
我很好奇,你是不是喜歡用星座來判斷一個人的個性呢?
不管是或不是,你知道NLP也有個和星座有點像的東西嗎?
對!那就是『後設程式』!
如果你對NLP有點研究的話,相信看到這裡的你,可能會開始想罵我對吧?
呵呵,別急別急!我只是說「有點像」,並不是說後設程式完全就是這樣子的東西喔!
後設程式(英文為Meta Program,注意和Meta Model不同哦!)是由NLP創始人Richard Bandler和Leslie Cameron所研發出來的
後設程式喻為是大腦的應用程序,藉由它,你可以更確定人們的大腦,是如何關注事物以及關注什麼
好,我知道你不喜歡這種文謅謅的解釋
來!簡單來說,你可以想像後設程式,就像是我們常常說的星座血型生肖一樣,先就是透過一些方式來了解你是什麼星座,你的血型為何、甚至屬什麼生肖
然後藉由了解你的星座、血型、生肖,就可以了解你是一個怎麼樣的人!
所以,我說後設程式有點用像星座來做個性分析,就是這樣囉!
不過呢!畢竟,NLP相對起來還是以大腦思維和語言以及行動來做分析的一門學問
所以,後設程式還是有其非常不同的地方!
總之,後設程式會先用不同種類的「過濾器」來過濾人們的思考或行為
然後,在每一種的過濾器中,又分為兩種到五種不同的分類
所以若以排列組合來看,人的思考及行為模式是有非常多的種類!
而只要了解了對方的後設程式,你就可以用對方的後設程式來影響對方囉!
那麼,今天我們就來介紹其中三種吧!
第一種過濾器叫「方向和動機」,裡面的分類為兩種:趨前型及避離型
趨前型的,會為了要『達到什麼目的』而行動
避離型的,會為了『防止什麼事發生』而行動
「你為什麼要買口罩!」
A:「因為口罩可以防止病毒啊!」
B:「因為可以買來囤貨發大財!」
由此可知,A是避離型,而B是趨前型,呵呵!
第二種過濾器叫「規模」,分為整體型或是細節型
整體型的,總是看著整遍的森林
細節型的,總是只看到樹根、樹葉、樹枝
「部長,請問在這次的防疫上,你是怎麼看的?」
A:「防疫上嘛…你看,目前增加只有個位數呀!所以目前我國在各方面都做的很好,防堵非常成功,因為你看每個相關單位都配合的天衣無縫呀!」
B:「這次的防疫上,我們這周只增加了三個確診,在第13例上,我們已經把握他的所有的接觸史以及旅遊史,包含他的爸爸、媽媽、哥哥,男友,還有他家的狗狗!另外,她昨天摸過她男友的衣櫃裡的這個棒狀的東西,我們也都消毒了!」
由此可知,A是整體型,而B是細節型,呵呵!
第三種過濾器叫「關係比較」,這個種類就比較多了,分為「注意相同點」、「注意相同點中的相異」、「同時注意相同及相異點」、「注意相異點中的相同」、「注意相異點」,共五種
注意相同點,總是只看事物相同的地方
注意相同點中的相異,會先看事物的相同點,然後再看其相異
同時注意相同及相異點,不用說,就兩者都會注意
注意相異點中的相同,則是先看相異點,再找相同點
注意相異點,就是總是只看事物相異的地方
「你怎麼看這次台灣、日本以及中國大陸上,這波病毒疫情的防疫呀?」
A:「我覺得大家都很認真的在防疫!」
B:「嗯,大家都有在防疫,不過防疫上台灣還是比較好,中國大陸則是晚了一步,而日本好像還不緊張啊!」
C:「我覺得相同的是現在每一個國都在認真看待這件事,但你也可以說,他們的認真程度還是不太一樣的!」
D:「你看,先是中國爆發,然後台灣,現在是日本,大家防疫上做法根本就不同!不過能看的出來,大家現在都很緊張了。」
E:「別提了,這不能相提並論呀!明明初期爆發狀況、人口、國土大小都不同,比什麼比呀!」
F:「你問我這題幹嘛?一定有鬼對不對?你說,你的目的是什麼?」
由此可知,A是注意相同點,B是注意相同點中的相異,C是同時注意相同及相異點,D是注意相異點中的相同,E是注意相異點…那麼F呢?
疑心病這麼重的人,肯定是『注意相異點』的無誤啦!哈哈哈!
好,今天介紹了三種,除此之外,後設程式還有多達十幾種以上的不同過濾器哦!
然後,我要講幾點後設程式在使用上不得不注意的點:
一,後設程式是藉由觀察、或是由對方的語言模式來判斷對方是哪個分類,而不像是星座血型生肖一樣,單看你生日或抽血得知哦!
二、即使是同一個人,針對於不同的事物,可能其後設程式會不同,例如:有人在工作上可能是趨前型(為了『可以實現生活財務自由』),但在把妹感情上可能是避離型(交女友是因為『這樣不會被爸媽煩!』)。所以不能一概而論哦!
三,後設程式是指一個『傾向』,像你可能會說,我非整體型,也非細節型呀!
對,那麼你是介於中間的,有些人的後設程式在某些過濾器上是不突出的,這點也和血型生肖不一樣喔!
最後,來教大家一個絕招!
如果你要用一句話來了解對方在方向和動機上,到底是趨前型或避離型的話,要怎麼問呢?
假如對方說:「我認為在感情交往上,最重要的就是可以讓自己走出去有風!」
然後你可以這樣問:「為何『讓自己走出去有風』這麼重要?」
對方可能會回答:「因為這樣就表示我是很棒的人呀!」
到這裡為止,你會知道,他在感情上是趨前型的對吧!
但…
如果你能夠順利的追問:「為何『自己是很棒的人』是這麼重要?」
對方可能再答:「因為我不想要被瞧不起!」
嗯!?發現了嗎?
竟然在趨前的背後,藏了避離型!
那這樣的人,到底是趨前還是避離?
我得說,像這種趨前內藏著避離的人,應該還是算避離型的!
但這種人,通常在內心有著很大的糾結
他帶著這樣的想法,在做事上肯定會有很多矛盾
可以的話,必須幫忙化解掉這個糾結才行!
至於怎麼化解嘛…
啊呀!今天已經講很多了,所以...
那麼,接下去的部份,就當做是禮物來送給大家囉!
只要你在本篇以下留言加分享,在3/1(日)以前,通通有獎!
我會把這個特別的『驅前避離糾結化解法』的NLP技巧分享給大家!
這絕對是你在外面看不到的技巧!
看到這裡…不知你還記得嗎?
這篇不是講後設程式呀!
這篇可是書評呀!
那怎麼會變成只講後設程式,不講對本書「後設程式」的評價如何?
我得說,我會寫這麼多,就是在致敬這本書的後設程式呀!
它當時真的讓我長了很多的知識
很多NLP書也都會講到後設程式,但這本,有些地方講的特別好呢!
至於是哪裡,就當做是個趣味讓大家慢慢去發掘吧!
總之,記得一件事,看書不要只看人家所謂的精華
因為,人家的精華,對你來說,可能是屁;
而你的精華,人家可能根本就沒看出來!😁
所以,去多多發現書中的美好吧!
好,以上,今天就講到這裡為止,記得留言加分享拿禮物哦!
#NLP書評
#後設程式
#地圖並非疆域
森林圖後設分析 在 meta-analysis中文-Dcard與PTT討論推薦|2022年06月 的八卦
統計學上來說,元分析(meta-analysis,或譯作後設分析、整合分析、綜合分析、統合 ... 系統性文獻回顧、統合分析、PRISMA 聲明書、森林圖、偏誤風險、Systematic ... ... <看更多>
森林圖後設分析 在 meta-analysis中文-Dcard與PTT討論推薦|2022年06月 的八卦
統計學上來說,元分析(meta-analysis,或譯作後設分析、整合分析、綜合分析、統合 ... 系統性文獻回顧、統合分析、PRISMA 聲明書、森林圖、偏誤風險、Systematic ... ... <看更多>
森林圖後設分析 在 臨床醫師如何閱讀統合分析(Meta :: 全台大學開課課程資訊網 的八卦
[EBM] 如何看懂森林圖下(How to Read a Forest Plot)? | 全台大學開課課程資訊網 ... 後設分析之介紹前言| 全台大學開課課程資訊網 ... 森林图(forest plot)怎么看? ... <看更多>