深度學(xué)習(xí)是人工智能的熱門(mén)領(lǐng)域,發(fā)展非常迅速,有望在未來(lái)幾年進(jìn)入市場(chǎng)成熟階段。但非不幸的是,迫不及待的市場(chǎng)炒作把深度學(xué)習(xí)變成了人工智能的代名詞,言必稱深度學(xué)習(xí),無(wú)深度學(xué)習(xí)不人工智能,這種以偏概全的誤導(dǎo)性炒作,不但夸大了深度學(xué)習(xí)的應(yīng)用領(lǐng)域和功效,也對(duì)人工智能整體的健康發(fā)展非常不利。數(shù)據(jù)分析公司Interset首席技術(shù)官Stephan Jou近日以人工智能在信息安全領(lǐng)域的應(yīng)用為例,探討了深度學(xué)習(xí)的定位和局限性,IT經(jīng)理網(wǎng)編譯整理如下:
在網(wǎng)絡(luò)安全領(lǐng)域,人們使用各種技術(shù)理論,包括統(tǒng)計(jì)、概率論以及各種機(jī)器學(xué)習(xí)算法(深度學(xué)習(xí)只是其中之一),來(lái)分析用例和數(shù)據(jù),選擇最好的數(shù)學(xué)方法或者算法來(lái)完成任務(wù)。安全分析的數(shù)據(jù)來(lái)自各種渠道,例如應(yīng)用日志、源代碼等等,根據(jù)安全專家對(duì)數(shù)據(jù)集和用例的理解來(lái)對(duì)癥下藥,選擇最合適的算法。
這個(gè)過(guò)程更依賴的是安全人員的一種工匠精神,因?yàn)樗麄兠鎸?duì)的是相對(duì)較小的數(shù)據(jù)集,而各種行為的偵測(cè)非常微妙,例如從源代碼審計(jì)日志中偵測(cè)內(nèi)部威脅。相比之下,深度學(xué)習(xí)只是人工智能大框架中的一個(gè)專項(xiàng)技術(shù)而已,而且并不適用于上述場(chǎng)景。
簡(jiǎn)單來(lái)說(shuō),深度學(xué)習(xí)是一組機(jī)器學(xué)習(xí)算法,其學(xué)習(xí)過(guò)程離不開(kāi)大量多層互聯(lián)處理流程和海量數(shù)據(jù)樣本。在很多行業(yè)深度學(xué)習(xí)處理之所以可行,是因?yàn)橛写罅康臄?shù)據(jù)和計(jì)算力可用,例如云計(jì)算和GPU。在海量數(shù)據(jù)和計(jì)算力的驅(qū)動(dòng)下,深度學(xué)習(xí)的研發(fā)成果突飛猛進(jìn)。以惡意軟件偵測(cè)為例,若干安全創(chuàng)業(yè)公司嘗試?yán)蒙疃葘W(xué)習(xí)來(lái)分析惡意軟件樣本大數(shù)據(jù),取得了令人矚目的成效。另外一方面,研究人員也在嘗試如何讓深度學(xué)習(xí)的訓(xùn)練基于相對(duì)較小的數(shù)據(jù)集,例如醫(yī)學(xué)影像深度學(xué)習(xí)系統(tǒng)。(參考閱讀:大數(shù)據(jù)的小時(shí)代)
雖然在惡意軟件偵測(cè)方面取得斐然的成績(jī),但是但是在安全領(lǐng)域,深度學(xué)習(xí)的局限性也很明顯,例如內(nèi)部人員威脅。安全專家或者企業(yè)通常無(wú)法獲取足夠多的相關(guān)攻擊信息,雖然也有一些基于實(shí)例的描述和模擬數(shù)據(jù),但是故事描述無(wú)法用來(lái)訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò),而真實(shí)內(nèi)部人員攻擊事件的信息又太過(guò)稀缺。至少在今天,深度學(xué)習(xí)對(duì)于內(nèi)部人員威脅是牛刀殺雞或者說(shuō)無(wú)能為力的。
未來(lái),安全網(wǎng)絡(luò)的深度學(xué)習(xí)處理系統(tǒng)將能夠自動(dòng)調(diào)整來(lái)適應(yīng)不斷增長(zhǎng)的數(shù)據(jù)量,不斷優(yōu)化學(xué)習(xí)流程,深度學(xué)習(xí)網(wǎng)絡(luò)將能夠自動(dòng)判斷那些數(shù)據(jù)更加容易預(yù)測(cè),從而大幅減少對(duì)數(shù)據(jù)科學(xué)家引導(dǎo)的依賴。這種基于深度學(xué)習(xí)的自動(dòng)化學(xué)習(xí)能力,將持續(xù)大幅提升分析結(jié)果的準(zhǔn)確性,減少誤報(bào)。這些遠(yuǎn)景,在今天還只是一種炒作。
在當(dāng)下的現(xiàn)實(shí)中,與OpenStack等開(kāi)源云計(jì)算技術(shù)類(lèi)似,深度學(xué)習(xí)系統(tǒng)的搭建依然過(guò)于復(fù)雜,成本也居高不下,而且不經(jīng)過(guò)大量實(shí)驗(yàn),很難實(shí)現(xiàn)確定所謂的超參數(shù)(Hyperparameter)。訓(xùn)練一個(gè)深度學(xué)習(xí)模型需要的計(jì)算力和采購(gòu)成本也遠(yuǎn)高于其他機(jī)器學(xué)習(xí)模型。例如邏輯回歸模型簡(jiǎn)單到可以在單機(jī)上處理小規(guī)模數(shù)據(jù)集,目前也依然是非常有效的分類(lèi)任務(wù)處理方法,而深度學(xué)習(xí)系統(tǒng)的成本則遠(yuǎn)高于這些機(jī)器學(xué)習(xí)算法。
總之,深度學(xué)習(xí)僅僅是諸多機(jī)器學(xué)習(xí)方法中的一種,對(duì)于特定類(lèi)型的問(wèn)題來(lái)說(shuō),應(yīng)用潛力巨大,但并非百病包治的萬(wàn)靈藥。深度學(xué)習(xí)技術(shù)在一個(gè)領(lǐng)域的突破,也并不意味著對(duì)其他傳統(tǒng)人工智能或機(jī)器學(xué)習(xí)方法的實(shí)用性和價(jià)值的貶損。
本文作者Stephan Jou是數(shù)據(jù)分析公司Interset的CTO
新聞熱點(diǎn)
新聞爆料
圖片精選
點(diǎn)擊排行