為什么說深度學(xué)習(xí)不是萬能的錘子？

文章來源：IT經(jīng)理網(wǎng)

字體：大中小

發(fā)布時間：2017-07-25 09:56:29

深度學(xué)習(xí)是人工智能的熱門領(lǐng)域，發(fā)展非常迅速，有望在未來幾年進(jìn)入市場成熟階段。但非不幸的是，迫不及待的市場炒作把深度學(xué)習(xí)變成了人工智能的代名詞，言必稱深度學(xué)習(xí)，無深度學(xué)習(xí)不人工智能，這種以偏概全的誤導(dǎo)性炒作，不但夸大了深度學(xué)習(xí)的應(yīng)用領(lǐng)域和功效，也對人工智能整體的健康發(fā)展非常不利。數(shù)據(jù)分析公司Interset首席技術(shù)官Stephan Jou近日以人工智能在信息安全領(lǐng)域的應(yīng)用為例，探討了深度學(xué)習(xí)的定位和局限性，IT經(jīng)理網(wǎng)編譯整理如下：

在網(wǎng)絡(luò)安全領(lǐng)域，人們使用各種技術(shù)理論，包括統(tǒng)計、概率論以及各種機(jī)器學(xué)習(xí)算法（深度學(xué)習(xí)只是其中之一），來分析用例和數(shù)據(jù)，選擇最好的數(shù)學(xué)方法或者算法來完成任務(wù)。安全分析的數(shù)據(jù)來自各種渠道，例如應(yīng)用日志、源代碼等等，根據(jù)安全專家對數(shù)據(jù)集和用例的理解來對癥下藥，選擇最合適的算法。

這個過程更依賴的是安全人員的一種工匠精神，因為他們面對的是相對較小的數(shù)據(jù)集，而各種行為的偵測非常微妙，例如從源代碼審計日志中偵測內(nèi)部威脅。相比之下，深度學(xué)習(xí)只是人工智能大框架中的一個專項技術(shù)而已，而且并不適用于上述場景。

簡單來說，深度學(xué)習(xí)是一組機(jī)器學(xué)習(xí)算法，其學(xué)習(xí)過程離不開大量多層互聯(lián)處理流程和海量數(shù)據(jù)樣本。在很多行業(yè)深度學(xué)習(xí)處理之所以可行，是因為有大量的數(shù)據(jù)和計算力可用，例如云計算和GPU。在海量數(shù)據(jù)和計算力的驅(qū)動下，深度學(xué)習(xí)的研發(fā)成果突飛猛進(jìn)。以惡意軟件偵測為例，若干安全創(chuàng)業(yè)公司嘗試?yán)蒙疃葘W(xué)習(xí)來分析惡意軟件樣本大數(shù)據(jù)，取得了令人矚目的成效。另外一方面，研究人員也在嘗試如何讓深度學(xué)習(xí)的訓(xùn)練基于相對較小的數(shù)據(jù)集，例如醫(yī)學(xué)影像深度學(xué)習(xí)系統(tǒng)。（參考閱讀：大數(shù)據(jù)的小時代）

雖然在惡意軟件偵測方面取得斐然的成績，但是但是在安全領(lǐng)域，深度學(xué)習(xí)的局限性也很明顯，例如內(nèi)部人員威脅。安全專家或者企業(yè)通常無法獲取足夠多的相關(guān)攻擊信息，雖然也有一些基于實例的描述和模擬數(shù)據(jù)，但是故事描述無法用來訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)，而真實內(nèi)部人員攻擊事件的信息又太過稀缺。至少在今天，深度學(xué)習(xí)對于內(nèi)部人員威脅是牛刀殺雞或者說無能為力的。

未來，安全網(wǎng)絡(luò)的深度學(xué)習(xí)處理系統(tǒng)將能夠自動調(diào)整來適應(yīng)不斷增長的數(shù)據(jù)量，不斷優(yōu)化學(xué)習(xí)流程，深度學(xué)習(xí)網(wǎng)絡(luò)將能夠自動判斷那些數(shù)據(jù)更加容易預(yù)測，從而大幅減少對數(shù)據(jù)科學(xué)家引導(dǎo)的依賴。這種基于深度學(xué)習(xí)的自動化學(xué)習(xí)能力，將持續(xù)大幅提升分析結(jié)果的準(zhǔn)確性，減少誤報。這些遠(yuǎn)景，在今天還只是一種炒作。

在當(dāng)下的現(xiàn)實中，與OpenStack等開源云計算技術(shù)類似，深度學(xué)習(xí)系統(tǒng)的搭建依然過于復(fù)雜，成本也居高不下，而且不經(jīng)過大量實驗，很難實現(xiàn)確定所謂的超參數(shù)（Hyperparameter）。訓(xùn)練一個深度學(xué)習(xí)模型需要的計算力和采購成本也遠(yuǎn)高于其他機(jī)器學(xué)習(xí)模型。例如邏輯回歸模型簡單到可以在單機(jī)上處理小規(guī)模數(shù)據(jù)集，目前也依然是非常有效的分類任務(wù)處理方法，而深度學(xué)習(xí)系統(tǒng)的成本則遠(yuǎn)高于這些機(jī)器學(xué)習(xí)算法。

總之，深度學(xué)習(xí)僅僅是諸多機(jī)器學(xué)習(xí)方法中的一種，對于特定類型的問題來說，應(yīng)用潛力巨大，但并非百病包治的萬靈藥。深度學(xué)習(xí)技術(shù)在一個領(lǐng)域的突破，也并不意味著對其他傳統(tǒng)人工智能或機(jī)器學(xué)習(xí)方法的實用性和價值的貶損。

本文作者Stephan Jou是數(shù)據(jù)分析公司Interset的CTO