深度學習模型太大?這家公司直接跑在了樹莓派上

深度學習當前面臨的一大熱點問題是很多深度學習的模型太大而不方便在移動設備和嵌入式設備上使用。現在常見的模型比如圖像分類模型基本都在500兆以上,自然語言處理的一些模型例如語言模型很多都在1G以上,機器翻譯的模型也都是500兆以上。

而一個手機或者潛入式設備要載入一個500兆以上的模型基本不太現實,因此當前深度學習面臨的一大挑戰就是如何把大模型變成小模型。因為移動設備不僅僅是內存或者存儲空間的限制,更多是因為能耗的限制,不允許我們用太大的模型。

2017年2月2日,位於美國西雅圖的 AI 創業公司 XNOR.AI 宣布獲得來自Madrona Venture Group和艾倫人工智慧研究所(Allen Institute for Artificial Intelligence)等機構的260萬美元的種子融資。XNOR.AI 利用二值化神經網路等技術對深度學習網路進行壓縮,致力於開發有效地在移動端或嵌入式設備上運行的深度學習演算法。

值得注意的是,微軟聯合創始人Paul Allen個人也參與了XNOR.AI的種子輪投資。跑的比香港記者還快的探長對XNOR.AI聯合創始人兼CTO Mohammad Rastegari 進行了專訪,與他探討了深度學習的前沿問題。

二值化神經網路,就是所有的權值不用浮點數表達了,就是一個二進位的數,要麼是+1要麼是-1,用二進位的方式來表達,這樣原來一個32 bit權值現在只需要一個bit來表達,從而大大降低這個模型的尺寸。

2016 年 3 月,Mohammad Rastegari 等人在ECCV論文(XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks)中首次提出了 XNOR-Net 的概念。

這篇論文旨在利用二值化操作尋找到最優的簡化網路,並分別介紹了兩種有效的網路:Binary-Weight-Networks 和 XNOR-Networks。Binary-Weight-Networks 是對 CNN 中所有的權重做近似二值化,可以節省 32 倍的存儲空間。而且,由於權重被二值化,卷積過程只剩加減演算法,不再包括乘法運算,可以提高約兩倍的運算速度,這促使 CNN 可以在不犧牲準確率的情況下在小存儲設備上使用,包括攜帶型設備。

XNOR-Networks 演算法則是對 CNN 中所有的權重和輸入同時做近似二值化,如果卷積運算中的所有操作數都是二進位的,那麼兩個二進位向量的點乘就可以等同於同或運算和位運算。而這些操作天然就被CPU等通用計算設備支持,所以二值化神經網路能夠跑在普通的CPU和更便宜的ARM晶元甚至是樹莓派等設備上。

此外,如上圖所示,在節省了幾十倍空間和幾十倍速度提升的情況下,Binary-Weight-Network和XNOR-Network的準確率精度下降並不顯著。

強悍的團隊

XNOR.AI團隊CEO Ali Farhadi是華盛頓大學計算機系教授,同時也是艾倫人工智慧研究所的計算機視覺方向的負責人,他在計算機視覺領域積累深厚,同時是非常驚艷的實時物體檢測框架YONO的主要貢獻者,「YOLO」系統在2016年CVPR會議上的現場展示一度驚艷全場。

(YOLO的在CVPR 2016的現場演示 )

XNOR.AI的CTO Mohammad Rastegari是艾倫人工智慧研究所研究科學家,也在計算機視覺領域有接近十年的研究經歷。

(xnor.ai CTO Mohammad Rastegari)

XNOR.AI團隊首次讓二值神經網路在ImageNet上面完了實驗,在自主搭建的輕型神經網路框架 DarkNet 中實現了在 CPU 上 58 倍速度的提升,這意味著很多深度學習演算法可以在嵌入式設備上實時的運行。

XNOR.AI團隊還把 「YOLO」系統 的二值化版本在 iPhone 上面做到了實時探測,也成為實時檢測的一大亮點。

事實上,團隊還曾將 XNOR-Net 部署在價值 5 美元的 Raspberry Pi Zero 上,通過連接一個攝像頭實現了實時視頻分析,他們官方視頻里展示出的實時檢測分析效果十分引人注意,強烈的震撼了小探的小心臟。

如果在類似於 Raspberry Pi Zero 這樣的移動設備上都能做到實時物體檢測,這項技術在其他領域中也潛藏著巨大的商業價值。

XNOR.AI的願景是普適人工智慧

由於他們的二值化神經網路,除了帶來的數十倍的內存減少和計算提升,二值化操作天然就被CPU等通用計算設備支持,所以二值化神經網路能夠在普通的CPU和更便宜的ARM晶元甚至是樹莓派等設備,Mohammad還表示他們也在微軟的Hololens上實現了他們的演算法。

在採訪中,Mohammad說道,他們的深度學習技術能夠用在計算能力和內存都有限的設備上,XNOR.AI針對的市場是普適計算的場景,他們希望未來所有的智能設備都可以運行他們的深度學習演算法。

而CEO Ali Farhadi曾說:「可以設想,未來每個街道拐角,價值5美元的攝像頭,都能識別看到的景象,了解正在發生的事情;而我的手錶也能真正聽懂和處理指令。」

(在手機上實時物體檢測)

Mohammad表示物體的實時檢測是一個非常難的問題,他們用視頻演示了他們的強悍能力,目前不少實時檢測都通過將視頻流傳到雲端來做檢測,但這一方面帶來了延遲問題,另一方面則是帶來了隱私問題,但利用他們的演算法,實時的物體檢測在本地就能完成。

Mohammad也表示這不代表他們只會局限在計算機視覺領域,目前他們能夠對主流的深度學習網路比如RNN和CNN進行二值化操作。除了視覺領域,還有自然語言處理都有望實時化操作。

作為成立才一個月的公司,Mohammad還在探索自己的商業模式,但已經有大量廠商和他們聯繫了,XNOR.AI的願景是普適人工智慧,「AI on every device everywhere」。

轉自矽谷密探。


1 評論

發表評論

你的郵件地址不會公開


*