#本文僅代表作者觀點,不代表IPRdaily立場,未經(jīng)作者許可,禁止轉(zhuǎn)載#
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:北京專獵前沿技術有限公司
原標題:是誰在賦予機器自然視覺的能力?——計算機視覺領域?qū)@窬旨爸匾蒲谐晒C述
從上世紀60年代算起,計算機視覺的歷史也不過半個多世紀,跟整個人類歷史相比,眨眼之瞬而已。然而,即使在這半個多世紀的時間里,計算機視覺已經(jīng)從最開始簡單地處理數(shù)字圖像發(fā)展到現(xiàn)在可以在多種情景下準確地進行人臉識別,目標跟蹤等。隨著算法的更迭、算力的提升、數(shù)據(jù)的爆發(fā)以及未來5G帶來的高速網(wǎng)絡,計算機視覺的發(fā)展和應用更有著充滿想象的巨大空間。
何為計算機視覺
從2016年AlphaGo以4:1戰(zhàn)勝世界圍棋冠軍李世石到2017年人工智能被正式寫入國家“十三五”規(guī)劃綱要,再到2021年“十四五”規(guī)劃將人工智能列為前沿科技領域的“最高優(yōu)先級”,人工智能已在風口迎風飛翔多年,成為當下最熱門的科學技術。作為人工智能的三大核心技術之一(另外兩項為自然語言處理和語音識別),計算機視覺更是迎來了蓬勃發(fā)展。
日常生活中,我們經(jīng)常使用的人臉解鎖、刷臉支付、人臉身份驗證、智能美顏、拍攝背景虛化等,其背后都是計算機視覺技術在支撐。除此之外,公共安防、無人駕駛、醫(yī)療診斷、文化旅行、教育、農(nóng)業(yè)等領域,都有計算機視覺的身影,可以說計算機視覺在商業(yè)化應用上已百花齊放,滲透到生活的方方面面。根據(jù)Tractica預測,到2025年,全球計算機視覺市場規(guī)模(包括軟件、硬件和服務收入)將從2016年的11億美元增長到262億美元。
圖 1 2016-2025年計算機視覺市場規(guī)模_Tractica預測數(shù)據(jù)
數(shù)據(jù)來源:Tractica
何為計算機視覺?計算機視覺是以圖像(視頻)為輸入,以對環(huán)境的表達(representation)和理解為目標,研究圖像信息組織、物體和場景識別、進而對事件給予解釋的學科。計算機視覺的研究內(nèi)容,大體可以分為物體視覺(object vision)和空間視覺(spatial vision)兩大部分。物體視覺在于對物體進行精細分類和鑒別,而空間視覺在于確定物體的位置和形狀,為“動作(action)”服務。從本質(zhì)上講,計算機視覺就是研究視覺感知問題,“賦予機器自然視覺能力”。
透過專利看計算機視覺的發(fā)展史
圖 2 全球計算機視覺領域?qū)@暾堏厔?br/>
圖 3 全球計算機視覺領域?qū)@暾堉饕芾砭址植?br/>
注:由于發(fā)明專利申請的公開相對于申請日而言有滯后期,一般為18個月,因而2019、2020年的專利申請尚有部分未公開,與實際情況相比,其數(shù)據(jù)有一定程度的偏低。
同其他科學技術一樣,計算機視覺的發(fā)展也是由最初的萌芽期一路走到了如今的井噴發(fā)展期(圖2)。
技術萌芽期
20世紀60年代,尤其是1965年以后,是計算機視覺的技術萌芽期。1966年,人工智能學家Minsky在給學生布置的作業(yè)中,要求學生通過編寫一個程序讓計算機告訴我們它通過攝像頭看到了什么,這被認為是計算機視覺最早的任務描述[1]。從此,計算機視覺的研究序幕拉開,并將迎來屬于它自己的跌宕起伏波瀾壯闊的歷史篇章。
1965年-1968年,全球計算機視覺相關專利申請總數(shù)在2000篇以下,并以每年百篇左右的數(shù)量遞增著。這一時期的研究集中在美歐兩地(圖3),美國的IBM一枝獨秀,是最主要的研究企業(yè);其次為德國的西門子(圖4)。
圖 4 1965-1968年全球計算機視覺領域?qū)@暾圱op15
慢速增長期
20世紀60年代末至90年代,隨著現(xiàn)代電子計算機的出現(xiàn)以及對計算機視覺研究的深入,人們開始嘗試不同的算法。計算機視覺研究進入了相對慢速但“百家爭鳴”般的增長期,全球?qū)@暾垟?shù)量以年均10%左右的速度增長。
雖然在七十年代中期美國的MIT人工智能實驗室正式開設計算機視覺課程,在1982年英國的David Marr發(fā)表了《視覺》一書,標志著計算機視覺成為一門獨立學科,但是計算機視覺的研究已經(jīng)西風東漸,日本成為全球最主要、最大的研究地。從1970到1990年左右,全球50%以上的專利申請都出自日本,而同時期美國的專利申請數(shù)量占全球?qū)@暾埧倲?shù)的10%不到,而且無論是專利申請數(shù)量還是專利申請增長速度,日本都遠超歐美(圖3)。即使1990年以后,美國的研究開始發(fā)力,歷年專利申請數(shù)量呈線性增加,歐洲和韓國地區(qū)的專利申請數(shù)量也在逐年遞增,但是日本的專利申請數(shù)量依然占有絕對優(yōu)勢。這一時期,在全球計算機視覺領域?qū)@暾埮琶?5的企業(yè)中,除美國的IBM(第7)和荷蘭的皇家飛利浦(第14)外,其余全是日本企業(yè)(圖5),佳能、東芝、日立、富士通、日本電氣等響當當?shù)钠髽I(yè)高居榜單前5。
另外,現(xiàn)代CNN網(wǎng)絡中卷積層+池化層的最初范例及靈驗來源,世界上第一個神經(jīng)網(wǎng)絡——Neocognitron[2],也是由日本計算科學家Kunihiko Fukushima在1980年提出的??梢哉f,這是屬于日本的高光時刻。
圖 5 1969-1999全球計算機視覺領域?qū)@暾坱op15
平穩(wěn)過渡期
21世紀前10年,得益于計算機算力的飛躍式提升,以及互聯(lián)網(wǎng)和社交媒體的發(fā)展,全球數(shù)據(jù)達到ZB級別,計算機視覺的算法研究從“百家爭鳴”逐漸聚焦到機器學習。計算機視覺領域?qū)@暾埥?jīng)過世紀初的猛增后,進入一個平穩(wěn)過渡期,歷年的專利申請數(shù)量基本沒有增加,徘徊在35000件左右。雖然這一時期全球計算機視覺領域?qū)@暾埮琶?5中,日本企業(yè)依然占有11席(圖6),但日本專利申請的歷年數(shù)量呈下降趨勢,計算機視覺的研發(fā)由集中在日本漸漸地轉(zhuǎn)向以美歐日韓為主的多地發(fā)展(圖3)。荷蘭的皇家飛利浦在醫(yī)療健康領域的重點突破,美國的微軟在中國設立微軟亞洲研究院專門研究計算機視覺,以及韓國的三星經(jīng)過20世紀90年代的研究積累,使得他們躋身進2000-2009年全球計算機視覺領域?qū)@暾埮琶?0(圖6)。
圖 6 2000-2009年全球計算機視覺領域?qū)@暾圱op15
同一時期,大洋彼岸的中國,雖然專利申請數(shù)量在逐年增加,但其專利申請基本來自諸如索尼、皇家飛利浦、三星、微軟等海外巨頭在中國的布局,中國計算機視覺領域?qū)@暾埱?5中,還沒有中國企業(yè)的名字(圖7)。中國企業(yè)的計算機視覺研究還處于萌芽狀態(tài)。
圖 7 2000-2009年中國計算機視覺領域?qū)@暾坱op15
這段時間,具有標志性的事件為:
2006年,Geoffrey Hinton教授提出了深度學習的概念,并通過逐層訓練的方法解決了深度神經(jīng)網(wǎng)絡難以訓練的問題[2]。
2009年,李飛飛教授等在CVPR2009上發(fā)表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,發(fā)布了ImageNet數(shù)據(jù)集,這是為了檢測計算機視覺能否識別自然萬物,回歸機器學習,克服過擬合問題,經(jīng)過三年多籌劃組建完成的一個大的數(shù)據(jù)集。ImageNet是計算機視覺發(fā)展的重要推動者,和深度學習熱潮的關鍵推動者,將目標檢測算法推向了新的高度[3]。
快速增長期
2010-2015年,計算機的算力遵循著“摩爾定律”穩(wěn)步提升,互聯(lián)網(wǎng)及社交媒體的進一步普及帶來爆發(fā)式增長的大數(shù)據(jù),深度學習算法開始流行,成為計算機視覺領域最主要的算法。計算機視覺也進入了一個快速發(fā)展期,全球?qū)@暾垟?shù)量以年均17%左右的速度增長。其中,美國專利申請數(shù)量的年均增長率約為23%,美國正式取代日本,成為計算機視覺領域?qū)@暾埩孔畲蟮膰?。?010-2015年全球計算機視覺領域?qū)@暾埱?0名中,美國企業(yè)占5席,分別為微軟(第2),谷歌(第5),高通(第6),IBM(第7)和Intel(第9)。中國專利申請數(shù)量更是以年均33%左右的速度增長,中國企業(yè)的計算機視覺研究也從小芽長成了一棵小苗。2010-2015年全球計算機視覺領域?qū)@暾埱?5名榜單中,也首次出現(xiàn)了中國企業(yè)的身影:聯(lián)想,第15(圖8)。此外,韓國的三星依靠其龐大的家電和手機產(chǎn)品整合計算機視覺技術,高居榜首位置;日本的索尼、佳能、富士通、日本電氣、理光等5家企業(yè)也榜上有名。
圖 8 2010-2015年全球計算機視覺領域?qū)@暾圱op15
這一時期,具有里程碑式的標志事件為[3]:
2012年,Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 創(chuàng)造了一個“大型的深度卷積神經(jīng)網(wǎng)絡(CNN)”,也即現(xiàn)在眾所周知的AlexNet,將圖像識別錯誤率降低了10%,贏得了當年的 ILSVRC競賽(是機器視覺領域最受追捧也是最具權威的學術競賽之一,代表了圖像領域的最高水平)這是史上第一次有模型在 ImageNet 數(shù)據(jù)集表現(xiàn)如此出色。自那時起,CNN成了家喻戶曉的名字。
2014年,蒙特利爾大學提出生成對抗網(wǎng)絡(GAN):擁有兩個相互競爭的神經(jīng)網(wǎng)絡可以使機器學習得更快。一個網(wǎng)絡嘗試模仿真實數(shù)據(jù)生成假的數(shù)據(jù),而另一個網(wǎng)絡則試圖將假數(shù)據(jù)區(qū)分出來。
井噴發(fā)展期
2016年及以后,計算機視覺技術逐漸賦能各行業(yè),應用場景紛紛落地。廣闊的商業(yè)化應用為計算機視覺的發(fā)展注入強勁動力,至此,計算機視覺領域的研究進入井噴狀態(tài),如春風拂地萬物在不經(jīng)意間復蘇一般,全球的研發(fā)格局也在悄然地發(fā)生變化。
2016-2018年間,全球計算機視覺領域?qū)@暾埬昃鲩L率超過20%(2019及2020年的因?qū)@暾埖焦_的時間遲滯原因,在此未統(tǒng)計),中美日韓歐成為主要的研發(fā)陣地。其中,中國專利申請的年均增長率超過40%,貢獻了全球最主要的專利申請增長,同時,中國也超越美國,成為新一屆的專利申請最大的國家。2016-2020年全球計算機視覺領域?qū)@暾埱?5名中,美國企業(yè)5家、日本企業(yè)3家、韓國企業(yè)1家,而中國企業(yè)有6家,開始占據(jù)明顯地位。這6家中國企業(yè)分別是騰訊(第2),OPPO(第5),平安科技(第11),華為(第12),阿里巴巴(第14)和商湯科技(第15)。騰訊和OPPO更是超過微軟、佳能、索尼等老牌企業(yè),躋身進前5(圖9)。
作為國內(nèi)的傳統(tǒng)互聯(lián)網(wǎng)巨頭,一直以推動科技創(chuàng)新為愿景的騰訊充分集成利用自身的數(shù)據(jù)資源、人才資源和軟硬件技術基礎,打造出風靡全國的人工智能系統(tǒng)和平臺。旗下的騰訊優(yōu)圖實驗室從2012年開始專注計算機視覺技術研發(fā),其在2017年研發(fā)出的“優(yōu)圖祖母模型”以及“目標關聯(lián)算法”在多個比賽中排名第一甚至刷新世界紀錄;在2020年輸出超過50篇優(yōu)秀論文,入選多個行業(yè)頂級學術會議,內(nèi)容涵蓋目標跟蹤、行人重識別、視頻識別等多個熱門及前沿領域。
以拍照手機出名的OPPO已在圖像處理上深耕多年,2012年OPPO首次在手機自拍上實現(xiàn)了美顏拍攝功能,開創(chuàng)了“手機自拍美顏”時代;2018年,OPPO研究院在深圳成立,計算機視覺是其重要的研究方向之一;2020年的全球計算機視覺頂級會議CVPR (Conference on Computer Vision and Pattern Recognition) 上,OPPO共獲兩項第一,兩項第三。
圖 9 2016-2020年全球計算機視覺領域?qū)@暾圱op15
總體來說,這一時期的美國引領著主流技術發(fā)展方向;日本的高光時刻已經(jīng)一去不復返,韓國靠著三星撐起半邊天,而中國的計算機視覺研究從小苗開始生長出更多的枝丫。
最新的計算機視覺研發(fā)格局
分析2020年公開的計算機視覺領域的專利申請情況,得以管中窺豹,了解最新的計算機視覺研發(fā)格局。
國際格局
圖 10 2020年公開的全球計算機視覺領域?qū)@暾圱op15
2020年公開的全球計算機視覺領域?qū)@暾堉?,中美日韓的企業(yè)占據(jù)著專利申請數(shù)量的前15(圖10),其中美國企業(yè)5家,日本企業(yè)2家,韓國企業(yè)2家,中國企業(yè)6家。得益于國內(nèi)新基建的建設以及豐富的計算機視覺應用場景,中國在企業(yè)數(shù)量和專利申請數(shù)量上大有后來追上之勢。
前10名的申請人中:
韓國的三星因其廣泛的產(chǎn)品線使得計算機視覺擁有廣闊的落地場景,其專利申請數(shù)量穩(wěn)列第一位。美國的IBM、微軟、谷歌、蘋果分別位于第3、4、5和第9位。IBM一直注重人工智能方面的基礎性研究,從20世紀60年代開始就已經(jīng)是計算機視覺領域?qū)@暾埱?5榜單中的???;微軟和谷歌是目前人工智能技術的領軍企業(yè),他們掌握和引領著主流技術方向,目前全球的人工智能開發(fā)方案中有相當大的比例是基于微軟、谷歌等發(fā)布的基礎框架型構架而進行的;蘋果在2010年以后收購了十幾家人工智能公司,將人工智能服務于自身的系列產(chǎn)品,提高現(xiàn)有產(chǎn)品體驗。日本的索尼與佳能分別位于第6和第7位。他們是傳統(tǒng)的光學產(chǎn)品大廠,計算機圖像處理方面有深厚的研發(fā)底蘊,其研發(fā)實力在上世紀七八十年代已經(jīng)顯現(xiàn)。
中國的企業(yè)除前面提到的騰訊、OPPO分別位列第2和第8外,成立于2014年的商湯科技以迅雷之勢超過美國的Intel、日本的富士通和國內(nèi)的華為、平安科技,進入前10名,在一眾國內(nèi)外聲名顯赫的科技巨頭企業(yè)中格外顯眼。而商湯科技的成績不止于此:2018年,商湯科技被中國科技部指定為首個“智能視覺”國家新一代人工智能開放創(chuàng)新平臺;2019年的ICCV (the International Conference on Computer Vision) 上,商湯科技及其聯(lián)合實驗室以入選57篇論文的成績備受矚目;2020年的CVPR上,商湯科技的入選論文數(shù)超過微軟、Facebook等科技巨頭,并拿下了CVPR2020 ActivityNet 時空動作定位賽道、動作分類賽道,以及 CVPR 2020 NTIRE 競賽等3項世界冠軍。自成立以來,商湯科技已在各種重要賽事中,斬獲了60多個世界第一。
國內(nèi)格局
圖10中上榜的6家中國企業(yè),在一定程度上體現(xiàn)出了我國計算機視覺的研究格局:這6家企業(yè)中,有擁有數(shù)據(jù)資源、人才資源和軟硬件技術基礎優(yōu)勢的互聯(lián)網(wǎng)巨頭BAT(百度,阿里巴巴,騰訊),有擁有龐大智能應用終端承載計算機視覺技術的OPPO、華為(根據(jù)國際知名市場分析機構Counterpoint的數(shù)據(jù)顯示:2021年1月OPPO、華為為國內(nèi)前二智能手機品牌,分別占據(jù)國內(nèi)智能手機份額的21%和20%),以及有專注于計算機視覺基礎研究與應用的商湯科技。這些企業(yè),代表了國內(nèi)計算機視覺的最新、最強的研究實力。
另一方面,企業(yè)的海外專利申請是為其業(yè)務拓展保駕護航,海外布局策略和其業(yè)務拓展策略是一致的。2020年公開的專利申請中,中國企業(yè)在中國大陸之外的專利申請量排名前5名分別為騰訊、華為、阿里巴巴、OPPO、商湯科技(圖11)。騰訊和阿里巴巴在中國大陸之外的布局策略比較一致,中國香港為其主要布局地,其次為專利五局中的美日韓歐。華為在中國大陸之外布局策略主要在專利五局中的美日韓歐,美歐為主場。OPPO與商湯科技在中國大陸之外布局策略類似,除了美日韓歐外,在中國香港、中國臺灣等地也有較多的布局,但相較起來,商湯科技在中國大陸之外布局更加均衡,在一些未來新興市場,比如新加坡、印度,商湯科技也提前進行了布局,擁有較多的專利申請。
圖 11 2020年公開的中國企業(yè)在中國大陸之外計算機視覺領域?qū)@暾埮琶鸗op10
基礎算法研究格局
計算機視覺的發(fā)展有四大要素:算法、算力、數(shù)據(jù)和場景。萬丈高樓平地起,地基是基礎。而基礎算法就是計算機視覺這座高樓的地基。IPC分類號中,G06N對應的分類號包括了目前主流的計算機視覺算法——深度學習所涉及的主要技術,即:G06N3/02(采用神經(jīng)網(wǎng)絡模型),G06N3/04(體系結構,例如,互連拓撲),G06N3/08(學習方法),G06N20/00(機器學習)。2020年公開的全球計算機視覺領域?qū)@暾堉?,篩選出G06N下的專利申請,得到全球?qū)@暾垟?shù)量排名前10的企業(yè)(圖12):除IBM、三星、谷歌、微軟、Intel5家老牌企業(yè)外,其余5家均為中國企業(yè),騰訊(第2)、百度網(wǎng)訊(第5)、平安科技(第7)、商湯科技(第8)、支付寶(第9)赫然在列,彰顯了中國計算機視覺算法研究的實力。與其他業(yè)務方向廣泛的企業(yè)不同,成立只有6年歷史的商湯科技專注于計算機視覺領域的基礎研究和市場應用,在計算機視覺算法研究方面持續(xù)取得不菲成績,其于2014年發(fā)表的DeepID系列人臉識別算法,在誕生之初就超過了Facebook同期發(fā)表的Deepface算法, 將人臉識別準確度提高到98.52%,在全球首次超過人眼識別率,突破工業(yè)化應用的紅線。其最新的DeepID-3算法已達到了99.53%的人臉識別準確率。在國際計算機視覺領域研究的激烈競爭中,商湯科技可以與谷歌、微軟等國際大企業(yè)比肩,為中國企業(yè)豎起一面旗幟。
圖 12 2020年公開的全球深度學習算法專利申請排名Top10
總結
從上世紀60年代算起,計算機視覺的歷史也不過半個多世紀,跟整個人類歷史相比,眨眼之瞬而已。然而,即使在這半個多世紀的時間里,計算機視覺已經(jīng)從最開始簡單地處理數(shù)字圖像發(fā)展到現(xiàn)在可以在多種情景下準確地進行人臉識別,目標跟蹤等。
這個過程中,隨著時間的推移,IBM,西門子,東芝,索尼,佳能,微軟,谷歌,騰訊,OPPO, 商湯科技等企業(yè)的身影依次出現(xiàn)在我們眼前,是他們讓機器“睜開眼睛看見世界”,逐漸地賦予機器自然視覺的能力。
2017年,國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中明確指出新一代人工智能發(fā)展分三步走的戰(zhàn)略目標,到2030年使中國人工智能理論、技術與應用總體達到世界領先水平,成為世界主要人工智能創(chuàng)新中心。隨著算法的更迭、算力的提升、數(shù)據(jù)的爆發(fā)以及未來5G帶來的高速網(wǎng)絡,計算機視覺的發(fā)展和應用更是有充滿想象的巨大空間。我們期待在賦予機器自然視覺能力的這條路上有更多中國企業(yè)的身影。
注1:除圖1外,以上各圖的數(shù)據(jù)均來自智慧芽。
注2:本文關注的是計算機視覺領域企業(yè)的研究情況,各圖的排名中未考慮高校。
參考資料
[1] 十分鐘讀完人工智能的三生三世
https://baijiahao.baidu.com/s?id=1601076075337670392&wfr=spider&for=pc
[2] 計算機視覺發(fā)展史 https://zhuanlan.zhihu.com/p/142927311
[3] 計算機視覺簡述
https://blog.csdn.net/lanmengyiyu/article/details/109648345
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
作者:北京專獵前沿技術有限公司
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
注:原文鏈接:是誰在賦予機器自然視覺的能力?——計算機視覺領域?qū)@窬旨爸匾蒲谐晒C述(點擊標題查看原文)
如有想看文章主題內(nèi)容,歡迎留言評論~
「關于IPRdaily」
IPRdaily是具有全球影響力的知識產(chǎn)權媒體,致力于連接全球知識產(chǎn)權與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權負責人,還有來自政府、律師及代理事務所、研發(fā)或服務機構的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://islanderfriend.com/
文章不錯,犒勞下辛苦的作者吧