行業(yè)行業(yè)
高通公司多媒體研發(fā)高級工程總監(jiān)Ananth Kandhadai
沉浸式體驗的新時代已經(jīng)來臨,這在很大程度上得益于計算機(jī)視覺技術(shù)的引領(lǐng)。無論是模糊用戶背景的虛擬呼叫,還是在公路上成功實現(xiàn)自動駕駛的汽車,計算機(jī)視覺技術(shù)的進(jìn)步正在變革人們的生活方式。
二十多年來,高通公司多媒體研發(fā)高級工程總監(jiān)Ananth Kandhadai一直是發(fā)明各類計算機(jī)視覺和人工智能技術(shù)的領(lǐng)軍人物。自1996年加入公司以來,Ananth的研究領(lǐng)域包括語音編碼、圖像處理、深度學(xué)習(xí)、視覺硬件加速、功率約束的系統(tǒng)設(shè)計,以及增強(qiáng)現(xiàn)實/虛擬現(xiàn)實(AR/VR)系統(tǒng)解決方案。目前,他領(lǐng)導(dǎo)著一個工程師團(tuán)隊,專注于研發(fā)面向擴(kuò)展現(xiàn)實(XR)應(yīng)用的計算機(jī)視覺和攝像系統(tǒng)。
Ananth來自印度,在卡利卡特國立技術(shù)學(xué)院獲得電子工程學(xué)士學(xué)位后,他前往美國,并在弗吉尼亞理工大學(xué)獲得了電子工程碩士學(xué)位。在那之后,他面臨著一個選擇:繼續(xù)深造并攻讀博士學(xué)位,或者在高通開始他的工程師生涯。他選擇了高通,并開始了對移動語音編碼和標(biāo)準(zhǔn)化的研究。Ananth認(rèn)為他做出了正確的決定,并表示與選擇學(xué)術(shù)界相比,他在高通學(xué)到更多,成長得更快。
多年來,由Ananth引領(lǐng)的一些創(chuàng)新性發(fā)明包括:使智能手機(jī)攝像頭能夠基于用戶的環(huán)境變化來啟動應(yīng)用程序,以及在語音編碼和圖像與信號處理領(lǐng)域的大量工作。如果沒有Ananth的技術(shù)突破,我們可能無法享有目前的一些智能終端和豐富的多媒體體驗。
近期我們與Ananth進(jìn)行了深入交流,談到了他在加入高通技術(shù)公司后,在信號處理和計算機(jī)視覺交叉領(lǐng)域的杰出職業(yè)生涯。
在加入高通的25年里,您主要研究哪些技術(shù)?
我在高通的一半以上的時間都在從事語音編碼和標(biāo)準(zhǔn)化領(lǐng)域的工作——總體來說,就是面向手機(jī)的語音壓縮技術(shù)。蜂窩和衛(wèi)星通信是我從1996年起就開始從事的工作,后來我轉(zhuǎn)向了研究圖像處理和計算機(jī)視覺。
長期以來我一直將信號處理作為核心研究領(lǐng)域,將其應(yīng)用于語音編碼、語音壓縮和語音處理。之后,我轉(zhuǎn)向了影像處理和計算機(jī)視覺領(lǐng)域。目前,我正在研究面向XR和一些其他顯示和渲染方面的特定計算機(jī)視覺應(yīng)用。
我的工作變動也反映了高通公司的發(fā)展歷程。在我剛加入工作時,無線手機(jī)用戶數(shù)量要少很多,所以那段時間我長期參與系統(tǒng)擴(kuò)容。當(dāng)用戶數(shù)量提升之后,我們逐漸開始新的布局,于是我們說:“好吧,讓我們來增加一些拍照手機(jī)。”如果你還記得早期那些翻蓋手機(jī),應(yīng)該有印象,它們的攝像頭很小。大家最初看到拍照手機(jī)爆發(fā)式增長的時候,我正在從事相關(guān)工作,遇到過許多不同的技術(shù)挑戰(zhàn)。
幾年后,當(dāng)那些攝像頭需要變得更智能時,我就專注于運用計算機(jī)視覺——一種使計算機(jī)能夠檢測現(xiàn)實世界中的物體,并對其做出反應(yīng)的功能。隨著我們邁入應(yīng)用計算機(jī)視覺的新世界,我就轉(zhuǎn)而研究未來可用于XR(擴(kuò)展現(xiàn)實)應(yīng)用的技術(shù)。我專注研究的技術(shù)領(lǐng)域與高通的技術(shù)重點同步轉(zhuǎn)換,這并非巧合。
對于那些可能不太了解計算機(jī)視覺的人,您能通俗地解釋一下它是什么以及為何重要嗎?
試想一下人們佩戴眼鏡——比如矯正鏡片,每個人都了解矯正鏡片。人們佩戴它,是為了更清晰地觀察世界,對吧?簡單來說,人們在頭上佩戴某些東西是為了更好地觀察和感知世界——在某種程度上,這增強(qiáng)或擴(kuò)展了現(xiàn)實世界。
計算機(jī)視覺是一種數(shù)字化方式,用于感知、記錄和理解單個攝像頭或一系列攝像頭所生成的可視數(shù)據(jù)。比如,找到人眼自然識別的模式,或是太微妙、甚至人眼無法察覺的數(shù)據(jù)模式。無論是自動駕駛汽車的障礙識別功能,還是在虛擬通話中區(qū)分前景背景的功能,從根本上來說,它都是通過創(chuàng)建用計算機(jī)解釋可視數(shù)據(jù)的方法來實現(xiàn)的。
隨著終端變得更加智能,它需要自動分析出這些模式。終端需要像一個數(shù)字化的助理一樣,感知用戶及其周圍環(huán)境。此類自動感知技術(shù)要求終端具備智能計算機(jī)視覺功能——幾乎像第三只眼睛一樣,來提供無縫用戶體驗。這就是計算機(jī)視覺對所有不同的應(yīng)用都至關(guān)重要的原因。
在研究應(yīng)用計算機(jī)視覺的過程中,您遇到過哪些技術(shù)挑戰(zhàn)?您是如何努力應(yīng)對挑戰(zhàn)的?
人們可能會說:“哦,這就好像多了一雙眼睛”。但是眼睛本身很容易復(fù)制——它只是光的接收裝置。難點在于復(fù)制眼睛后面處理信息的大腦。大腦是神經(jīng)科學(xué)和意識的經(jīng)典研究領(lǐng)域,人們?nèi)绾胃兄F(xiàn)實這個問題甚至尚未被完全了解。但這正是我們試圖在機(jī)器上復(fù)制的東西。在不經(jīng)歷數(shù)百萬年進(jìn)化的情況下,研究與人類頭腦具有相同可靠性水平的終端,這是第一個挑戰(zhàn)。
高通正在解決的最重要的問題是,當(dāng)在用戶在頭上佩戴XR終端這樣的設(shè)備時,需要保證設(shè)備是輕便的,不能過熱,它的功耗也必須非常低。這意味著不能只用大量算力和內(nèi)存來解決計算機(jī)視覺和感知等方面的難題。終端必須足夠輕便和涼爽,才能使用戶舒適地將其佩戴于頭部,這歸根結(jié)底涉及到功耗效率的創(chuàng)新。
功耗和計算復(fù)雜性總是彼此沖突,但可用性要求二者針對不同的消費終端外形進(jìn)行同步優(yōu)化。
計算機(jī)視覺在不同應(yīng)用中有何不同,比如汽車駕駛輔助、無人機(jī)、機(jī)器人和XR?
本質(zhì)上講,這些不同的應(yīng)用在所處理的基本任務(wù)上是相似的。例如,了解XR終端用戶的頭部位置或攝像頭的位置,與汽車在自動駕駛時需要了解周圍環(huán)境,或無人機(jī)在自動駕駛模式下跟蹤物體都非常相似。以上所有產(chǎn)品的攝像頭和視覺系統(tǒng)都需要明確終端周圍的實際情況。因此,將人工智能(AI)技術(shù)用于物體檢測、3D重建、地圖構(gòu)建、物體識別、頭部追蹤和眼動跟蹤等不同用例,從概念上看都非常相似。無人機(jī)用例略有不同,因為在物理上操控者已經(jīng)脫離機(jī)器本身,機(jī)器中沒有人。
然而,這里還存在著其他方面的因素,導(dǎo)致計算機(jī)視覺對各個用例來說都有本質(zhì)的不同。這就是為什么很難拿出一個萬能的解決方案??梢源騻€比方,你可以說人類、獵豹和花豹都有四肢和嘴,都是肉食性動物。它們是有相似性的,但又有著需要針對各自不同的環(huán)境和情況進(jìn)行的不同優(yōu)化。
汽車上有牢固安裝的攝像頭,其技術(shù)重點是影像的穩(wěn)定性。汽車通常只在路面上行駛,但它們行駛的速度很快。最重要的是,汽車計算機(jī)視覺中,錯誤的代價在車上更具災(zāi)難性。這讓該項技術(shù)變得很難,但也更具可預(yù)測性。
相比之下,把一組類似的攝像頭放在用戶頭上就不一樣了:用戶可能身處任何地方,不斷地以不可預(yù)測的模式移動頭部,這讓頭部攝像頭看到的場景比車載攝像頭看到的更加難以預(yù)測。在這個意義上,XR頭顯和汽車計算機(jī)視覺系統(tǒng)提出的假設(shè)有些許不同?;炯夹g(shù)保持不變,但它們的工程設(shè)計方式使其成為完全不同的問題。
而最終,盡管我們解決問題的方法可能截然不同,但當(dāng)涉及到我們芯片組的實際架構(gòu)變化時,這些不同領(lǐng)域之間其實存在著許多協(xié)同效應(yīng)。我們常常發(fā)現(xiàn),在架構(gòu)層面針對一個用例所做的決定,最終會有助于實現(xiàn)另一個用例。
高通如何支持您的工作,公司通過什么方式幫助您創(chuàng)造這些計算機(jī)視覺技術(shù)?
我很幸運能在高通工作,因為我們在連接、應(yīng)用處理器和智能手機(jī)平臺方面有成熟的業(yè)務(wù)。這使我們處于一個有利位置,讓我的團(tuán)隊能夠?qū)W⒂谟嬎銠C(jī)視覺的技術(shù)層面,比如感知和渲染,從而建立有效方式,讓客戶和最終用戶獲得這些技術(shù)功能。
高通還與計算機(jī)視覺相關(guān)領(lǐng)域的主要行業(yè)領(lǐng)導(dǎo)者保持著良好的關(guān)系,這有助于我們在努力解決的根本性問題上保持一致。我能夠解決很多問題,但其中的大量問題可能不是實際問題。圍繞實際問題進(jìn)行協(xié)作、制定規(guī)范是很重要的,而與其他公司保持良好關(guān)系有助于我們做到這些。
總體而言,高通積極地推動我們團(tuán)隊提出的解決方案。公司會采用相關(guān)解決方案,尋找方法將其轉(zhuǎn)化為商機(jī),這需要解決方案的路線圖,并且有助于使我們的產(chǎn)品與其他公司形成差異化。同樣地,業(yè)務(wù)團(tuán)隊會給我們帶來一些挑戰(zhàn)。他們與客戶交流獲取市場需求,然后給我們時間去思考和實現(xiàn)這些需求。尤其對于XR這樣的應(yīng)用,它的業(yè)務(wù)規(guī)模還無法與智能手機(jī)相比。但高通有著長期愿景,并且鼓勵我們?nèi)崿F(xiàn)。這使我們能夠?qū)W⒂诩夹g(shù),而不是僅僅試圖弄清這些技術(shù)如何實現(xiàn)商業(yè)化。
最后,高通有許多團(tuán)隊致力于從各個方面研究和設(shè)計行業(yè)領(lǐng)先的系統(tǒng)級芯片(SoC),這讓我們能夠與公司其他部門的不同團(tuán)隊合作,來分享和利用在其他情況下很難獲取的知識。公司的流程允許我們向其他團(tuán)隊提供建議,并在不同應(yīng)用中根據(jù)不同目的使用他們的工作成果,而協(xié)作是這個流程中必須的。結(jié)果證明,這樣的協(xié)作大有裨益。
對于希望在語音識別或計算機(jī)視覺技術(shù)領(lǐng)域開展職業(yè)生涯的年輕發(fā)明家(他們或許還在上學(xué)),您會給他們什么建議?
根據(jù)我自己的經(jīng)驗,我建議將發(fā)明看作是解決現(xiàn)實問題的附帶結(jié)果。專注于解決難題,并且相信那些難題將把你引向創(chuàng)新性的解決方案。如果你發(fā)現(xiàn)了其他人尚未解決的問題,我認(rèn)為這就值得你花時間去解決。雖然會有風(fēng)險,人們沒能解決它可能是有原因的,但這些問題通常是值得去研究的。很可能會有貪多嚼不爛的問題,但我認(rèn)為這不值得擔(dān)憂。持續(xù)不斷地去調(diào)整和改進(jìn)就好了,永遠(yuǎn)不要低估自己的想象力和創(chuàng)造力。某個問題沒有被解決并不能說明什么——或許它恰好就在等待你去研究。研究任何事物都需要新視角,尤其是那些“尚未解決”的問題。
歸根結(jié)底,重要的是去正確地解決問題——不必專注于尋找華而不實或另辟蹊徑的解決方案。根據(jù)我的經(jīng)驗,創(chuàng)新很有可能來自于解決那些難題。在我們申請專利時,這個原則也很有用。專利部門會評估一項技術(shù)的創(chuàng)新性和影響力,也會參考其新穎性和實用性。所有這些評估專利是否有用的指標(biāo),都以你要解決的問題為基礎(chǔ)。
來源:IPRdaily中文網(wǎng)(iprdaily.cn)
編輯:IPRdaily王穎 校對:IPRdaily縱橫君
與光同行!2021年中國“40位40歲以下企業(yè)知識產(chǎn)權(quán)精英”榜單揭曉
如何抓住涉外商標(biāo)業(yè)務(wù)的機(jī)遇?涉外商標(biāo)代理高研班【廣州站】來啦!
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識產(chǎn)權(quán)綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權(quán)與科技創(chuàng)新人才。匯聚了來自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個國家和地區(qū)的高科技公司及成長型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權(quán)負(fù)責(zé)人,還有來自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機(jī)構(gòu)的全球近100萬用戶(國內(nèi)70余萬+海外近30萬),2019年全年全網(wǎng)頁面瀏覽量已經(jīng)突破過億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉(zhuǎn)載此文章須經(jīng)權(quán)利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場,如若轉(zhuǎn)載,請注明出處:“http://islanderfriend.com
文章不錯,犒勞下辛苦的作者吧