星之光|AR技術不得不說的秘密
2022-10-15
增強現實技術為什么引起關注
隨著近日,某家增強現實技術(Augmented Reality, AR)公司融資14億美元,AR再度成為科技領域內一個追捧熱點。其中到底藏著什么樣的巨大前景這么被人們看重呢?
在說清楚這個秘密之前,我們先得區分另一個類似的技術——虛擬現實技術(Virtual Reality,VR)。兩者的技術可能有重疊的部分,但應用場景則不同。
簡單來說,假如有一天,你趕不上演唱會只能看直播,但不想放棄現場體驗怎么辦?沒關系,戴上VR眼鏡,你在家里就能如身臨其境般感受最逼真的視覺體驗。VR眼鏡是不透明的,用于顯示完全虛擬的世界,把物理世界完全擋住,即使坐在家里,你也能感到去大溪地“潛水”。
而AR眼鏡通常是透明的,讓你能看到現實世界的景象,同時會由眼鏡虛擬出一些圖像疊加在上面。
總的來說,這些設備是計算機的必然發展趨勢。自2007年iPhone面世以來,智能手機發展迅猛。用戶隨時隨地帶著它,各項使用數據毫無懸念地都在超越PC端。所以,人機交互界面的未來主要在于移動。但現在的手機局限在于,
(1)既然要便于攜帶屏幕就做得小,屏幕小了某些功能就得受限;
(2)顯示屏幕是平面也就是二維(2D)的,而真實世界是三維(3D)的。
未來的透明AR眼鏡有望實現大突破,既能讓用戶隨身攜帶,又能在眼前顯示超大屏幕,還能把以假亂真的3D內容渲染到人所看到的真實世界里。想象你坐在教室里自習,講臺上的老師看起來真實無比,但其實他就是在你的眼鏡上虛擬出來的人。這樣的眼鏡大概不會完全取代手機,但毫無疑問潛力無窮。
跟VR比較,AR的應用場景更廣闊。畢竟,我們一般不會戴著VR頭盔在大街上逛吧。本質上,AR是VR的超集,鏡片前面一擋就成了VR。
戴眼鏡好麻煩,能不能裸視?
直接像《星球大戰》一樣,在空氣中顯示全息圖(Holography)行不行?這樣的美好愿景,有一天也許能做成,但近期看離實用還早。
現在有一些大學實驗室的確在研究裸眼光場顯示器(Light Field Display),但需要很復雜笨重昂貴的設備,還必須先安置才能使用。相對這些,做成眼鏡的效果要好得多。輕便的AR眼鏡將是移動人機交互界面上,也是計算機發展的重大革新。
在VR頭盔前加個攝像頭也能成AR,為什么非要做透明?
說起來AR有兩種,一種是前面所說的透明AR(Optical See-through),人透過鏡片能直接看到現實世界。另一種就是“視頻疊加”(Video See-through; Video Overlay)——通過攝像頭捕捉現實世界圖景,然后以視頻的方式呈現給用戶,同時其中再渲染一些畫面。事實上,現在手機和平板上已經出現了很多Video Overlay的應用,比如看星空,求翻譯,選家具等。
那為什么不用VR頭盔加攝像頭實現這種AR呢?事實上,現在很多VR頭盔都在試探這種做法。不過,它和透明AR相比各有優劣。其優勢在于,用視頻實現的虛擬和現實的疊加(overlay)要比透明AR簡單得多。這也是為什么它已經開始在移動端商用的原因。
但劣勢也可想而知,用戶看到的畢竟只是一個2D視頻,質量跟眼睛直接看到的世界差距很大。而且視頻從采集到顯示總是有延遲的,如果跟體感信號不一致的話會造成身體不適。所以不管怎樣,還是會有公司追求更好的產品體驗,前仆后繼地去做透明AR的。
光憑這些就能融到14億美金?
前面我們說了AR技術應用潛力,這只是資本看重的一方面,同時還有技術,創始人,團隊的原因。
其實,該AR的核心技術來自華盛頓大學前研究員Brian Schowengerdt。 他導師Eric Seibel是光纖掃描內窺鏡(Scanning Fiber Endoscope)的專家。大家都知道,內窺鏡就是醫生們做手術時用來體內成像的,本質是個微小攝像頭。Brian很聰明地逆轉光路,把這個技術用到了顯示上。這樣通過極細的光纖(如左圖所示)用激光就可以打出彩色的圖像。
這個技術十幾年前就發表了[2],后來又不斷改進,生成了一堆專利。該AR技術在很大程度上是基于Brian的這些專利。
那這種技術為什么重要呢?我們后面留成一個專門的問題講。
然而光技術牛是不夠的,要想做好AR眼鏡,可想而知是需要軟件硬件都得有重大突破。國際大公司可能有財力去做這個事,為什么他們認為一個初創小企業能做成?我覺得,其團隊創始人Rony Abovitz起的作用非常大。他曾經在機器人手術(Robotic Surgery)上創業,做骨科手術精準定位。2004年創建的公司,2008年就上市了,后來在2013年以16.5億美元被并購。聽起來就是很牛,這種背景當然拉投資比較容易。
除了創始人兼CEO很牛,其團隊也不一般,計算機視覺部分更有不少業內大牛。合作的團隊更有在好萊塢給電影做特效的。而公司當年用來拉投資用的概念視頻就像一個微型電影一樣。
新技術核心:光場顯示技術為什么對AR很重要
首先,光場顯示技術基于極細的光纖,可以讓眼鏡做得輕薄。但更重要的是,Brian證明,這種光纖技術不僅可以投射出一個2D圖片,還能顯示出一個光場(Light Field)。
目前利用眼鏡實現的3D主要可分成兩種技術框架:Stereoscopic(中文翻譯成“立體”,但其實不夠準確),和Light Field(光場)。Stereoscopic眼鏡早已商化,比如所有3D影院里用的,還有市面上幾乎所有AR和VR眼鏡/原型。而Light Field還只在實驗室里有雛形。
什么是Stereoscopic 3D?為什么它不夠好?又什么新技術核心是Light Field呢?
Stereoscopic 3D是假3D
3D圖像比2D圖片多了一個維度,這個維度就是景深(depth),其在感官上有明顯的區別(只有少數人有雙盲癥不能看到)。
人眼感知景深有很多機制,包括單眼(monocular)和雙眼(binocular)機制。單眼能感知的景深信號有很多種,比如:一個東西遮擋了另一個(occlusion),熟悉的物體的大小(relative size/height),物體移動的變化(motion parallax)——遠的物體變化慢、近的物體變化快。所以在此基礎上,人類雙眼的景深信號也非常強:兩只眼睛看到同一個場景會有細微差別,這讓大腦能通過三角計算(triangulation)來得到物體景深。人類在遠古時就有這樣的感知,幫助他們很好地判斷對面的老虎或者鹿到底離自己有多遠。
Stereoscopic 3D也就是利用這個原理給雙眼分別顯示不同的圖片(如下圖),它們很相似,只在水平方向上有細微差別。而這兩張圖片拍攝的時候,就是用兩個并排的相機模擬人眼的位置拍的。實際上,現在的3D電影也都是基于這個原理。通過一些光學技術把細微差別的畫面分別傳入左右雙眼,以形成立體的感知。
但這樣的Stereoscopic 3D有些問題。簡單來說,它會引起用戶身體不適如頭暈、惡心等。為什么呢?這又涉及到另一個視覺原理。
當我們在看一個現實世界中的物體時,眼睛其實有兩種自然反應:
(1) 聚焦(Accommodation/Focus):眼睛的晶狀體就像一個凸透鏡,它會調節凸度來讓那個物體在咱們視網膜上清楚成像。
(2) 會聚(Convergence):在每只眼睛聚焦的同時,兩只眼球還會有旋轉運動來一起指向那個物體。
很自然地,這兩種反射運動在神經上是聯接的(Neurally Coupled),也就是說任意一種運動會自動引發另一種運動。這也意味著,在人眼看真實物體的時候,聚焦和會聚的距離總是相等的(Vergence Distance = Accommodation Distance)。
那么Stereoscopic 3D的問題就來了。因為Stereoscopic屏幕到眼的投射距離總是固定的,也就是聚焦不變,但對圖片的感知會讓眼睛會聚在不同的距離以產生景深3D效果(見上圖B)。所以,這兩種距離經常是不一致的,以至于造成這兩種神經相連的運動強行分離(Neurally Decoupled)。