打造“千里眼”的非结构光场智能成像技术

2025-03-28 09:31:33   阅览:456

打造“千里眼”的非结构光场智能成像技术

对于很多摄影圈资深人士来说,Lytro这个名字既如雷贯耳,又显得分外陌生。这曾是一家生产新型光场成像设备的初创企业,从2006年成立伊始,Lytro凭借其惊艳的产品和多项专利,一时间成为资本市场炙手可热的宠儿。但如今,除了部分摄影爱好者手中的珍藏品,我们已经难觅Lytro的踪迹了。

由清华大学、凌云光技术股份有限公司等多家单位共同完成的科研项目“非结构光场智能成像关键技术与装备”荣获2021年度北京市科学技术奖技术发明一等奖。该项科研成果将光场成像技术的发展推向了一个全新的高度。那么光场成像是否会在新技术的加持下焕发新生呢?

光场:既要“看得清”,又要“看得全”

说起“光场成像”,就要从那个生僻的物理概念——“光场”说起。在物理学领域里,“场”是一个被广泛应用的概念,我们耳熟能详的有“电场”“磁场”“引力场”等。对于这一抽象的物理学术语,我们可以简单地理解为物理量在时间和空间中的分布状态。从物理学的视角看去,光可不只是诗人在黑暗中寻找的圣物,而是可以用严谨的数学模型表达的物理概念。

早在200多年前,电磁学之父法拉第就在他的一篇演讲中提出,光应该像磁场一样,被理解为一个“场”,这算是光场理论的起源。此后,麦克斯韦提出了将电、磁、光统归为电磁场现场的麦克斯韦方程组,为光场理论的发展打下了重要基础。1936年,物理学家亚历山大·格尔顺(AlexanderGershun)在他的论文中正式提出了“光场”这一概念,并首次对光场进行建模。不过一直到20世纪末,人类才在光场理论上取得了实质性突破,1991年麻省理工学院教授爱德华·阿德尔森(E.H.Adelson)

等学者,提出了全光函数,为光场理论建立了一套清晰的数学模型。阿德尔森用一个7维函数,将光线在空间中的分布简洁明了地表达出来。在阿德尔森的理论中,全光函数将物体所发出或反射的光解析成7个维度的信息:光的空间位置(用空间坐标系x,y,z表达),光线入射角度(用球坐标系的角度值θ,Φ表达),波长(用λ表达)和时间(用t表达)。全光函数的提出,将人类看得见却摸不着的光,完整地拆解开来呈现在人类面前。既然光线本身包含了这些维度的信息,那么如果我们在空间内遍布数量众多的观察光线的位置,那么由此记录下这个空间内光线的动态分布状态,就可以被理解为“光场”。

全光函数的提出推动了“光场理论”的发展与完善,也为科学家指明了研究方向——光场成像技(jì)术(shù)。我(wǒ)们(men)知(zhī)道(dào),传(chuán)统(tǒng)的(de)数(shù)码(mǎ)相(xiāng)机(jī)是(shì)由(yóu)光(guāng)学(xué)镜(jìng)头(tóu)、影(yǐng)像(xiàng)传(chuán)感(gǎn)器(qì)和(hé)影(yǐng)像(xiàng)处(chù)理(lǐ)器(qì)三(sān)大(dà)核(hé)心(xīn)部(bù)件(jiàn)组(zǔ)成(chéng)的(de),自(zì)然(rán)界(jiè)三(sān)维(wéi)场(chǎng)景(jǐng)发(fā)出(chū)、反(fǎn)射(shè)或(huò)散(sàn)射(shè)的(de)光(guāng)线(xiàn),被(bèi)单(dān)镜(jìng)头(tóu)捕(bǔ)捉(zhuō)并(bìng)聚(jù)焦(jiāo),经(jīng)由(yóu)影(yǐng)像(xiàng)传(chuán)感(gǎn)器(qì)转(zhuǎn)换(huàn)为(wèi)数(shù)字(zì)信(xìn)号(hào),最(zuì)后(hòu)交(jiāo)给(gěi)影(yǐng)像(xiàng)处(chù)理(lǐ)器(qì)变(biàn)成(chéng)二(èr)维(wéi)图(tú)像(xiàng)。清(qīng)华(huá)大(dà)学(xué)方(fāng)璐(lù)教(jiào)授(shòu)介(jiè)绍(shào)道(dào):“毕(bì)竟(jìng)光(guāng)是(shì)一(yī)个(gè)高(gāo)维(wéi)的(de)信(xìn)号(hào),普(pǔ)通(tōng)成(chéng)像(xiàng)设(shè)备(bèi)无(wú)法(fǎ)将(jiāng)光(guāng)场(chǎng)内(nèi)这(zhè)些(xiē)高(gāo)维(wéi)信(xìn)号(hào)全部(bù)、高(gāo)速(sù)并(bìng)实(shí)时(shí)地(de)转(zhuǎn)换成一个电子信号。”传统成像设备只能记录光场中的光亮信息,对光的方向等信息束手无策,导致深度信息的丢失,且能获取的总信息量受到影像处理器像素数量的限制。因此,“‘看得清’和‘看得全’这对矛盾一直困扰着人们。举个大家日常拍照上的例子,广角镜头可以把照片拍得很宽很大,分辨率却不甚精(jīng)确。而长焦镜头可以拍得很远很清晰,却只能覆盖一片很小的区域。”方璐说。

光场成像的前世今生

近年来,光场采集感知重建理论及技术的进步为我们指出了另外一条思路:如果我们将全光函数中所有的参数都捕捉到,成像效果不就能做到既看得全也看得清吗?答案是肯定的。不过,全光函数包含了光线多达7个维度的信息,显然还是过于复杂了,而且并不是所有维度的信息在拍摄时都用得着。于是安德尔森的后继者们将该函数做了简化,波长λ被简化为记录红、绿、蓝三原色,时间t被简化为记录不同帧,这样函数就被简化为只包含位置(x,y,z)与光线入射角度(0,Φ)5个维度信息。此后又被进一步降到了4维:即通过记录一条光线穿过两个平行平面的坐标(分别用u,v和x,y两个坐标系表示),就能得到光线的位置与方向信息。如果将这个双平面模型套用在普通成像系统的结构上,那么其中u-v平面就是主镜头中心所在平面,x-y平面是影像传感器所在平面,这样通过采集光线穿过两个平面时所产生的4个维度信息,理论上就能兼顾到“看得全、看得清”的效果。问题在于,要借助什么样(yàng)高(gāo)科(kē)技(jì)的(de)神(shén)器(qì)才(cái)完(wán)成(chéng)这(zhè)样(yàng)的(de)采集工(gōng)作(zuò)呢(ne)?“要(yào)兼(jiān)顾(gù)既(jì)看(kàn)得(de)全又(yòu)看(kàn)得(de)清(qīng),就(jiù)意(yì)味(wèi)着(zhe)依(yī)靠(kào)单(dān)个(gè)镜(jìng)头(tóu)和(hé)单(dān)个(gè)影像传感器的系统根本无能为力。这时人们就想到:能否把多个相机放在一起形成阵列,通过‘量变引起质变’的思路来实现?”方璐介绍道。初代光场成像技术的解决方案是在影像传感器前,用数量众多的单镜头组成阵列,形成类似于昆虫复眼的结构,对u-v和x-y平面的信息进行采集,然后通过数字调焦的形式进行图像还原。这样就形成了“先拍照,后对焦”的特点,省去了传统成像设备同时对(duì)焦(jiāo)和(hé)拍(pāi)照(zhào)导(dǎo)致(zhì)拍(pāi)摄(shè)不(bù)清(qīng)晰(xī)的(de)麻(má)烦(fán)。

2006年(nián),美(měi)国(guó)斯(sī)坦(tǎn)福(fú)大学的马克·勒沃伊(MarcLevoy)团队根据这一思路研制出了阵列式光场成像系统,这个身形巨大的装置通过不同位置的相机同时曝光进行光场信息采集,从而迈出了光场成像技术落地的第一步。2012年,美国杜克大学的戴维·布雷迪(dí)(DavidBrady)团(tuán)队(duì)在顶级学术期刊《自然》上发表了世界上首款亿像素级阵列式光场成像系统,像素分辨率达到当年数码相(xiāng)机(jī)的(de)30多(duō)倍(bèi),能(néng)捕(bǔ)捉(zhuō)到(dào)几(jǐ)倍(bèi)于(yú)人(rén)眼感知能力的细节。但体积和重量的限制导致这些阵列成像设备只能止步于实验室。此外,在这种技术里,“每(měi)个(gè)相(xiāng)机(jī)采用(yòng)同(tóng)样(yàng)的(de)尺(chǐ)度(dù),并(bìng)且(qiě)位(wèi)置(zhì)和(hé)姿(zī)态(tài)固(gù)定(dìng),只(zhǐ)有(yǒu)一(yī)种(zhǒng)拍(pāi)摄(shè)模(mó)式(shì),依(yī)赖(lài)事(shì)先(xiān)标(biāo)定(dìng)的(de)参(cān)数(shù)进(jìn)行(xíng)重(zhòng)建(jiàn),系(xì)统(tǒng)的(de)鲁(lǔ)棒(bàng)性(xìng)和(hé)扩(kuò)展(zhǎn)性都受限。”方璐介绍道,“如果有相机在成像过程中受到扰动,整个阵列系统的工作都会受到影响,需要进行重新标定。”

欲穷千(qiān)里目,智能技术来(lái)相(xiāng)助(zhù)

方(fāng)璐(lù)带(dài)领(lǐng)团(tuán)队(duì)另(lìng)辟(pì)蹊(qī)径,提(tí)出(chū)了(le)非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)阵(zhèn)列(liè)感(gǎn)知(zhī)技(jì)术(shù)。不(bù)同(tóng)于(yú)之(zhī)前(qián),非(fēi)结(jié)构(gòu)光(guāng)场(chǎng)阵(zhèn)列(liè)感(gǎn)知(zhī)技(jì)术(shù)的(de)特(tè)征(zhēng)是(shì)“层(céng)内(nèi)非(fēi)结(jié)构(gòu)”和(hé)“层(céng)间(jiān)异(yì)构(gòu)”:层(céng)内(nèi)非(fēi)结(jié)构(gòu)突(tū)破(pò)了(le)结(jié)构(gòu)固(gù)化(huà)的(de)制(zhì)约(yuē),使(shǐ)得(de)阵(zhèn)列(liè)系(xì)统(tǒng)具(jù)有(yǒu)场(chǎng)景(jǐng)自(zì)适(shì)应(yīng)成(chéng)像(xiàng)的(de)能(néng)力(lì);层(céng)间(jiān)异(yì)构(gòu)克(kè)服(fú)了(le)尺(chǐ)度(dù)单(dān)一(yī)的(de)瓶(píng)颈(jǐng),使(shǐ)得(de)阵(zhèn)列(liè)系(xì)统(tǒng)的(de)感(gǎn)知(zhī)尺(chǐ)度(dù)和(hé)维(wéi)度(dù)可(kě)扩(kuò)展(zhǎn)。非(fēi)结构光场阵列感知技术不再依赖复杂的硬件设计和烦琐的系统标定,而是借助人工智能,通过阵列结构自适应感知、跨尺度映射融合等技术,直接利用多尺度图像内容进行计算重建,同样的硬件资源条件下,大幅提升了系统的成像效率与鲁棒性。这一系列环环相扣的技术创新,大大降低了光场阵列系统的复杂程度,节约(yuē)了(le)硬(yìng)件(jiàn)带(dài)来(lái)的(de)高(gāo)昂(áng)成(chéng)本(běn),让(ràng)计(jì)算(suàn)摄(shè)像(xiàng)和(hé)人(rén)工(gōng)智(zhì)能(néng)技(jì)术(shù)有(yǒu)了(le)更(gèng)多(duō)施(shī)展(zhǎn)空(kōng)间(jiān),突(tū)破(pò)了(le)传(chuán)统(tǒng)光(guāng)学(xué)成(chéng)像(xiàng)的(de)瓶(píng)颈(jǐng)。

当(dāng)然(rán),这(zhè)种(zhǒng)全新(xīn)的(de)技(jì)术(shù),是(shì)让(ràng)几十个不一(yī)样(yàng)的(de)成(chéng)像(xiàng)设(shè)备(bèi)整(zhěng)合(hé)在(zài)一(yī)起(qǐ)工(gōng)作(zuò),这(zhè)背(bèi)后(hòu)算(suàn)法(fǎ)部(bù)分(fēn)的(de)技(jì)术(shù)难(nán)度(dù)是(shì)可(kě)想(xiǎng)而(ér)知(zhī)的(de)。“毕(bì)竟(jìng)软(ruǎn)件(jiàn)和(hé)算(suàn)法(fǎ)的(de)成(chéng)本(běn)与(yǔ)迭(dié)代(dài)周(zhōu)期(qī)是(shì)远(yuǎn)小(xiǎo)于(yú)硬(yìng)件(jiàn)系(xì)统(tǒng)的(de),我(wǒ)们(men)把(bǎ)硬(yìng)件(jiàn)制(zhì)作(zuò)的(de)难(nán)度降低,让更多的工作留给算法去做,让智能成像成为可能,这种‘非结构光场感知’新范式使得光场成像真正实现了‘鲁棒性’。”方璐介(jiè)绍道。

在人工智能技(jì)术(shù)的加持下,除了鲁棒性,非结构光场智能感知技术同时实现了另一大优势,即可扩展性:这种非结构光场阵列系统可以灵活地调整阵列的数量和组合方式,以适应不同的应用场景需求。对此,方璐指出:“要知道,鲁棒性和可扩展性这两大优势,对于技术的应用意义重大。在这两项优势加持下,这一新技术才有可能应用到未来多个不同领域中。”从工业检测到公共安全,再到智慧城市,光场成像在B端的应用前景十分广阔。方璐认为,目前的非结构光场(chǎng)成(chéng)像(xiàng)技术,并不是给摄影爱好者去品鉴的,而是供智能无人系统进行识别分析之用的。那么在这种应用场景下(xià),追(zhuī)求(qiú)高(gāo)分(fēn)辨(biàn)率(lǜ)就(jiù)并(bìng)不是唯一的目标。她进一步指出:“对此,我们也在研究‘感算一体’的成像技术,将计算移到前端,在成像的同时就(jiù)计算出目标物体的特征和位置,这就省去了传统光场成像对图片压缩和解压,以及后续的目标特征提取与识别等烦琐步骤,这节约的资源与功耗是巨大的。”

非结构光场智能成像技术所面临的另外一个问题就是数据。因为现阶段人工智能算法开发迭代对于数据集的依赖是非常大的。方璐对此说道:“但目前国际上常用的视觉数据集大多是少场景、少对象、关系简单,可能就只有一只猫、一条狗、一辆车这样的信息。这就难以呈现复杂真实的场景,难以支撑面向大场景多对象复杂对象的新一代人工智能理论和算法的研究。”在这样的数据集里进行训练的人工智能算法,一旦放在类似“万人跑马拉松”这样的壮观场景中,可能就力不从心了。因此,方璐带领团队构建了PANDA数据平台(全称GigaPixel-levelHuman-centricVideoDataset),具(jù)有(yǒu)大(dà)场(chǎng)景(jǐng)(平(píng)方(fāng)千(qiān)米(mǐ)级(jí)别(bié)范(fàn)围(wéi))、高(gāo)分(fēn)辨(biàn)(十(shí)亿(yì)像(xiàng)素(sù)级(jí),支(zhī)持(chí)百(bǎi)米(mǐ)对(duì)象(xiàng)识(shi)别(bié))、多(duō)对(duì)象(xiàng)复(fù)杂(zá)关系(xì)(万(wàn)级(jí)对(duì)象(xiàng),尺(chǐ)度(dù)变(biàn)化超百倍(bèi),遮(zhē)挡(dǎng)关系(xì)复(fù)杂(zá),交(jiāo)互(hù)行(xíng)为(wèi)丰(fēng)富(fù))的(de)特(tè)点(diǎn),填(tián)补(bǔ)了(le)大(dà)场(chǎng)景(jǐng)下(xià)高(gāo)密(mì)度(dù)群(qún)体(tǐ)对(duì)象(xiàng)数(shù)据(jù)平(píng)台(tái)的(de)空(kōng)白(bái),为(wèi)探(tàn)索(suǒ)人(rén)工(gōng)智(zhì)能(néng)新(xīn)理(lǐ)论(lùn)和(hé)新(xīn)方(fāng)法(fǎ)提(tí)供(gōng)了(le)不(bù)可(kě)或(huò)缺(quē)的(de)数(shù)据(jù)基(jī)础(chǔ)。

立(lì)足(zú)于(yú)人(rén)工(gōng)智(zhì)能(néng)技(jì)术(shù),非(fēi)结构光场智能成像技术为未来的光场成像技术指明了一条全新的赛道。谈到该技术的应用前景,方璐充满信心:“首先,我们会(huì)将(jiāng)技(jì)术(shù)从(cóng)现(xiàn)在(zài)的(de)宏(hóng)观(guān)场(chǎng)景(jǐng)向(xiàng)微(wēi)观(guān)场(chǎng)景(jǐng)普(pǔ)及(jí),在(zài)未(wèi)来(lái)会(huì)进(jìn)一(yī)步(bù)向(xiàng)天(tiān)文远(yuǎn)观(guān)场(chǎng)景(jǐng)扩(kuò)展(zhǎn),这(zhè)背(bèi)后(hòu)的(de)研(yán)发(fā)思(sī)路是(shì)一(yī)脉(mài)相(xiāng)承(chéng)的(de)。其(qí)次(cì),人(rén)工(gōng)智(zhì)能(néng)算(suàn)法(fǎ)还(hái)有(yǒu)待(dài)于(yú)进(jìn)一(yī)步(bù)突(tū)破(pò)和(hé)推(tuī)进(jìn):未(wèi)来(lái)的(de)成(chéng)像(xiàng)目(mù)标(biāo)是(shì)将(jiāng)性(xìng)能(néng)做(zuò)到(dào)极(jí)致(zhì),实(shí)现(xiàn)光(guāng)速(sù)感(gǎn)知(zhī)计(jì)算(suàn),这(zhè)对(duì)于(yú)人(rén)工(gōng)智(zhì)能(néng)算(suàn)法(fǎ)的(de)要(yào)求(qiú)是(shì)越(yuè)来(lái)越(yuè)高(gāo)的(de)。”