智东西
编译 | Glu
编辑 | 李水青
智东西6月5日消息,6月1日。英伟达研究院发布了一篇文章,推出其新研制的AI模型——神经朗基罗(Neuralangelo),该模型利用神经网络技术,能够将2D视频片段转换为细节丰富的3D大规模场景。英伟达甚至还展示了对米开朗基罗雕塑作品《大卫》的复刻,使得各种肌肉纹理肉眼可见。
除了引人注目的神经朗基罗,英伟达还计划在 6月18日至22日举行的计算机视觉行业顶会CVPR(计算机视觉与模式识别会议)上发布近30款产品,充分展示英伟达在AIGC创新上的突破。
一、无需专业设备,随时捕捉复杂细节
3D重建技术一直都是计算机图形学的重点研究领域,此前也有多项技术能够实现2D视频转3D模型,但那些技术总是很难捕捉重复的纹理图案、同质的色彩、强烈的色彩变化。
与之相比,英伟达的神经朗基罗能够精准捕捉这些复杂细节。它借助了自家的逆向渲染工具即时NeRF(Instant NeRF)的重要技术——即时神经图形基元(instant neural graphics primitives),因此。该模型能够精准再现屋顶瓦片、玻璃板、光滑的大理石等一系列复杂材料的细节纹理,甚至能够重现建筑物的内外部。
除了所生成的3D模型有高精细度,神经朗基罗的独特之处还在于它的普适性,即用户甚至不需要使用专门的设备,仅凭借智能手机就能完成一场3D重建。
艺术家要完成一个雕像需要三个步骤。首先,通过多个侧面观察物体,以测量其深度、大小和形状等数据;其次,根据测量数据凿出雕塑的主体形状;最后,细致地描绘其中的细节纹理。
和艺术家的雕刻过程相似,神经朗基罗的3D重建也会经历三个步骤。首先,通过不同角度的2D视频捕捉关键帧;其次,根据捕捉的关键帧创建一个粗略的3D模型;最后,利用即时神经图形基元技术优化渲染、表现细节。
二、英伟达放大招,将于CVPR发布近30个模型
英伟达研究院预计将在 6月18日至22日举行的计算机视觉行业顶会CVPR(计算机视觉与模式识别会议)上发布神经朗基罗模型。
除了神经朗基罗模型,英伟达还将在大会上展示近30款模型,覆盖姿态识别、三维重建和视频生成等领域。
其中DiffCollage是一款能够根据文本提示生成视频序列的AI模型,它还可以用拼图的形式,将小图像拼贴为大图像,最终可以生成长景观图、360度全景图和循环运动图像。
结语:神经朗基罗模型2D转3D的重建力,能进一步用于艺术、游戏等领域
正如英伟达研究院高级主管兼论文的作者刘明宇(Ming-Yu Liu)所提到的,神经朗基罗模型这种2D转3D的重建能力将给创作者带来巨大好处,甚至引发产业新变革。
创意人员可以将这些3D物体导入设计应用程序,进一步运用于艺术、视频游戏开发、机器人和“数字孪生”(Digital Twin)等领域。
微软资讯推荐
win10系统推荐