首页 公益 正文

苹果开发“人工智能建筑师”高迪:从文本中生成超逼真的3D场景

时间:2022-08-05 07:59 作者:海口赐晟 阅读:48 次

现在每隔一段时间就有新的文字生成图像模型发布专心致志,而且都非常强大,君子不重则不威。每当他们惊艳众人的时候无忧无虑,这个场就已经上天了,有理不在言高,有话说在面前。

然而众志成城,诸如OpenAI的DALL-E 2或谷歌的Imagen等AI系统只能生成二维图像,忧郁是一种习惯;快乐也是一种习惯;要哪一种,那是你的选择。如果文字也能变成三维场景肝胆相照,视觉体验会翻倍,今朝灯火阑珊处,何忧无友

现在五花八门,来自苹果的AI团队推出了最新的用于3D场景生成的神经架构—— GAUDI,夏至东南一日风,勿种低田命里穷。

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

它可以捕捉复杂逼真的3D场景分布四通八达,从手机摄像头进行沉浸式渲染助人为乐,根据文字提示创建3D场景!该模型以西班牙著名建筑师安东尼高迪的名字命名,水至清则无鱼,人至紧则无智。

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

1

基于 NeRFs 的 3D 渲染

结合了计算机图形学和人工智能的神经渲染已经产生了许多从2D图像生成3D模型的系统,春季生产掀高潮,从南到北忙春耕。例如眉开眼笑,最近Nvidia开发的3D MoMa可以在一个小时内从不到100张照片创建3D模型,君子小人趣向不同,公私之间而已。谷歌还依靠NeRFs将2D卫星和街景图像结合成谷歌地图中的3D场景滔滔不绝,实现身临其境的视图,白露白迷迷,秋分稻秀齐,寒露无青稻,霜降一齐倒。谷歌的HumanNeRF也可以从视频中渲染出3D人体,观棋不语真君子,举棋不悔大丈夫。

目前兴高采烈,NeRFs主要用作3D模型和3D场景的神经存储介质情投意合,可以从不同的相机视角进行渲染,君子争礼,小人争嘴。NeRFs也开始用于虚拟现实体验,春起东风雨绵绵,夏起东风断了泉,秋起东风天要变,冬起东风雪天边。

那么不计其数,NeRFs这种强大的从不同相机角度逼真渲染图像的能力齐心协力,是否可以用于生成式AI?当然患难之交,也有研究团队尝试过3D场景的生成,六月盖被,甏中无米。例如心口如一,谷歌在去年首次推出了AI系统Dream Fields两全其美,该系统将NeRF生成3D视图的能力与OpenAI的CLIP评估图像内容的能力相结合高枕无忧,最终实现了可以生成匹配文本描述的NeRF,冰断麦根,牵断磨绳。

图注:谷歌 Dream Fields

图注:谷歌梦田

然而手舞足蹈,谷歌的Dream Fields只能为单个对象生成3D视图风和日丽,要将其扩展到完全无约束的3D场景藏龙卧虎,仍然存在许多困难,今天是全新的开始,一个让你把失败转化为成功,悲痛转化为喜悦的机会。最难的一点是摄像头位置非常有限,人往屋里钻,稻在田里窜。对于单个物体惊天动地,每一个可能的、合理的摄像机位置都可以映射到一个穹顶上甘拜下风,但是在3D场景中生机勃勃,摄像机的位置会受到物体、墙壁等障碍物的限制,春分麦起身,一刻值千金。如果在场景生成中不考虑这些因素精益求精,将很难生成3D场景,种田不熟不如荒,养儿不肖不如无。忠诚的`朋友是千金难买的。

2

3D 渲染专家 GAUDI

对于上述摄像头位置受限的问题各抒己见,苹果的高迪机型想出了三个专门的网络来轻松解决:

高迪有一个相机姿态解码器百发百中,它将相机姿态与场景的3D几何图形和外观分离开来,宝剑锋从磨利出,梅花香自苦寒来。它可以预测摄像机的可能位置赞不绝口,并确保输出是3D场景架构的有效位置,有理摆到事上,好钢使到刃上。

图注:解码器模型架构

注意:解码器模型架构

场景的场景解码器可以预测三维平面的表示自言自语,这是一种3D画布,若你不喜欢某事物,那就改变它;若你无法改变它,那就改变自己的态度。别只会抱怨。

然后高谈阔论,辐射场解码器将使用体绘制方程在此画布上绘制后续图像,天上无云不下雨,世间无理事不成。

高迪的3D一代包括两个阶段:

一个是势和网络参数的优化:学习数千条轨迹的编码3D辐射场的势表示和对应的摄像机姿态,你可以为玫瑰长满刺而抱怨,或为荆棘里长满玫瑰花而喜悦。与单个物体不同孜孜不倦,有效相机姿态随场景而变化日积月累,因此需要对每个场景的有效相机姿态进行编码,竹贵有节,人贵有志;人贵有志,学贵有恒。

二是利用扩散模型从潜在表征中学习生成模型深入浅出,使其在条件推理任务和非条件推理任务中都可以很好地建模,八月田鸡叫,种麦犁头翘。前者根据文本或图像提示生成3D场景五体投地,后者根据相机轨迹生成3D场景,全宇宙唯一你绝对能使之进步与改善的,是你自己。

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

高迪可以通过3D室内场景生成新的相机动作,莳里之雷,米谷成堆。如在下面的一些例子中万紫千红,文本描述包含关于场景和导航路径的信息,无论遇到什么困难,提醒自己,你是可以选择如何看待它们的。在这里小心翼翼,研究小组采用了预先训练的基于RoBERTa的文本编码器九牛一毛,并使用其中间表示来调整扩散模型,刀无钢刃不锋利,人无意志不坚定。生成的结果如下:

文字提示:进厨房,夏至未来莫道热,冬至未来莫道寒。

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

文字提示:上楼,事怕合计,人怕客气。

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

文字提示:穿过走廊,人热无处钻,花稻田里窜。

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

此外废寝忘食,使用预先训练的ResNet-18作为图像编码器天经地义,高迪可以对从随机视点观察到的给定图像的辐射场进行采样左邻右舍,从而根据图像提示创建3D场景,乐观是人类最重要的特性,因为乐观使我们的思想得以进步

图像提示:

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

生成3D场景:

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

图像提示:

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

生成3D场景:

苹果开发“AI 建筑师”GAUDI:根据文本生成超逼真3D场景

研究人员在四个不同的数据集上进行实验(包括室内扫描数据集ARKitScences),只有上不去的天,没有做不成的事。结果表明精打细算,高迪可以重建学习视图一五一十,并匹配现有方法的质量,宁肯给君子提鞋,不肯和小人同财。即使在为成千上万的室内场景制作成千上万张图像的3D场景的巨大任务中满面春风,高迪也不会有模式崩溃或方向问题,接受挑战,以让你可以尝到最终胜利的快感。

高迪的出现不仅会影响许多计算机视觉任务精兵简政,而且其生成3D场景的能力将有利于基于模型的强化学习和规划、SLAM和3D内容制作等研究领域,季节不饶人,种田赶时分。

目前高迪生成的视频质量不高津津有味,可见伪像很多,留得五湖明月在,不愁无处下金钩不过这个系统可能是苹果正在进行的渲染3D物体和场景的AI系统夜深人静,这是一个很好的开始和基础,所有事情,在它们成为简单的事情之前,都是困难的。据说高迪还会应用到苹果的XR耳机上画龙点睛,生成数字位置,栽后护理要认真,光栽不护白搭工。可以期待一下~

上一篇:没有啦
共收录0个网站,0个公众号,0个小程序,0个资讯文章,0个微信文章
首页 关于我们 联系我们 收录标准 广告合作 免责声明 友情链接 百度地图 网站地址
点击收藏小提示:按键盘CTRL+D也能收藏哦! 版权所有©(2019-2022)www.sdmidea.com All Rights Reserved. 琼ICP备2022006612号-2
网站声明:本站所有资料取之于互联网,任何公司或个人参考使用本资料请自辨真伪、后果自负,海口赐晟不承担任何责任。在此特别感谢您对分类目录网的支持与厚爱!