您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识
yanni(你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕瞅你)
物体,视频,照片yanni(你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕瞅你)
发布时间:2016-12-08加入收藏来源:互联网点击:
钛媒体注:本文来自于微信公众号浅黑科技(ID: qianheikeji),作者为木子Yanni,钛媒体经授权发布。
比「改编自真实事件」更震撼的,是直接站在真实面前。
前段时间,一位叫做大谷的 90 后北京小伙儿,无意中看到了一段拍摄于 1920 年左右的珍贵影像视频,他灵光一闪,借助科技的力量,用人工智能对视频进行了修复,让我们有幸目睹了 100 年前北京城真实的烟火气。
街道上,行人、车马交错而行,《骆驼祥子》里的黄包车穿梭而过;如今要深入沙漠才寻得到的骆驼,正驮着货物稳步走在大街上;小小的院儿门口,有催促孩童的动,也有挑担卖货的静,甚至在 30 秒内,就上演了三种不同的问候方式;与现在不同,那时街上悠然闲逛的大多都是男性;一个转头,还能瞅见街边兴致盎然接力逗狗的老哥。
三种问候 ,截图来源于YouTube:人民日报
没想到,时隔月余,大谷的“老北京 Vlog”第二弹又来了。
这一次修复的视频,拍摄于 1928 年前后,与第一弹视频仅相隔 10 年,却能明显看到变化:十年前,人们在街头看到摄像机时,或盯住几秒钟后仓皇逃开,或原地看呆逐渐石化,或因好奇而一步三回头,想看又不敢看。
众人惊呆相,截图来源于YouTube:人民日报
十年后,在小院儿里剃头的随便一位路人小伙儿,都能神态自若的对着镜头,潇洒的拍拍自己刚剃好的头,用地道的老北京话反复念叨着:“不错、剃挺好,不错、剃挺好...”
“不错,剃挺好”,截图来源于B站:大谷的游戏创作小屋
街边一拥而上打午饭的孩子们,眼睛盯着摄像头,等着端饭的手却丝毫没受影响:吃饭最重要,害怕?不存在的。
“我也要、我也要”,截图来源于B站:大谷的游戏创作小屋
你再瞧这个舔碗的靓仔,是不是跟你小时候如出一辙?
“真香,还想要...”截图来源于B站:大谷的游戏创作小屋
此外,视频中还有摩肩接踵的集市、街头的民俗乐队等场景,一个熟悉又陌生的年代,瞬间跃然于眼前。
古人不见今时月,今月曾经照古人。
你站在街上歪头瞅摄像机,我在 100 年后隔着屏幕看你。视频中的他们,见证了历史,而我们正在回望,如果要说遗憾,大概是模糊的画面,遍布历史划痕;黑白的色调,失了时代本色。
于是,大谷利用人工智能,从三个方面对视频进行了修复。值得一提的是,第一弹视频中的声音,是用素材后期配的,而这一次的修复,全部都是时代原声,有兴趣的话,各位可以去看完整版视频(比如 B 站搜索「大谷的游戏创作小屋」)。
接下来,我们一起来看看,当你在看修复版视频的时候,视频到底修复了些什么。
(一)顿顿顿顿顿如果你看过早期的影视作品,比如 83 版射雕、86 版西游记、94 版三国,大概率会有这样的感受:明显看到画面在跳动,仿佛摄影师得了帕金森一般。
为什么会这样呢?
我们需要先弄清楚一个问题:当你在看视频时,你看的到底是什么?剧情、演技,还是中间插播的广告?都不是。
其实是一连串图片。
我们现在看到的电影,绝大多数都是 24 帧,意思是每秒由 24 张图片组成。电影在播放时,24 帧既能保证你看到的画面是流畅的,也能恰到好处地继承优良传统:最初,电影拍摄离不开胶卷,虽然帧数越多,细节表现就越好,但每一帧都是钱啊,经过认(扣)真(门)对比,优秀的电影人发现,24 帧是性价比最高的选择,既不会浪费胶卷,画面的流畅度也能达标。尽管如今已经是数码时代,但 24 帧的传统依然保留了下来。
如此看来,老旧视频卡顿的问题就有答案了,因为帧数不够。刚才有提到,要想画面流畅,每秒就不能少于 24 帧,而老电影是低于这个数字的,比如大谷修复的那部 100 年前“老北京 Vlog”,帧数都在 10 以下,用我们已经娇生惯养出的好莱坞大片观感来审视,只能是囫囵吞水,“顿顿顿顿顿”。
帧数不够,补帧来救。但要清楚一点:因为补出的帧,原本是不存在的,所以补帧需要依靠想象力。
传统的补帧方法主要有三种:帧采样、帧混合,以及光流法。看到这儿,有句话恐怕要应验了:专有名词一出现,吃瓜群众走一半。其实,Duck 不必,我们逐一来看。
第一种,帧采样。是指把前一帧复制到后一帧,简单来说就是 112233。
第二种,帧混合。是指在前后两帧中间合成一个新的帧,同时调整新合成帧的透明度,做出画面过渡的感觉,也就是1、1.5、2、2.5、3。
第三种,光流法。什么是光流呢?当一只蝴蝶从你眼前飞过,蝴蝶的移动轨迹会在你的视网膜上形成一连串变化的图像,仿佛光在流动,于是,你就看到了蝴蝶的飞舞路线。换句话说,光流有记录物体位置移动信息的能力。光流法补帧,就可以简单理解为,找到物体在相邻两帧之间的位移,在位移中补出中间帧。
举个栗子,我们看下面这张图,假设物体在帧 1 中的位置是 1,在帧 2 中的位置是 3,在帧 3 中的位置是 5,那么,根据光流确定相邻两帧中物体的位移情况,就能在 1 和 3 中补出 2,在 3 和 5 中补出 4,这样一来,原本 3 帧的视频就补成了 5 帧,看起来,物体的运动就会流畅很多。
运动物体的光流
以上这三种补帧方法,在物体处于平移状态的时候,效果比较好,但是,如果物体处于旋转跳跃不停歇的状态下,效果就要大打折扣了。比如一只正在跳旋转舞的小熊,上一帧你还只能看到臀部,下一帧它的小短尾巴就出现了,像这种上一帧没有、下一帧突然出现的情况,传统的补帧方法就不太好用了。
另外,在补帧的时候,还有一种非常难处理、但又非常常见的情况,就是有其他物体乱入,导致目标物体被遮挡。
比如你在海边想给女朋友拍一段冲浪的视频,但海里都是人,不停有人挡在你女朋友面前,这种情况下,如果你后期想把视频从 24 帧补到 30 帧,就非常难,你想,软件正在专心脑补你女朋友的冲浪动作,一位路人甲突然出现,把软件的预测给打断了,画面就会出现一种情况:叠影。
叠影大概就是这样,你感受一下
针对这种复杂场景下的补帧,AI 的优势就显现出来了。
在修复 100 年前的“老北京 Vlog”时,大谷用到的 AI 工具是 DAIN (Depth-Aware Video Frame Interpolation),中文名叫做“深度感知视频帧插值”,这是一个开源的人工智能补帧软件。它的优秀之处在于兼顾了光流和深度,不但能准确追踪物体的位置移动,还能检测到物体遮挡。光流刚刚已经讲过了,这里再来说说物体遮挡检测。
DAIN 的架构图
你眼中的视频是平面的没错,但视频中的世界却是立体的。DAIN 利用算法,可以猜测出每一帧中不同物体的深度信息,根据深度的不同,AI 就能知道是谁遮住了谁,接下来,根据“遮挡物近、被遮挡物远”的原则,就能较为精准地确定画面中物体的边缘轮廓,避免出现叠影,从而产生更好的补帧效果。
下一篇:返回列表
相关链接 |
||
网友回复(共有 0 条回复) |