产业界
几位来自人工智能行业的专家分享完毕后,主持人把问题抛给苏州市广播电视总台总工程师郭昌雄:“他们把人工智能描述得这么好,您对‘人工智能+媒体’有什么期待?”
“现在已经有机器人写稿了,但是还没有机器人可以真正的编视频。”在近日开幕的2017媒体融合发展论坛上,作为广播电视界的媒体代表,郭昌雄说出了对人工智能的“另一种”需求。
的确,人工智能可以写体育赛事、写股市消息,甚至播报九寨沟的地震,但是在新闻领域,它需要做的可不止这些。
已经有媒体开始探索将人工智能应用于视频处理。“现在媒体素材面临的问题是,如何对视频画面进行自动描述,为以后的检索使用提供便利。比如在海量视频数据中自动把关于花草树木的视频找出来。”郭昌雄说,这必须考虑人工智能。
苏州市广播电视总台能够实现的是,将长达17万小时的视频资源,用人工智能进行自动编目。也就是按照国家视频编目标准,对视频中的关键帧进行识别和定义。除此之外,这家媒体还实现了利用人工智能对视频资源进行高速检索,甚至可以将新闻类视频按照内容自动剪切成一段段的短视频。
“我们最近研发了一个视频索引技术,把人工智能对图像、语音、自然语言的处理,全部融合到对视频的处理过程当中。”微软(中国)有限公司资深架构师罗彤介绍了人工智能界的努力。其效果是,可以自动识别视频中的特定人物,并将其作为索引加以标注。同时还可以将视频中的对话识别成文字,再通过关键字识别对视频内容进行定义。
对于郭昌雄的期待,商汤科技高级研究总监张伟回应,他们公司正在探索视频摘要技术,也就是把长视频中的精彩镜头剪辑出来,供观众快速浏览视频。“这样的技术进展很快,半年之内就可以落地。”张伟说。
罗彤告诉科技日报记者,人工智能对视频进行处理,本质上都是对图像进行处理,因为视频本身是由若干帧图像组成的。目前能够做到的识别视频中的人物,一般依靠人脸识别技术,以及对人物体态的追踪来实现。一些媒体尝试的对视频关键帧的定义,靠的则是人工智能对视频场景转换规律或画面主要内容的判断。对视频进行摘要的原理与此也有类似之处。
“这些视频处理是非常局部的。”罗彤介绍,理论上可以通过训练深度学习网络模型,用特定方法来对特定类型的素材进行整体上的剪辑。但是这种剪辑方式并不具备“普适性”,换一种素材或剪辑方式,就需要重新训练网络模型,这正是目前人工智能技术存在的不足。
另外,正如人工智能处理语言文字时会遭遇语义理解的难题,人工智能在处理视频时遇到的困难是:如何理解视频画面所传达的内涵,甚至根据画面的上下文把握视频的“画外之音”。
“这个确实非常难。”罗彤承认,通过视频素材来讲故事并表达一定的思想和主题,与艺术创作类似,是人类高智力的表现。“让人工智能做到像导演和视频剪辑师一样,恐怕还很遥远。”