演讲实录丨李岩:AI 技术贯穿于快手的产品骨髓之中

  • 日期:09-01
  • 点击:(1212)


5月25日至26日,由中国人工智能学会主办,南京麒麟科技创新园区管理委员会和京东云共同主办的2019年全球人工智能技术大会(2019年GAITC)在南京紫金成功举办山庄。在人工智能与媒体融合前沿论坛的第二天,快速内容技术多媒体内容理解部门负责人李岩发表了题为《媒体融合:内容与技术的融合》的精彩演讲。

李燕快手技术多媒体内容理解系主任

以下是李岩的演讲:

我的分享分为三个部分。第一部分介绍快速手;第二部分介绍了AI技术如何帮助用户提高视频创作质量,降低创作门槛;第三部分介绍了AI技术如何理解视频,理解用户并分发它们。

首先,什么是快手

Quick Hands是一款以社区为基础的产品,将自己定位为记录生活和分享生活的普通人。它可以帮助人们通过短视频,照片和现场直播来记录他们的生活,这样每个人都有机会被世界所看到。走向更广阔的世界。

快手诞生于2011年,今年8周年,目前DAU已达2亿。 2011年,GIF是动画制作的工具;在2013年,移动互联网的兴起,我们看到了短视频的重要影响和作用; 2013年7月,将基于工具的产品转变为短视频社区。在短视频社区转型后,快速数据实现了指数级增长。 2015年1月,每日用户数突破1亿。截至今日,每日用户数已达2亿。在中国的互联网市场,很少有APP拥有2亿用户。随着数亿用户积累数年,现在我们的社区录制了超过100个短视频,每天增加1 500个短视频,四年前只有几十万。

在快速的手中,用户记录了世界的各个方面,这里有许多真实而有力的生活,其中一些我们在大众媒体中看不到。例如,鸭绿江的人们正在运输木材,并将木材沿着水从山上运到山脚下。这种古老的水运方法鲜为人知,数百万人在快速的手中已经注意到了这一点。城市建筑工地上还有一个“水鬼”。这个职业非常小,但一线和二线城市的每栋高层建筑都需要它们。在建造高层建筑物以建造地基时,有必要使用电钻挖掘数十米的深坑。钻头失去了泥泞的泥浆,需要他们潜入深坑并将钻头恢复到原来的位置。

普通用户记录的生活超出了以往记者或专业人员调查的范围。数亿人正以快节奏的方式记录他们的生活。有世界各地的当代地图,世界各地的田野风情,以及用户记录的各种旅游生活。还有来自清华大学和全国人大的教授来解释知识。传播,这些图像聚集在一起,成为我们当代生活的清晰河流地图。

其次,AI可帮助用户以更低的成本创建更高级别的视频

AI技术如何帮助这个短视频产品做得更好。 AI技术在快速增长的产品中使用,用于视频制作,视频理解和用户对视频推荐的理解。

在视频创作过程中,我们希望每个人都能成为自己生活的导演,使用手机录制自己的生活,并制作相对高质量的视频。我怎样才能帮助每个人成为自己的导演?在视频创建过程中,AI技术被广泛使用,并且技术被用于使普通用户能够使它们尽可能接近专业视频制作的水平。

我们希望允许用户以更低的成本创建更高级别的视频,这需要AI来帮助内容制作。

例如,快手之前的线上的神奇表达被称为“Quick Time Machine”,用户可以在几秒钟内看到变老和变老的过程。一个人拍摄自己的视频非常繁琐。我们希望用户可以在他们长大后体验他们的外表。

另一个例子是将AR技术应用于用户的视频捕获,在现实生活中添加一些虚拟元素。这是增强现实,使虚拟世界和现实世界更好地互动,使人们有更多记录自己的生活。新奇的体验。

再举一个例子,我们将使用与图像相关的算法来帮助用户纠正拍摄过程中出现的视频问题,例如由脏镜头引起的模糊视频图像,由光照问题引起的暗淡图像以及色偏。

这些游戏和功能的背后是尖端AI技术的快速发展,涉及多种技术模块,如人体姿势估计,手势识别和背景分割。这些是使记录格式更有趣的新尝试。

这里存在一个挑战,必须在手机中实时计算和呈现上述技术。快速用户拥有数以亿计的手机用户,他们的模型差异很大。这要求我们的算法必须在所有模型上平稳运行。这需要非常高的AI功能并消耗计算资源。为了解决这个问题,YCNN深度推理学习引擎自行研究,解决了AI技术的运行受用户设备计算量限制的问题。

在音频方面,我们也做了很多工作。例如,当专业人员创建视频时,编辑字幕非常痛苦。语音识别技术现在可以帮助视频制作者自动添加和编辑字幕,并且可以以各种形式显示字幕,大大降低了使用AI技术生成字幕的成本。

音乐在短视频场景中起着非常重要的作用。据统计,60%~80%的快速视频视频使用背景音乐来掀起气氛。如何选择合适的音乐来表达你的心情并不容易。让用户尝试匹配音乐的节奏来创建动作。对用户的要求非常高,很少有人有强烈的音乐感。

为了降低用户在创建视频时选择音乐的门槛,我们开发了一种智能音轨和AI技术来生成音乐。智能声道可以根据视频屏幕和用户肖像为用户推荐合适的视频屏幕,以便用户可以选择喜欢的背景音乐。 AI通过AI的分析算法生成音乐,可以感知视频图像中的人体运动,然后让生成的音乐节奏与人体运动相匹配,大大降低了用户在创建视频时选择音乐的门槛,让每个人都更加乐观愿意创建自己的视频。

第三,使用AI来理解视频,了解用户并分发好

上面分享的是AI技术如何降低手动创建短视频的门槛,以便普通用户可以创建高质量的短视频。用户创建并上传到社区后,我们如何更好地分发这些视频?

理解视频非常复杂,分析面部的纬度,分析场景类,分析音乐课等,所有这些都是从单一角度建模的。事实上,视频需要多模态分析。我们需要使机器有效地判断用户上传的视频是否符合规则,确定视频内容是否是原创的,并且做到准确地将视频与对其感兴趣的用户匹配的技巧。

让机器帮助我们管理上传的大量视频,并帮助我们为视频提供建议,推荐给用户的视频可以激发用户的兴趣。它还涉及用户理解,即让机器了解我们的用户,包括了解用户的社会学特征,以及用户的兴趣,包括他的短期利益和中长期利益,以及大量具有代表性的用户特征。较小的矢量。

在视频分发中,我们不希望头部的视频内容占用太多曝光。我们使用经济学的基尼系数来控制平台上“用户之间的巨大差距”。互联网上的关注资源非常有价值。我们希望这种宝贵的资源可以分发给普通人,而不是聚集在少数头像用户身上,如聚光灯。因此,设计了快手的推荐机制,无论它是否为明星。或者普通人在快手中是一样的。快速关注制作人的利益,注意长尾视频内容的分发。我们希望所有向太阳制作视频的用户都可以投入关注资源,让普通人有机会被更多人注意,感受到关心和认可的快乐。

通过短视频录制将人与人连接到世界。我们认为建立这种联系非常有意义。我们每个人的深度都是孤独的,我们都希望得到关注,认可,并通过联系结交朋友。因此,快速用户之间的关系会更粘,更稳定。总的来说,它可以增强网民之间的信任。

(本报告基于简写)

CAAI原创丨作者李妍

禁止复制和翻译未经授权

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

——