「我们搞算法的,不喜欢 social……」面对围上来要跟他加微信的媒体同仁们,曹欢欢显出些负担感。
作为今日头条的算法架构师,曹欢欢与一支约百人的算法团队一起工作。在人工智能做资讯推荐的时代,算法对信息把关起到决定性作用。
在这个用户日均停留时长仅次于微信的资讯分发 app 上,超过 6600 万的日活用户每天花超过 76 分钟的时间,阅读新闻资讯、看短视频,吃着他们感兴趣的 feed,用实际行为告诉机器,「我订阅了这个频道,我喜欢看这个」,「那个我不感兴趣,刚点进去我就跳出来了」。
深度神经网络的发展成熟赋予了机器深度学习的能力。「机器知道我是今日头条员工,难道就整天给我推荐今日头条的信息了吗?算法不是那么简单的,几百亿的变量被引入到各种模型中。」
「如果用户不喜欢某条资讯,只要点击卡片底部的叉号就可以了。」据曹欢欢解释,交互行为对「算法的调教」起关键作用。「可以给你看下,已经被调教得很好的今日头条 app 是什么样子的」。
曹欢欢给极客公园展示了下他的「隐私」:一个拜仁球迷的今日头条 app 首页。
根据今年 8 月易观国际披露的数据,2016 年是一个分水岭。在资讯信息的分发市场上,算法推送的内容将超过 50%。
它可以判断什么信息是重要的。机器甚至准确生产一些主观情绪和创作力要求较弱的内容,比如奥运赛事报道。
算法力量已经在人们生活中真实发生,机器正在加剧「高低手」之间的鸿沟。「机器不仅会取代那些流水线上的员工,还能够包揽医学、律师等行业里那些不接触人的工作,比如律所里前期需要做的,相似判例的收集工作。」上海交大媒设学院 m-lab 主任魏武挥提到。创意、评论……那些关于「能动性」竞争力的构筑,似乎上升到了前所未有的位置。
以下是今日头条算法架构师曹欢欢 12 月 2 日在第七届财新峰会上的演讲,极客公园略有删改。
我今天分享的题目是,人工智能时代的信息分发革命。这两年大家都能感受到有一个概念很火就是人工智能。为什么这两年很火?人工智能是一个五六十年代就被人提出来的概念。历史发展经历过很多次波折,有高潮有低谷,最近两年的话,特别是深度学习的进展,使得人工智能技术在很多应用领域产生了突破,很多原来人们的愿景正在变为现实。所以它近两年非常火,是因为它对很多行业产生了实实在在的影响。
我来自今日头条,今日头条实际属于信息分发的行业,今天就我的了解讲一讲人工智能时代对信息分发行业产生的变革,或者说大一点我们叫做,革命。
20 世纪信息分发行业经历了很多技术变革,我们发明了非常多到现在还有巨大影响力的技术,比如广播、电视、互联网,互联网其实是诞生在 20 世纪 70 年代,这些强大工具对信息分发行业产生了翻天覆地的改变,古代的信息分发是小圈子的事,是知识分子、精英群体的事,但是现在这些技术的出现,把大众卷入了这个行业,让行业的影响力变得无以复加的大。
但当回顾信息分发行业过去光辉历史,我们发现,从某一个维度上这些所有的历史变革其实是同质的,它和近两年人工智能对行业改变来比,还没有人工智能我们现在最近的这一波革命影响深刻。为什么这么说?我们看到过去信息分发形式的变革,无论是从声音、口口相传变到文字,再变到报纸有一些出版的东西,再变到有网络有网站,虽然媒介形式不断的演进变得更加强大,信息分发权力一直没有转移,这个权力还是在人手里,往往是一些非常资深的从业者来控制内容的分发。但是在机器智能算法时代,机器慢慢辅助甚至开始担当主角。所以从这个角度来讲,过去所有历史好像真不如最近这波历史对行业影响大。
甚至不止分发,近两年有一些写作机器人,在创作方面智能算法、人工智能也在对信息分发行业创作环节进行一些影响。
我们先来简单看一个新闻报道,这是上半年的新闻报道,第三方监测媒体发布了具有里程碑意义的数据:基于上半年数据预测,到下半年整个内容分发市场将近一半分发量都是由机器控制的。我们经常说量变引起质变,50% 是非常重要的分水岭,机器正在接管人类控制内容分发,这是很重要的事件。
我们聚焦看一下过去十几年,在互联网时代,在互联网技术时代产生了怎样一个变革?
我们首先回顾一下,在互联网时代最主要的几种信息分发的形式。在门户时代,主编决定了你这个网站应该放什么内容,但这样很难满足用户个性化的需求,而社交网络满足了这方面的需求。Web2.0 时代产生一个很大变革,社交媒体和社交网络的兴起,让去中心化的方式开始流行。但是它也有一些问题。这导致最近几年,从 2012 年开始,智能算法大踏步进入这个行业并且改变这个行业。
为什么这个逻辑是这样的?为什么智能算法弥补了之前形式的缺点。我们看一下门户的优缺点。门户优点很容易理解的,有很多资深媒体人控制内容展示,它的质量相对有保障,但是分发效率比较低。人的工作效率是比机器低的,你不可能要求一个东西出来之后,它很快完成判断和分发。另外就是它的这种形式,它的版面有限,每天最多放几百条更新内容,最多上千条,太多的话,很多很长文内容需要放在很深的页面层级里,用户很难看到,没有流量,你触达不到用户,生产出来也是没有意义,性价比太低。
社交媒体和社交网络一定程度上弥补了门户在这方面的缺陷,是可以做到内容的个性化分发,因为你在微博订阅了不同的大 V,或者微博里你关注了不同的人,每个人圈子不一样,你看到内容也是千人千面的。但它有一个问题,就是信噪比也比较低,你关注一个大号未必这个大号每篇文章都很喜欢,你不关心他们晒娃去哪玩了,你可能关心他生活的某一面,这个问题朋友圈解决的不是很好。
这时候轮到我们智能算法出场了,智能算法既能解决个性化问题,分发效率又很高,机器它自己算得非常的,然后可以解决信噪比比较低的问题,因为它可以利用一切你可以利用的信息。智能算法不排斥社交网络,今日头条一直探索更好的用户之间的社交关系,这个社交关系对于捕捉你兴趣爱好你的偏好非常有用,它的特点在于一切能用的信息都拿来用,它是一个超级专家分析你的偏好,给你推荐你感兴趣的内容。
它的问题在哪?这个也不算是问题,算是壁垒,它的壁垒在于数据,你需要很多数据你这个模型才能变得很聪明,这个决定了行业的比较高的门槛。今日头条赶上了互联网的红利,迅速积累了很多用户。很多传统媒体甚至都找过我,我们能不能也做一个类似的?我很不好意思说,抱歉,这个事真的不能复制,你现在要去做你数据劣势很明显,你很难短时间内有相同的效果。
刚才说了很多今日头条,中国有一句老话叫做一枝独秀不是春。除了头条以外这个行业其他的伙伴或者这些竞争对手怎么做的?他们也都在纷纷拥抱智能算法,拥抱人工智能。无论是百度还是 UC,只要跟信息分发沾边的工具它都会做算法推荐,这个东西已经成为行业的大势。我们看一下国外,国外这两幅图,其实 Twitter 和 Facebook 这两年股价变动的趋势。我们看到很有意思的两个新闻,一个是 2013 年的,Facebook 2013 年开始尝试用算法帮你排序,而不止是用时间帮助你整理这些数据流。Twitter 比较保守,在 2016 年尝试用算法改变你时间流,原来一直严格按照时间排序的。对应这两个事情看这两个公司股价变化,一个公司对智能算法拥抱的程度,对于投入到技术变革中紧迫性和公司走势有一定关系的。
前面介绍了很多背景,接下来我们分享一点干货。
首先,最重要的,智能算法去做智能分发的核心逻辑是什么?这个因为今天一个是时间所限,咱们不是技术论坛,我会尽量减少技术细节的介绍,介绍基本的逻辑。
信息分发利用智能算法来做基本逻辑就是打分器。输入用户的兴趣标签,你是对数码感兴趣还是科技,你是对某一款数码相机感兴趣,你喜欢奔驰还是宝马,这是兴趣标签。
第二个维度情景维度环境特征。你在办公室,还是在家,是休息日还是工作日,是早晨还是晚上,还是说去了一个你从来没有去过的地方,你可能在出差还是旅游,这对于找到你当时兴趣都是有帮助的,这一类我们归为情景维度。
第三类维度是打分器的输入,最重要是内容维度。推荐给你的内容候选,它讲的是什么,主题是什么?热度怎么样?哪些人群比较受欢迎,是财新网发的,还是 21 世纪经济报道发的,这些都是有用的。这三种数据进去最后输出一个数,你喜欢这个内容的概率。这个最简单的函数,这个函数的工程实现非常复杂,但是它的逻辑可以很简单用这样一个函数概括,有这样一个函数任何人来了我们知道他的情景信息,我们可以把几百万的内容库看一遍,哪些分比较高,分高的就给你,机器逻辑非常简单。
我们有这样一个打分器,输入怎么来,人的内容怎么来?假设我们了解一个内容的语义标签,这个人经常看这类东西,这个标签就有分;你老给他推荐,他不看,这个分就是负分。这是快速的工程实现,稳定性,数据积累的速度。
但是这个基石其实是内容标签怎么来?我们分别讲一下怎么用人工算法帮助我们提取内容的标签,这块分成文本内容的分析和图片的分析,文本内容也是函数,你给它一串字符串,机器你就是一串字符串,来了之后第一个提取关键词,第二个把它分类,分类在大的内容推荐引擎里面,内容分类很复杂,可能有几百个、上千个,一层一层的。顶层可能是科技、财经,在财经里面有股票、宏观经济,在股票里面有美股、港股。我们还要抽取实体,这个实体对推荐人很重要。
图片也是类似的原理,拿到图片我们也要分析,图片标签和文本标签我们一起使用,做一个内容的推荐,包括视频标签也可以从一帧一帧图片中抽取一些有意义的信息。对于反作弊行为,包括识别广告和色情内容,图片分析也非常重要。
在信息分发核心流程里智能算法的应用案例,我介绍几个我们正在做的、未来机器在创作环节可能做的事情。我们有一个写稿机器人,在里约奥运期间测试上线,奥运期间这个机器人自动发了 100 多篇稿件,累计阅读超过 100 万,它很多稿件的点击率比同样的话题的记者写的点击率还高。
另外一个可以做的,就是视频的封面自动选择。今年算是短视频的爆发之年,短视频又是一个风口。怎么选一个好的封面很重要,在平台上的推荐效果方面,不同封面对点击率影响非常大。这块人去做可能完全凭经验,我们想能不能靠机器做这件事情,我们根据有经验人的行为,学习到这个模式,提供一些建议,给你一些候选,最终的决策权在作者自己手里,因为你对你自己的内容更了解,你不仅要考虑点击率,你可能要考虑你的调性,是不是符合你受众对你的期待。
另外做的有趣的事就是,算法自动生成视频集锦,这块也是去应对现在短视频的浪潮,有很多长视频的内容没有足够人力把它剪辑出来,把它变成适合在短视频分发平台上传播的形式,机器有可能把这件事做得更好,可以规模化,更有效率地做这件事。
我的分享就到这里,谢谢大家的时间。
图片均由今日头条提供
(编辑:向想想)