今日头条的引擎是怎么样工作的？

发布时间：2017-02-25 02:47:34 所属栏目：评论来源：雷锋网

导读：副标题#e# 把媒体内容分发给用户，“你关心的才是头条”，对于今日头条这个产品，相信大家都不陌生。那么，你是否好奇过，今日头条是如何做到，向每个读者推送不一样的、据称是符合读者每个人不同兴趣的内容的呢?今日头条算数中心执行总监刘志毅在日前于深

副标题[/!--empirenews.page--]

把媒体内容分发给用户，“你关心的才是头条”，对于今日头条这个产品，相信大家都不陌生。那么，你是否好奇过，今日头条是如何做到，向每个读者推送不一样的、据称是符合读者每个人不同兴趣的内容的呢?今日头条算数中心执行总监刘志毅在日前于深圳北京大学汇丰商学院举行的“数据之美”论坛上做了介绍。

首先，数据从哪里来?

虽然对于头条来讲，其用户量、用户的粘性时间已经足够大了，但是，要怎么样精细，怎么样的数据才是可信赖的，怎么样的数据是可复用的?

对于数据所产生和获取的流程，今日头条算数中心执行总监刘志毅抛出一道小问题来介绍：

现在面前有很多颗糖果，然后有两个人要把这个糖果的数量数清楚，有一个人他会加减乘除地来数， 3 颗 3 颗数， 5 颗 5 颗地;还有一个人就很笨，只会一颗一颗，永远一颗一颗地数，那问一下，是哪一个人能够先把这一大堆糖果数清楚啊?

事实上，按正常的逻辑确实应该回答“第一个”的，“但是在互联网公司，答案是第二个，因为虽然是一颗一颗地数，但他一秒种可以数一万个，所以他更直接更快速。”这是机器学习发展到今天的成果，机器分发的效率一定大于人工分发。在 2016 年的年终，易观发布的第三方数据显示，如今机器分发的比例已经超过了人工分发。

今日头条的引擎是怎么样工作的？

分发糖果与分发内容逻辑是一样的。那么，这背后，头条具体的引擎是怎么样工作的?这时候需要把文章和用户两端的数据连接起来。

据刘志毅解释，

首先文章进入机器引擎后，头条需要机器识别它们的关键词，识别其涉及到的内容领域，用户对它们的反应，然后把结果放到一个特征向量空间中。
与此同时，用户端也发生了同样的变化。

“然后我们去看这两个向量，怎么样匹配度最高，然后就推送给他。”

具体来说，这些用以匹配的数据变量可能包括几个大方面的特征：

首先，这个用户，他的性别兴趣，年龄地域用的手机是什么?
家乡是哪里?关注什么东西?会点什么样的广告?
然后他目前处在什么样的环境?今天有没有下雨?用WiFi还是用3G，4G，2G?
这个文章本身是一分钟之内的快消息，还是几年之内看都不算失效的消息?用户的反馈对他们是什么样?
这个文章有什么样的关键词……等等

这些数据将产生一个百亿级别的特征，今日头条最终根据特征判断用户的需求，把内容呈现到每一个人不同的手机屏幕上。

今日头条的引擎是怎么样工作的？

但是，这还不是最技术范的地方。数据部门真正做的事情是，“从刚刚所描述的这个过程中积累出来一些东西，然后让他去发挥价值，”刘志毅说道，这才是数据挖掘的价值所在。

“这只是我所想要表达的数据维度的1%，”

用户点击什么文章?没有点击什么文章?
点赞还是点踩?
阅读速度快不快?完成多少比例?
对某一个话题产生了持续性的还是短暂的影响?读完之后有没有讲到什么评论?
那他用的是什么样的手机在读你的东西?是什么样的手机的什么型号?去年用这个型号，今年是不是还用这个型号?
……

刘志毅称，“这样的信息都会作为这个用户的组合特征的一部分，然后我们去提取这一部分来把它作为数据的样本进行分析。”

（编辑：淮北站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

AI如何才能取得制造业	读书类短视频能不能引
蓄势待发！小米12三机	小米12有望获取首批高