9d5a7b314b8f0f1e340cb198deb5970c
[核心提示] 所谓的大数据预测,究竟准不准,这些预测结果是怎么来的?

像年终总结报告一样,每到年底,关于 2015 年的预测也相继涌现出来,亚马逊前不久预测 2015 年网购热销排行榜,大胆提出明年热销第一名是智能手环等智能硬件。

必应的预测团队也为未来的新趋势描绘出具体的画像,从时尚潮流,体育,美食,旅行等,不一而足。必应还预测在 2015 年,Apple watch 无论是在北美、欧洲、南美还是亚太地区将成为热卖第一名。

这些预测究竟准不准,要等到 2015 年过去之后才能知晓,不过按照以往的经验,必应在世界杯上的猜想都得到了证实,在今年的世界杯上,微软必应预测引擎在世界杯的预测全部正确,包括世界杯决赛中德国战胜阿根廷。

你负责检索,我来预测

必应的核心排名小组的研发经理 Walter Sun 在2008年的一个冬天偶然发现,在相同时间一个特定的区域,对于一些特定学校区域的查询会突增,他意识到,这可能预示着暴风雪天气的到来。因为人们通常会在查询当地的学校会不会在暴风雪天气下停课。通过这些访问查询,Sun 就可以在不看天气预报的情况下,精确地估计到暴风雪天气发生的时间和地点。

随后,Sun 开始建议将这种预测用于其他电视节目上,特别是投票选举中,几个月后,必应预测就上线了。自从问世后,它就一直精确地预测着每周美国偶像的结果。

如今,必应预测还将其注意力放在世界杯上,除了依赖整体数字外,必应还需要更多相关数据,比如,比较不同队伍之间的竞争优势并且权衡专家的意见。

据了解,在世界杯上,必应预测引擎所给出的结果是通过数据模型产生,其综合的因素包括过往比赛结果、比赛时间、天气情况以及主场优势等,并通过微软的个人语音助手 Cortana 和必用搜索引擎发布。

必应还曾经借鉴了 David Rothschild 的预测,他一度精确预测了世界杯的战况,Rothschild也正在开放 API 数据,好让必应预测可以获取到。

在严肃领域,数据预测真的靠谱吗

流行病学家想像气象学家预测天气一样预测疾病,在他们看来,人们浏览维基百科的过程也会是一个重要的线索。

亚特兰大疾病防控中心的 Hickmann 和同事就通过分析维基百科的数据来了解疾病,原理就是,人们对和流感相关的文章的浏览变化会成为疾病扩散的一个重要预测指标。

由于维基百科公开自由地将其资料面向任何利益群体,所以对于预测未来来说,这是一个十分透明的信息来源。

资料的公开透明对于疾病的预测来说很重要, Hickmann 之前曾想过利用 google 上的数据来预测,因为在其搜索引擎中产生了大量的相关搜索。但是一个潜在的问题是,谷歌并没有将其数据公开,缺乏透明性可能会给这类研究预测带来一些麻烦。

Hickmann 和他的同事分析了维基百科上前些年与流感相关的文章数据,他们将这些数据收集起来,训练机器用算法在这些文章数据和流感疾病的数据建立联系。然后,他们让算法去“预测”历史上流感发生的情况。

令人欣慰的是,两周后,疾病控制中心的人员发现,维基百科上的数据和历史上真实的流感纪录有着很高的相关性。这样,预测未来的流感数据也是可以实现的。

但是可能存在的一个问题是,这些预测可能低估了疾病后期的感染的人群规模,因为人们再次感染另一种流感病毒时就不会再去维基百科了,所以研究人员也承认 ,在流感季的高峰期过去后的预测没法完全精确。

这类研究还包括通过观察人们在谷歌上的搜索来预测股市情况等。我们每天在了解的信息汇总起来产生了数万亿次搜索。搜索的数据蕴含着无数的价值,预测也许只是其中一部分。

Bing维基百科

已有1条回复我要回复

Default avatar
极客漫游者·2014-12-26

高啊


Default avatar