找回密码
 注册加入

扫一扫,极速登录

QQ登录

只需一步,快速开始

搜索
查看: 1785|回复: 0

百度技术问题白皮书:海量数据尽收眼底

[复制链接]
发表于 2012-12-13 14:47:46 | 显示全部楼层 |阅读模式

相信大家都有过这样的经历:当你在淘宝搜索一件商品时,会呈现出各种不同的款式,选择购买哪一款商品就会成为人们所困扰的问题。这时候,产品的销量可能会成为选择购买的参考因素。这种小范围的数据展现在生活中屡见不鲜,也为生活带来了不小的便利。试想,如果能够在互联网的海量数据中实现数据的图像化、可视化,将其尽收眼底,那将会是怎样一个奇妙的视觉大餐呢?

互联网的海量数据一直存储在后台的数据仓库中,通常人们在制定各种策略时,往往都需要从海量数据中寻找规律,评估策略的效果和影响,然而这些数据却缺乏有效地展现机制。这就如同一家餐厅,尽管可以做出饕餮盛宴,但是如果没有菜单把其展现出来,也无法令顾客品尝到这些美味佳肴。由此可见,实现互联网海量数据/信息的可视化是促使互联网发展的关键之一。

那么如何能够实现如此巨大数据的可视化呢?这个问题经过近10年的研究发现:互联网数据往往是以简单的文本形式存在于网页库、链接库以及各种日志信息中,人们很难直观地发现数据中的关联;同时,人们的策略可能是很复杂的规则或机器学习模型,难以直观地看出它们的效果、影响面,以及可能的负面效应。这里我们可以通过“美国总统大选”的例子来体会数据可视化的重要性。

美国大选的全国选民投票在选举年的11月第一个星期一之后的星期二举行,这一天被称为总统大选日。所有美国选民都到指定地点进行投票,在两个总统候选人之间作出选择。美国国会有100参议员、435名众议员,加上华盛顿哥伦比亚特区的3票,总统选举人票总共就是538票。2012年美国大选结果于当地时间7日凌晨出炉。奥巴马以332张选举人票的结果赢得大选,其对手共和党总统候选人罗姆尼赢得206张选举人票。奥巴马最终胜出,成功连任总统。如何在海量选票下准确无误的掌握大选选情与趋势?数据的可视化展现与分析是使得人们更加容易的发现大选规律、了解未来趋势的效果和影响面,及时观察到数据分布的变化,这对于了解选情的策略及走势大有裨益。

百度技术工程师在《最有价值互联网技术问题白皮书》中还谈到了“可视化分析(VisualAnalytics)技术”,并对对这一问题的技术关键点进行了分析阐述。

这项技术是借助可视化信息来对海量数据进行分析和挖掘,在此过程中发现其中的隐含规律(包括数据之间的关联、数据的变化以及数据中的异常等),从而降低调研成本,更快地发现问题,更全面地了解互联网发展的变化趋势。但可视化分析当前还面临一些挑战:一是海量,如何在有限的空间中展现海量的数据,是一个不小的挑战;二是高维,数据无法在2D/3D 空间中表示,需要对数据降维,同时还要保持数据之间原有的关联关系;然后提出展示和分析数据之间的关联。数据之间彼此依赖,互相影响。一部分数据的改变可以带来其它数据相应变化。如果可视化地展现这些关联变化,我们就可以很容易了解策略的对于整个系统的影响;最后一点提到展现和分析数据的变化。互联网的数据不是静止,而是随时间推移而变化的。把数据的变化通过可视化的方法展现出来并加以分析,有助于了解互联网发展变化规律。

试想,这项奇妙的视觉大餐一旦完成,即可提供发现规律和问题的手段。如果我们对数据进行了可视化,规律和问题都可以直观地在图形中展现,可以大幅降低调研的成本,也能够使生活更加便利,更加美好。

①  注释:百度校园“最有价值互联网技术问题”白皮书介绍

“最有价值互联网技术问题”征集活动是由百度校园品牌部发起的以问题为导向,引导做最有价值的研究为初衷。这些技术问题是百度内部工程师平时工作中遇到的、亟需解决的行业技术难题,以这些原始问题为基础编写百度最有价值技术问题列表,并向学术界与公众发表,最终会以与各大高校和科研机构的交流合作的方式,共同研究并解决这些技术问题,从而推动技术进步和行业发展。

8 E7 j9 Y! ?9 |, [7 O4 U& B, v3 ~3 Z
您需要登录后才可以回帖 登录 | 注册加入  

本版积分规则

Archiver|手机版|小黑屋|Discuz!扩展中心 ( 浙ICP备14042422号-1 )|网站地图QQ机器人

GMT+8, 2024-5-4 17:20 , Processed in 0.175581 second(s), 15 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表