注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

中吴南顾惟一笑

成功法则就是那19个字

 
 
 

日志

 
 

徐子沛 《大数据》  

2013-05-15 16:05:53|  分类: dbms |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

赵嘉敏[东西网总裁、译言网创始人之一]《大数据》这本书,帮助我们形象地了解信息自由、技术创新与社会进步的关系。我最感兴趣的是美国信息自由制度建立的过程。它让我看到,一个社会、一种文化,是如何通过自省式的努力,认清比自身存在更本源的客观规律。这种制度一旦建立,就如同打开了控制某个基因群组的开关,后面所呈现的演化,虽然眼花缭乱,反而显得平淡无奇、顺理成章了。

抓住大数据的机遇,就必须做好几个方面的工作。从技术角度来看,首先要收集并且开发特定的工具,来管理大规模并行服务器产生的结构化和非结构化数据,这些数据,可能是自己专有的,也可能来源于“云”。 其次,每一个组织都需要选定分析软件,用它来挖掘数据的意义。但可能最重要的是,任何组织都需要人才来管理和分析大数据。这些人被称为“数据科学家”,他们集黑客和定量分析员的优势和特长于一身,非常短缺。聪明的领导人,将想方设法留住这类人才。 不少公司都意识到了这种难得的机遇,现在已经采取了行动。例如,通用电气将投资15亿美元在旧金山湾区建立一个全球软件和分析中心,作为其全球研发机构的一部分。这个中心拟雇用至少400名数据科学家,现在已经有180名各就其位了。通用电气在全球拥有超过1万名工程师从事软件开发和数据分析工作,通过共同的分析平台、训练、领导力培训以及创新,他们的努力得以协调合作。通用电气对于大数据的研究活动,相当一部分集中在工业产品上,例如机车、涡轮机、喷气发动机以及大型能源发电设施。 对任何一个试图通过大数据获得成功的组织来说,通用电气的投资规模和雄心都是一个榜样。在很多领域,中国政府和中国的企业都有雄心勃勃的计划,这引起了全世界的关注,这些雄心和计划,现在应该拓展到大数据的领域。

普适计算

韦泽预测,由于网络技术的兴起,特别是无线网络技术的发展,计算机本身将从人们的视线中小时,计算将最终和环境融为一体。人们能够在任何时间和任何地点获取、处理信息,这就是普适计算阶段,人类正在向这第三波计算浪潮迈进。一句话,万事万物,凡存在,皆联网,凡联网,皆计算。


仅仅几年以前,这种被成为“商务智能”的技术,还是大公司的专利。但随着计算机处理器、存储器价格不断下降和软件质量的不断上升,这种技术成了商业界的主流。大大小小的公司,都收集了前所未有的大量数据。过去,这些数据存储在不同的系统当中,如财务系统、人力资源系统和客户管理系统,老死不相往来。现在,这些系统彼此相连,通过“数据挖掘”的技术,可以获得一幅关于企业运营的完整图景,这被称为:一致的真相(A single version of the truth)。 商务智能提高了商业运营的效率,帮助了企业总结发展过程中的模式,并改善了企业预测未来的能力。
信息技术产业把商务智能视为对20世纪上半叶企业会计服务、下半叶计算机服务的一个自然承接,正在争相涌入这个领域。爱森哲、普华永道、IBM、SPA都在这个领域投入巨资。技术平台的提供商甲骨文、informatica、TIBCO、SAS、EMC也从中赢利。IBM更是相信:随着传感器在城市交通、医疗健康中的应用,商务智能将成为其中业务增长的顶梁柱。


数据仓库
"数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策"
如蚕之蛹,数据仓库是商务智能的依托,是对海量数据进行分析的核心物理构架。它可以形象的理解为一种语义格式一致的多源数据存储中心,数据源可以是来自多种不同平台的系统,如企业内部的客户关系管理系统、供应链管理系统、企业资源规划系统,也可以是企业外部的系统和零散数据。这些不同形式、分布在不同地方的数据,将以统一定义的格式从各个系统提取出来,再通过清洗、转换、集成,最后百流如海,加载进入数据仓库。这个提取、转换、装载的主要过程,可以通过专门的ETL(Extraction, Transformation, Load)工具来实现,这种工具,如今已是数据仓库领域的主打产品。

联机分析
联机分析(Online Analytical Processing), 也称多维分析,本意是把分立的数据库“相联”,进行多维度的分析。

“维”是联机分析的核心概念,指的是人们观察数据的特定角度, 举个例子,跨国零售商沃尔马如果要分析自己的销售量,它可以按地区国别分析、时间序列分析、商品门类分析;也可以按供货渠道分析、客户群类分析,这些不同的分析角度,就叫“维度”。

多维分析技术预先为用户创建多维的数据立方体(Cube),一旦多维立方体建模完成,用户可以快速地从各个分析维度获取数据,也可以动态的在各个维度之间来回切换或者进行多维度的综合分析。通过从不同的维度、不同的粒度、立体地对数据进行分析,从而获得有严密推证关系的信息。

 

数据挖掘
数据仓库、联机分析技术的发展和成熟,为商务智能奠定了框架,但真正给商务智能赋予“智能”生命的是它的下一个产业链:数据挖掘。

一开始,数据挖掘曾一度被称为“基于数据库的知识发现”。随着数据仓库的产生,“数据挖掘”的叫法开始被广泛接受。也正是因为有了数据仓库的依托,数据挖掘如虎添翼,在实业界不断创造点“数”成金的故事。其中,最为经典的例子当属啤酒和尿布。

1989年,高德纳咨询公司的德斯纳在商业为“商务智能”给出了一个正式的定义:
“商务智能,指的是一系列以事实为支持、辅助商业决策的技术和方法。”

数据挖掘是指通过分析大量的数据来揭示数据之间隐藏的关系、模式和趋势,从而为决策者提供新的知识。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就象从沙里淘金一样困难。这种点“数”成金的能力,是商务智能真正的“灵魂”和魅力所在。
如果说联机分析是对数据的一种透视性的探测,数据挖掘则是对数据进行挖山凿矿式的开采。它的主要目的,一是要发现潜藏在数据表面之下的历史规律,二是对未来进行预测,前者称为描述性分析,后者称为预测性分析。

数据的可视化

所谓信息可视化(Information Visualization)是指以图形、图像、动画等更为生动、易为理解的方式来展现和诠释数据之间的复杂关系和发展趋势,以便更好地利用数据分析结果。

传统意义上的报表,格式单一,枯燥乏味,令人没有阅读的欲望。信息可视化主张,人的创造力不仅取决于逻辑思维,而且还取决于形象思维。数据如果能变成图像,就能在逻辑思维的基础上进一步激发人的形象思维,帮助用户理解数据之间隐藏的规律,为决策提供最优的支持。信息可视化的专家因此宣布,他们要让数据 “动”起来、“舞”起来!让数据变得“性感”!

从最早的点线图、直方图、饼图、网状图等简单图表,发展到以监控商务绩效为主的仪表盘、记分板,到今天的三维地图、交互式图像、动态模拟、动画技术等等更加直觉化、趣味化的表现方法,短短的十年间,信息可视化已经发展成了一个独立的产业,其产品数不胜数,可谓绚丽多彩。

信息可视化把美学创造的艺术原素带进了商务智能,给它锦上添花。一幅好的数据图像不仅能有效地传达数据背后的知识和思想,而且华美精致,如一只只振动翅膀的彩蝶,栩栩如生,刺激视觉神经、调动美学意识,令人过目不忘。

大数据时代的竞争,将是知识生产率的竞争。以发现新知识为使命的商务智能,无疑是这个时代最为瞩目的竞争利器。

 

 

公共数据开发的8大基本原则

1、数据必须是完整的
2、数据必须是原始的
3、数据必须是及时的
4、数据必须是可读取的
5、数据必须是机器可处理的
6、数据的获取必须是无歧视的
7、数据格式必须是通用非专有的
8、数据必须是不需要许可证的

  评论这张
 
阅读(5141)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017