理解google在computing上走的有多快多远,学习dremel..

2013 年 7 月 7 日1,7740

本站主要内容均为原创,转帖需注明出处www.alexclouds.net

       博主由于工作关系,对于云计算的大数据领域的技术特别关注。近期翻看了2013年以前的老文章,发现对GOOGLE的兴趣渐长。经过仔细研究目前公布的所有文件和数据发现,全球很多技术都落后于Google,而Google自身的技术也正在影响全球。比如在HADOOP分布式计算领域,GOOGLE已经领先了很多了。

       当然里面最吸引我的是一篇论文里提到的被称之为Dremel的工具,Armando Fox曾经表示Dremel是史无前例的,Hadoop作为大数据运动的核心一直致力构建分析海量数据工具的生态圈。但就目前的大数据工具往往存在一个缺陷,与传统的数据分析或商业智能工具相比,Hadoop在数据分析的速度和精度上还无法相比。但目前Dremel做到了鱼和熊掌兼得。

       专注于大型数据中心规模软件平台的加利福尼亚伯克利分校计算机科学教授Armando Fox表示“如果你事先告诉我Dremel可以做什么,那么我不会相信你可以把它开发出来”。

       目前Hadoop已经提供了在庞大数据集上运行类似SQL的查询工具(如Hadoop生态圈中的项目Pig和Hive)。但其会有一些延迟,例如当部署任务时,可能需要几分钟的时间或者几小时的时间来执 行任务,虽然可以得到查询结果,但相比于Pig和Hive,Dremel几乎是瞬时的。区别在于Dremel可以在极快的速度处理网络规模的海量数据。据Google提交的文件显示你可以在几秒的时间处理PB级的数据查询。

        Dremel做到了“不可能完成的任务”,Dremel设法将海量的数据分析与对数据的深入挖掘进行有机的结合。Dremel所处理的数据规模的速度实在令人印象深刻,你可以舒适的探索数据。在Dremel出现之前还没有类似的系统可以做的像Dremel这样出色。

        Dremel是一种分析信息的方式,Dremel可跨越数千台服务器运行,允许“查询”大量的数据,如Web文档集合或数字图书馆,甚至是数以百万计的垃圾信息的数据描述。这类似于使用结构化查询语言分析传统关系数据库,这种方式在过去几十年被广泛使用在世界各地。

        Google基础设施负责人Urs Hölzle表示“使用Dremel就好比你拥有类似SQL的语言,并可以无需任何编程的情况下只需将请求输入命令行中就可以很容易的制定即席查询和重复查询”。Holzle表示Dremel可移执行多种查询,而同样的任务如果使用MapReduce来执行通差需要一个工作序列,但执行时间确实前者的一小部分。Dremel可在大约3秒钟时间里处理1PB的数据查询请求。

        这里有一副关于Dremel的data module图,很好的展示了我要说的,如果有兴趣,请一定仔细看看:

 

      dremel-1

0 0