我对目前Hadoop和大数据分析的一点点看法,也给初学者一点建议

2013 年 3 月 30 日1,6720

本站主要内容均为原创,转 帖需注明出处www.alexclouds.net

       青春是躁动的。昨天我看了一个微博,差点没把我气死。这些人对于大数据的理解已经演进到接近对于神和虚无缥缈之间的理解了,比如某媒体人说的:“大数据是活数据,这个保质期也许就是5分钟,这就是大数据。”以我看来活你妹啊。还有什么“大数据是边生产边消费”,生产你妹啊。我被这种对大数据的看法瞬间石化。我倒要质问一句,你他娘的接触过大数据没?用过大数据没?分析过大数据,甚至数据么?了解大数据的基本架构和分析技术吗? 通常,对于技术的不了解,会让外行产生一种虚无缥缈之感,在我看来他必须了解这个技术后,才能有更加深入的理解。否则就是海市蜃楼虚无缥缈。

        我们是个造神的过度,希望将来有更多的神被造出来。我对此深信不疑。

        言归正传,我要说的正是大数据,先从大数据社区说起吧。

        大数据社区? 在哪里呢?是的,现在国外很流行,也许很快我们国内大城市也会有。但是现在没有,如果要学习,只能去跟进国外的大数据社区。我就是这样的。希望Hadoop的聚会、月度数据挖掘小组聚会尽快能有,我说的是社区活动,这个将来一定会有。

        没有国内社区怎么办?大数据不要学了?其实也有,国外有社区啊,网上有很多公开资料,数据资料可供分析的。另外你需要在云服务的小型集群上跑一个Hadoop集群,这是数据分析的基本结构要求。然后你也可以在Amazon允许在他们的EMR产品中使用MapReduce和Hadoop,因此你可以非常方便地在公共可用数据集上编写执行小的EMR程序。在合理的时间内在大量硬件资源上执行任务,比如10小时、20小时,直到你学会为止。可供你做实验的机会还是有很多的。

        我们都知道,开源的HADOOP体系肯定有很多不足之处,如果作为商业使用,Apache的各种软件的原始发行版并不适合。要想作为一个商品,还需要打包、修补、文档和支持,以及更多的包装。我们知道国外HADOOP大数据生态系统里面有一类的公司专门做这个,我不列举,这个我原先发过图的,图里面都列举的清清楚楚的。现在不再累述。现在看来些公司做华丽的包装,而有些公司做透明的包装。但都和核心属性么有冲突。

       hadoop

       我自己使用开源版本的HBASE也没感觉到有多不稳定,但是有人说他还是不稳定,无法在企业中使用。有人说HDFS除了用来执行MapReduce程序之外,对其他应用来说都不可接受。它对MapReduce来说很合适。这点我还无法验证。但是不论如何,我想HBASE还是只能用于解决某一特定问题,就像我之前文章里提到的NOSQL与SQL一样,KV型数据库与传统数据库还是互补性的。正如在MapReduce里HBase的写吞吐量和存储数据高性能扫描的优点可以更加展现一样。

        不知道有没有人关注过Microsoft曾经声称未来Hadoop将作为SQL server的一部分,那会怎样呢? 更加易用?

        写完这个,我还是没有写HADOOP与商业数据分析挖掘的情形,这些我暂时不打算叙述,因为这涉及到目前的BI国内公司。我只能说写到这里先打住吧。

0 0