从技术角度分析Big Data对业务的促进

2013 年 3 月 29 日1,4710

本站主要内容均为原创,转帖需注明出处www.alexclouds.net

       首先要简单的说,将技术逻辑转化为业务逻辑,这本身存在一定的难度,但是这也是关键。企业的售前技术支持人员要深刻理解这一点。将技术和业务通盘考虑和透彻理解是有效实施HADOOP的关键。数据在 Hadoop 中以 job 作业形式处理,这些作业是使用一个名为 mapreduce 的形式、通过 Java 、R、python等语言编写的。尽管业界开展了一些工作来促进 Hadoop 允许方便的使用其他语言,但正确地理解如何分析业务问题,并将其分解成可以作为 mapreduce 作业运行的解决方案,仍然不容易。Big Data的这些技术障碍正阻碍着发展。

      国外的Hadoop生态系统提供了围绕 Hadoop 的工具和支持。每个组件同其他组件一起提供很多方法来实现大多数的用户场景,我们也需要学习借鉴国外的经验。

      而目前国外典型 的Big Data 分析通常涉及同时查询多个数据集。数据集来自不同的源,通常是企业内部已有数据和从外部web获得的数据的混合。一个内部信息的例子可能是数据中心的日志文件,外部信息可能是一些抓取的网站或从数据目录下载的数据集。

 

hadoop

 

        Apache Hadoop 是生态系统的核心。这是所有数据驻留的地方。由于 Hadoop 可以横向和纵向扩展,因此它也是云中的一个可行选择,我们可以提供 Hadoop 集群、复制数据、运行作业、检索输出,以及在作业完成时解散集群。对于间歇运行的作业,这可以极大地节省购买和维护硬件的成本。淘宝的“云梯”,在国内是多么经典的HADOOP应用啊。

 

LOAD TOOLS数据加载工具
        为了使用 Hadoop 来分析数据,就要把数据放在 HDFS或者其HADOOP支持的DFS上。Hadoop 本身提供将文件从文件系统复制到 HDFS 的功能。对更复杂的场景,您可以利用像 Sqoop这类工具,这是一个 SQL-to-HDFS 数据库导入工具。另一种形式的加载工具是网络爬虫,例如 Apache Nutch,它抓取特定网站并将网页存储在 HDFS 上,这样,网页内容对于任何您想要使用的分析工具都是可用的。实时数据是另一个潜在的信息源。您可以使用 Twitter4J 这类技术来连接 Twitter Streaming API 并直接将 tweets 以 JSON 格式持久存储在 HDFS 上。

 

DATA CATALOGE数据目录
数据目录实现了用户搜索数据集所必须的功能。除非您已经尝试过,否则您不会意识到寻找大型数据集是多么地困难,特别是适合您正在运行的特定分析场景的数据集。通常,用户被迫抓取 web 或者挖掘社会媒体网站来建立他们自己的大型数据集。如果您很容易就能找到并下载您所感兴趣的现存结构化数据集,将会节省许多时间。InfoChimps 这类公司提供一个目录,在其中可以根据类型或通过检索找到特定数据集。另一个数据目录的示例是 Amazon Public Data SetsIt。

ANALYZE TOOLS分析工具
       使用 Hadoop 来分析 HDFS 上存储的数据需要技术和开发人员来使用 Java 语言和 Hadoop map/reduce API 编程作业。熟悉 shell 脚本和 UNIX® Pipes 的人可以考虑看 WuKong,它允许使用 Ruby 和 shell 脚本构建和运行作业。Apache Pig 和 Hive是两个数据分析师感兴趣的技术,因为它们提供一个类似于 SQL 语句的查询界面,在其中用户可以使用高级语言表述如何构建和运行一个给定作业的分析。

 

EXPORT TOOLS导出工具
       执行分析后通常会得到一个 生成的Big Data 数据集。经常会出现这种情况:答案太大,以至于无法直接阅读和理解。有不少生态圈里的企业提供可视的结果解决方案。例如,一个标记能够过滤一大部分结果,使人们立即可以识别出某些区域的数据值。另一个方法是将数据以特定的格式输出,例如 CSV、TSV 等,使其可以被一个特定的应用程序使用。

             

      博主我在了解这些知识的同时也意识到,使用 Hadoop不仅可以处理数据,也打开了各种有趣的数据分析的大门。借助 Hadoop,我们可以线性扩展运行在硬件上的集群来集成更大更丰富的数据集。

      首先,在之前没有整合的异构数据源上运行分析,然后在同样的数据上有规模地运行分析。这个结构有点类似于paradigm shift,如 Flip Kromer(InfoChimps 创办人之一)所描述的:“web 从一个对每件事都了解一点的场所发展成为对一件事了解其全部的场所”。Kromer 继续以这个场景为例:有朝一日,棒球迷想要了解在过去 100 中每场比赛的细节(球员详情、比赛得分、比赛场地)。如果要在同一时段为所有气象站联合数据集与共享位置值,就可以预测一个 38 岁的投手在 90 度的高温的情况下、在 Wrigley Field 赛场的表现如何。

      但博主也知道,国内的数据开放度远不如国外,实现Flip Kromer所说的这些,恐怕只有靠政府牵头整合数据资源了,否则短期根本无望。。

0 0