国外课栈 - 国外电子信息技术视频教程、电子书和博文栈
学习 Hadoop 2 
学习 Hadoop 2
概述

使用Hadoop 2的尖端工具箱设计和实施数据处理,生命周期管理和分析工作流

学习

  • 使用MapReduce框架编写分布式应用程序
  • 超越MapReduce并通过Samza和Spark迭代实时处理数据
  • 熟悉适用于非常大的数据集的数据挖掘方法
  • 在VM上对应用程序进行原型制作并将其部署到本地集群或云基础架构(Amazon Web Services)
  • 使用类似SQL的工具进行批量和实时数据分析
  • 使用Apache Pig构建数据处理流程,并查看其如何使自定义功能的轻松整合
  • 使用Apache Oozie定义和编排复杂的工作流和管道
  • 管理数据生命周期和随时间变化

关于

本书向您介绍了使用Hadoop 2支持的各种工具来构建数据处理应用程序的世界。从框架的核心组件HDFS和YARN开始,本书将指导您如何使用各种工具来构建应用程序。方法。

您将学习YARN如何完全改变MapReduce和Hadoop之间的关系,并允许后者支持更多不同的处理方法和更广泛的应用程序。其中包括使用Apache Samza进行实时处理和使用Apache Spark进行迭代计算。接下来,我们讨论Apache Pig及其提供的数据流数据模型。您将发现如何使用Pig来分析Twitter数据集。

通过这本书,您将能够使用Apache Hive,Apache Oozie,Hadoop Streaming,Apache Crunch和Kite SDK之类的工具来简化生活。本书的最后一部分讨论了主要Hadoop组件的未来可能发展方向以及如何参与Hadoop社区。

特点

  • 使用传统MapReduce方法之外的高级接口和工具来构建最新的应用程序
  • 使用Hadoop 2的独特功能来建模和分析Twitter的用户生成数据的全球流
  • 在本地集群上开发原型并部署到云(Amazon Web Services)

总目录

  • 引言
  • 存储
  • 处理– MapReduce及以后
  • 使用Samza进行实时计算
  • 使用Spark进行迭代计算
  • 使用Apache Pig进行数据分析
  • Hadoop和SQL
  • 数据生命周期管理
  • 使开发更容易
  • 运行Hadoop集群
  • 接下来的去处

会员登录
登录
我的资料
留言
回到顶部