国外课栈 - 国外电子信息技术视频教程、电子书和博文栈
学习Spark第二版
学习Spark第二版
类别 : 电子书
格式 : PDF
订阅须知  订阅
概述

学习Spark第二版

数据越来越大,到达速度更快,并且格式各异,所有这些都需要进行大规模处理以进行分析或机器学习。您如何有效地处理各种数据工作量?进入Apache Spark。

更新以强调Spark 2.x中的新功能,此第二版向数据工程师和科学家展示了Spark中的结构和统一性为何如此重要。具体地说,这本书解释了如何执行简单和复杂的数据分析以及如何使用机器学习算法。通过演讲,代码段和笔记本,您将能够:

  • 学习Python,SQL,Scala或Java高级API:DataFrame和数据集
  • 窥视Spark SQL引擎的内幕以了解Spark转换和性能
  • 使用Spark配置和Spark UI检查,调整和调试Spark操作
  • 连接到数据源:JSON,Parquet,CSV,Avro,ORC,Hive,S3或Kafka
  • 使用结构化流对批处理和流数据进行分析
  • 使用开源的Delta Lake和Spark构建可靠的数据管道
  • 使用MLlib开发机器学习管道并使用MLflow生产模型
  • 使用开源Pandas框架Koalas和Spark进行数据转换和功能设计

总目录

  • Apache Spark统一分析简介
  • 下载Apache Spark和入门
  • Apache Spark的结构化API
  • Spark SQL和DataFrames —内置数据源简介
  • Spark SQL和数据集
  • 加载和保存数据

Spark

会员登录
登录
我的资料
留言
回到顶部