PySpark实战指南数据挖掘最佳实践

iloveyin · 发表于 2021-4-5 06:55:19

下载服务器：五号服务器---VIP资料下载八区\数据库专区

游客，如果您要查看本帖隐藏内容请回复

Apache Spark是目前处理和使用大数据的最广泛使用的框架之一，Python是数据分析，机器学习等最广泛使用的编程语言之一。那么，为什么不一起使用它们呢？这就是Spark与python也被称为PySpark的原因。

Apache Spark开发人员每年的平均年薪为110,000美元。毫无疑问，Spark在这个行业中已经被广泛使用。由于其丰富的库集，Python今天被大多数数据科学家和分析专家使用。

将Python与Spark集成是开源社区的主要礼物。 Spark是用Scala语言开发的，与Java非常相似。它将程序代码编译为用于Spark大数据处理的JVM的字节码。为了支持Spark和Python，Apache Spark社区发布了PySpark。在本文中，我们将讨论以下主题：

1、Apache Spark简介及其功能
2、为什么选择Python？
3、使用Python设置Spark（PySpark）
4、PySpark SparkContext和数据流
5、PySpark KDD用例

Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。 Spark提供了一个接口，用于编程具有隐式数据并行和容错功能的集群。

下面是Apache Spark的一些特性，它比其它的大数据框架的优势在于：

1、速度：比传统的大型数据处理框架快100倍。
2、强大的缓存：简单的编程层提供了强大的缓存和磁盘持久性功能。
3、部署：可以通过Mesos，通过Yarn的Hadoop或Spark自己的集群管理器进行部署。
4、实时：由于内存中的计算，实时计算和低延迟。
5、多语言：这是该框架最重要的特性之一，因为它可以在Scala，Java，Python和R语言中编程。

虽然Spark是在Scala中设计的，但它的速度比Python快10倍，但只有当使用的内核数量少时，Scala才会更快。由于现在大多数分析和处理都需要大量内核，因此Scala的性能优势并不大。

对于程序员来说，由于其语法和标准库，Python相对来说更容易学习。而且，它是一种动态类型语言，这意味着RDD可以保存多种类型的对象。

尽管Scala拥有SparkMLlib，但它没有足够的库和工具来实现机器学习和NLP目的。此外，Scala缺乏数据可视化。

PySpark实战指南数据挖掘最佳实践完整版包含视频PPT源码

songzaihua · 发表于 2021-4-5 10:20:00

啥也不说了，楼主就是给力！

zhaoyj · 发表于 2021-4-6 09:37:53

谢谢，学习学习

ZHQmeihe · 发表于 2021-4-9 21:09:47

感谢分享！！！！！！

idc_5676 · 发表于 2021-4-16 10:07:51

拍手称快。好好好

president_ccccc · 发表于 2021-8-1 16:13:19

学习了

it20160415 · 发表于 2021-10-24 15:53:29

PySpark实战指南数据挖掘最佳实践

nbboy · 发表于 2021-11-20 07:13:48

课程正是我需要的，谢谢

zhangli860723 · 发表于 2022-4-25 09:32:41

PySpark实战指南数据挖掘最佳实践 [复制链接]

wsing007 · 发表于 2022-7-13 17:28:21

感谢楼主分享！

liyuwei2021 · 发表于 2022-11-19 07:20:25

ddddddddddddddddddddd

jackjkk · 发表于 2023-1-30 17:32:16

加油加油

qyzzzy · 发表于 2023-2-22 22:38:31

学习

layne2023 · 发表于 2023-3-22 15:10:06

\PySpark实战指南数据挖掘最佳实践

学悦 · 发表于 2023-8-16 10:46:06

学习学习

流浪的鬲宝 · 发表于 2024-5-10 23:08:46

xuei

imtigerking · 发表于 2025-1-21 07:48:53

thanks for sharing

		自动登录	找回密码
密码			建立账号

PySpark实战指南 数据挖掘最佳实践

PySpark实战指南数据挖掘最佳实践