知道美河 | 上传资料 | VIP申请 | 精品课程 | 资料搜索 | 问题反馈 | 会员手册 | 积分消费 | 积分充值 | 帐号保护
设为首页收藏本站

美河学习在线(主站) eimhe.com

 找回密码
 建立账号
千峰教育 全栈Linux云计算运维
查看: 731|回复: 0

PySpark实战指南 数据挖掘最佳实践 [复制链接]

Rank: 32Rank: 32

金币
164
代金券
0
阅读权限
200
精华
0
帖子
82
UID
712607

美河技术精英勋章 美河荣誉会员勋章

发表于 前天 12:26 |显示全部楼层
下载服务器:五号服务器---VIP资料下载八区\数据库专区
游客,如果您要查看本帖隐藏内容请回复


Apache Spark是目前处理和使用大数据的最广泛使用的框架之一,Python是数据分析,机器学习等最广泛使用的编程语言之一。那么,为什么不一起使用它们呢?这就是Spark与python也被称为PySpark的原因。

Apache Spark开发人员每年的平均年薪为110,000美元。毫无疑问,Spark在这个行业中已经被广泛使用。由于其丰富的库集,Python今天被大多数数据科学家和分析专家使用。

将Python与Spark集成是开源社区的主要礼物。 Spark是用Scala语言开发的,与Java非常相似。它将程序代码编译为用于Spark大数据处理的JVM的字节码。为了支持Spark和Python,Apache Spark社区发布了PySpark。在本文中,我们将讨论以下主题:

1、Apache Spark简介及其功能
2、为什么选择Python?
3、使用Python设置Spark(PySpark)
4、PySpark SparkContext和数据流
5、PySpark KDD用例


Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。 Spark提供了一个接口,用于编程具有隐式数据并行和容错功能的集群。

下面是Apache Spark的一些特性,它比其它的大数据框架的优势在于:


1、速度:比传统的大型数据处理框架快100倍。
2、强大的缓存:简单的编程层提供了强大的缓存和磁盘持久性功能。
3、部署:可以通过Mesos,通过Yarn的Hadoop或Spark自己的集群管理器进行部署。
4、实时:由于内存中的计算,实时计算和低延迟。
5、多语言:这是该框架最重要的特性之一,因为它可以在Scala,Java,Python和R语言中编程。

虽然Spark是在Scala中设计的,但它的速度比Python快10倍,但只有当使用的内核数量少时,Scala才会更快。由于现在大多数分析和处理都需要大量内核,因此Scala的性能优势并不大。

对于程序员来说,由于其语法和标准库,Python相对来说更容易学习。 而且,它是一种动态类型语言,这意味着RDD可以保存多种类型的对象。

尽管Scala拥有SparkMLlib,但它没有足够的库和工具来实现机器学习和NLP目的。 此外,Scala缺乏数据可视化。

PySpark实战指南 数据挖掘最佳实践 完整版包含视频PPT源码

PySpark-1.png




您需要登录后才可以回帖 登录 | 建立账号

Archiver|美河学习在线 ( 浙网备33020302000026号 )  

GMT+8, 2019-3-24 02:54

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

回顶部 考研视频 考研视频博客 考研视频论坛