Spark对硬件的要求

网上科普有关“Spark对硬件的要求”话题很是火热,小编也是针对Spark对硬件的要求寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。S...

网上科普有关“Spark对硬件的要求”话题很是火热,小编也是针对Spark对硬件的要求寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。

Spark对硬件的要求

估计所有的spark开发者都很关心spark的硬件要求。恰当的硬件配置需要具体情况具体分析,在这里给出以下建议。主要译自官网

一,存储系统

因为大多数Spark工作可能需要从外部存储系统(例如Hadoop文件系统或HBase)中读取输入数据,所以将spark尽可能部署到靠近存储系统很重要。所以,有如下建议:

1,如果可能,在与HDFS相同的节点上运行Spark。最简单的方式是将spark的Standalone集群和hadoop集群安装在相同的节点,同时配置好Spark和hadoop的内存使用,避免相互干扰(对于hadoop,每个task的内存配置参数是mapred.child.java.opts;mapreduce.tasktracker.map.tasks.maximum 和mapreduce.tasktracker.reduce.tasks.maximum决定了task的数目)。也可以将hadoop和spark运行在共同的集群管理器上,如mesos和 yarn。

2,如果不可能,请在与HDFS相同的局域网中的不同节点上运行Spark。

3,对于低延迟数据存储(如HBase),可能优先在与存储系统不同的节点上运行计算任务以避免干扰。

二,本地磁盘

虽然Spark可以在内存中执行大量的计算,但它仍然使用本地磁盘来存储不适合RAM的数据,以及在stage之间,也即shuffle的中间结果。建议每个节点至少有4-8块磁盘,并且不需要RAID,仅仅是独立的磁盘挂在节点。在Linux中,使用noatime选项安装磁盘,以减少不必要的写入。在spark任务中,spark.local.dir配置可以十多个磁盘目录,以逗号分开。如果运行在hdfs上,与hdfs保持一致就很好。

使用noatime选项安装磁盘,要求当挂载文件系统时,可以指定标准Linux安装选项(noatime),这将禁用该文件系统上的atime更新。磁盘挂在命令:

mount -t gfs BlockDevice MountPoint -onoatime

BlockDevice 指定GFS文件系统驻留的块设备。

MountPoint 指定GFS文件系统应安装的目录。

例子:

mount -t gfs /dev/vg01/lvol0 /gfs1 -onoatime

三,内存

单台机器内存从8GB到数百GB,spark都能运行良好。在所有情况下,建议仅为Spark分配最多75%的内存;留下其余的操作系统和缓冲区缓存。

需要多少内存取决于你的应用程序。要确定你的应用的特定数据集需要多大内存,请加载部分数据集到内存,然后在Spark UI的Storage界面去看它的内存占用量。

请注意,内存使用受到存储级别和序列化格式的极大影响 - 有关如何减少内存使用的技巧,请参阅另一篇调优的文章。

最后,请注意,对于超过200GB的内存的机器JAVA VM运行状态并不一直表现良好。如果买的机器内存超过了200GB,那么可以在一个节点上运行多个worker。Spark Standalone模式下,可以在配置文件 conf/spark-env.sh中设置SPARK_WORKER_INSTANCES的值来设置单节点worker的数目。也可以设置SPARK_WORKER_CORES参数来设置每个Worker的cpu数目。

四,网络

根据以往的经验,假如数据是在内存中,那么spark的应用的瓶颈往往就在网络。用10 Gigabit或者更高的网络,是使spark应用跑的最更快的最佳方式。特别是针对“distributed reduce”应用,如group-bys,reduce-bys和sql joins,就表现的更加明显。在任何给定的应用程序中,可以通过spark ui查看spark shuffle过程夸网络传输了多少数据。

五, cpu

对于每台机器几十个cpu的机器,spark也可以很好的扩展,因为他在线程之间执行最小的共享cpu。应该每台机器至少配置8-16个内核。根据cpu负载,可能需要更多的cpu:一旦数据在内存中,大多数应用程序的瓶颈就在CPU和网络。

关于“Spark对硬件的要求”这个话题的介绍,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!

本文来自作者[稽家乐]投稿,不代表长隆号立场,如若转载,请注明出处:https://clcgzw.com/cshi/202502-1571.html

(351)

文章推荐

  • 2024龙年犯太岁的属相

    网上科普有关“2024龙年犯太岁的属相”话题很是火热,小编也是针对2024龙年犯太岁的属相寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。2024龙年犯太岁的属相为属龙、属狗、属兔。1、属龙在2024年是属龙人的本命年,属龙人会遇到本命年值太岁,在这一年里各方

    2025年02月18日
    259
  • 防台风暴雨应急预案

    网上科普有关“防台风暴雨应急预案”话题很是火热,小编也是针对防台风暴雨应急预案寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。2021年防台风暴雨应急预案(通用7篇) 在日常的学习、工作、生活中,保不准会发生突发事件,为

    2025年02月19日
    350
  • 安吉受台风影响大吗

    网上科普有关“安吉受台风影响大吗”话题很是火热,小编也是针对安吉受台风影响大吗寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。安吉受台风影响大。安吉县气象台2023年7月28日18时32分发布暴雨**预警信号:受台风“杜苏芮”外围环流影响,我县山川乡、上墅乡一

    2025年02月20日
    274
  • 学金融有什么好的就业方向?

    网上科普有关“学金融有什么好的就业方向?”话题很是火热,小编也是针对学金融有什么好的就业方向?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。金融就业前景和就业方向如下:金融学专业就业前景如下:金融学专业对学生数学的要求大都非常高。从当前的金融学科专业分布来看

    2025年02月20日
    305
  • 台风杜苏芮到哪了

    网上科普有关“台风杜苏芮到哪了”话题很是火热,小编也是针对台风杜苏芮到哪了寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。台风杜苏芮于7月28日到达福建沿海地区。今年第5号台风“杜苏芮”(超强台风级)中心位于北纬23点9度,东经118点9度,也就是在距离厦门市

    2025年02月21日
    352
  • 关于天气状态的英语单词。

    网上科普有关“关于天气状态的英语单词。”话题很是火热,小编也是针对关于天气状态的英语单词。寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。关于天气状态的英语单词有rain雨、snow雪、sun/sunshine阳光、wind风、cloud云、stor

    2025年02月21日
    381
  • 笔记本主机正常启动 显示器不亮 重启几次后可以亮 总是这种情况

    网上科普有关“笔记本主机正常启动显示器不亮重启几次后可以亮总是这种情况”话题很是火热,小编也是针对笔记本主机正常启动显示器不亮重启几次后可以亮总是这种情况寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。这是转载文章,觉得还不错,有很多经验值得学习[

    2025年02月23日
    285
  • 处理器虚拟化技术要不要开

    网上科普有关“处理器虚拟化技术要不要开”话题很是火热,小编也是针对处理器虚拟化技术要不要开寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。处理器虚拟化技术要开,系统里装虚拟机。一切都是用鼠标来完成的,是虚拟现实中的操作。这就是虚拟化最直接的用途。比如现在已经是

    2025年02月24日
    320
  • 超融合服务器三大品牌

    网上科普有关“超融合服务器三大品牌”话题很是火热,小编也是针对超融合服务器三大品牌寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。超融合服务器三大品牌:新华三、苏州创云、戴尔科技。1、新华三新华三是国内领先的超融合系统品牌之一,具备全方位的数字化基础设施能力和

    2025年02月24日
    327
  • vps服务器怎么创建多个网站一个vps可以搭建几个网站

    网上科普有关“vps服务器怎么创建多个网站一个vps可以搭建几个网站”话题很是火热,小编也是针对vps服务器怎么创建多个网站一个vps可以搭建几个网站寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。一个服务器上可以挂两个域名吗?网站服务器分虚拟主机和服务器之分

    2025年02月24日
    282

发表回复

本站作者后才能评论

评论列表(4条)

  • 稽家乐
    稽家乐 2025年02月26日

    我是长隆号的签约作者“稽家乐”!

  • 稽家乐
    稽家乐 2025年02月26日

    希望本篇文章《Spark对硬件的要求》能对你有所帮助!

  • 稽家乐
    稽家乐 2025年02月26日

    本站[长隆号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 稽家乐
    稽家乐 2025年02月26日

    本文概览:网上科普有关“Spark对硬件的要求”话题很是火热,小编也是针对Spark对硬件的要求寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。S...

    联系我们

    邮件:长隆号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们