Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark spark-env.sh에서 사용할 수있는 항목.

총관리자 2016.05.24 16:53 조회 수 : 869

Environment Variable

spark-env.sh에서 사용할 수있는 항목.


SPARK_MASTER_IP	-	Spark 마스터가 바인딩 할 특정 IP 주소.
SPARK_MASTER_PORT	7077	마스터를 부팅하는 포트.
SPARK_MASTER_WEBUI_PORT	8080	마스터 Web UI 포트.
SPARK_MASTER_OPTS	-	마스터에만 적용되는 속성을 "-Dx = y"로 지정.
SPARK_LOCAL_DIRS	/ tmp	디스크에 저장되는 map 출력과 RDDs을 포함한 Spark의 "스크래치"공간에 사용할 디렉토리. 이것은 당신의 시스템에서 빠른 로컬 디스크이어야합니다. 쉼표로 구분 된 여러 디스크를 지정할 수도 있습니다. ※ spark.local.dir과 같다. 이 경우의 디폴트는 / tmp.
SPARK_WORKER_CORES	(사용 가능한 코어 수)	Spark 응용 프로그램이 사용할 수있는 컴퓨터의 코어 수를 지정합니다. 기본값은 모든 사용 가능한 코어 수.
SPARK_WORKER_MEMORY	(총 메모리에서 마이너스 1GB)	Spark 응용 프로그램이 사용할 수있는 컴퓨터의 총 메모리 양을 지정합니다. 예 : 1000m, 2g (기본값은 전체 메모리에서 마이너스 1GB) 각 개별 응용 프로그램의 메모리 spark.executor.memory 속성에 의해 정의되는 것에주의할 것.
SPARK_WORKER_PORT	(random)	Worker가 시작될 때 포트를 지정합니다.
SPARK_WORKER_WEBUI_PORT	8081	Worker 용 Web UI 포트.
SPARK_WORKER_INSTANCES	1	각 시스템에서 시작시 생성되는 Worker 인스턴스의 수입니다. 매우 높은 사양의 컴퓨터에서 멀티 Spark worker 프로세스를 선호한다면 1 이상으로하는 것도 가능하다.만약 그렇게한다면 반드시 SPARK_WORKER_CORES를 명시 적으로 설정하여 하나의 worker 대한 코어 수를 제한해야한다. 그렇게하지 않으면 각 worker는 모든 코어를 사용하는 것을 시도 것이다.
SPARK_WORKER_DIR	$ SPARK_HOME / work	응용 프로그램이 사용하는 디렉토리를 지정한다. 로그 및 스크래치 공간이 포함된다.
SPARK_WORKER_OPTS	-	worker에만 적용되는 속성을 "-Dx = y"형태로 지정한다.
SPARK_DAEMON_MEMORY	512m	Spark master와 worker 각각 자신에게 할당 된 메모리를 지정합니다.
SPARK_DAEMON_JAVA_OPTS	-	Spark master와 worker 각각 자신에게 할당할 JVM 옵션을 "-Dx = y"로 지정한다.
SPARK_PUBLIC_DNS	-	Spark master 및 workers의 공용 DNS.

SPARK_WORKER_MEMORY은 중요하기 때문에 여기에서 보충.SPARK_WORKER_MEMORY의 범위 내에서 spark.executor.memory을 별도 정의하게되는데, executor가 차지하는 비중 다른 관리를 위해 수백 MB 정도 남겨두면 좋을 듯. 하지만 거기의 균형은 물론 환경에 의한 다.

SPARK_MASTER_OPTS

SPARK_MASTER_OPTS가 지원하는 속성.


spark.deploy.spreadOut	true	standalone 클러스터 관리자가 모든 노드에 응용 프로그램을 배포해야하거나 그들을 가능한 한 적은 노드로 통합 하는가? 널리 배포 할 일반적으로 HDFS의 지역성에 바람직하다. 그러나 계산 집약적 인 워크로드에 집약시키는 것이 효과적이다.
spark.deploy.defaultCore	(infinite)	spark.cores.max을 설정하지 않은 경우, Spark standalome 모드에서 할당 기본 코어 수. 설정되어 있지 않으면 응용 프로그램은 그 자체로 spark.cores.max을 정의하지 않는 한 항상 사용 가능한 코어를 취득한다. 공유 클러스터에서는 기본적으로 모든 클러스터를 취득하는 것을 방지하기 위해 낮은 값으로 설정한다.
spark.worker.timeout	60	standalome deploy 마스터가 worker와 하트 비트 통신이 두절 때 worker가 사라진 것을 인식 시간 제한 값을 초 단위로 지정합니다.

SPARK_WORKER_OPTS

SPARK_WORKER_OPTS가 지원하는 속성.


spark.worker.cleanup.enabled	false	worker / applicatin 디렉토리의 정기적 인 정리를 사용한다. 이것은 standalone 모드에서만 유효하며 YARN에서는 다른 동작이되는 일에주의. 사용하면 응용 프로그램이 이미 실행 여부에 관계없이 application 디렉토리 정리된다.
spark.worker.cleanup.interval	1800 (30 min)	로컬 컴퓨터에서 오래된 application work 디렉토리를 정리하는 간격을 초 단위로 지정합니다.
spark.worker.cleanup.appDataTtl	7 * 24 * 3600 (7 days)	각 worker에서 application work 디렉토리를 유지하는 시간을 초 단위로 지정합니다. 이것은 생존 기간이며, 또한 사용 가능한 디스크 공간 용량에 따라 결정해야한다. application logs 및 jars는 각 application work 디렉토리에 다운로드된다. 특히 당신이 작업을 매우 자주 실행하고있는 경우 시간이 지나면 그 work 디렉토리는 바로 디스크 공간을 압박 할 가능성이있다.

High Availability

ZooKeeper를 물지시켜 HA 구성 할 수 있습니다. 본문에 따르면, 퍼스트 리더가 다운에서 걸리는 총 복구 프로세스는 약 1-2 분 정도 걸리는 것. 이 지연은 새로운 애플리케이션의 스케줄링에만 영향을 이미 실행중인 응용 프로그램은 마스터 장애 조치 영향을주지 않는다.

호스트 이름을 쉼표로 구분 OK.

1	`export` `STANDALONE_SPARK_MASTER_HOST = master1, master2`


spark.deploy.recoveryMode	-	"ZOOKEEPER"로 설정한다.
spark.deploy.zookeeper.url	-	쉼표로 구분 ZooKeeper 쿼럼 호스트 이름 or IP를 지정.
spark.deploy.zookeeper.dir	-	ZooKeeper가 복구 상태를 저장하는 디렉토리. 기본값은 / spark.

Spark properties for YARN


spark.yarn.applicationMaster.waitTries	10	ApplicationMaster이 Spark master를 기다릴 수. 또한 SparkContext가 초기화 될 때까지 트라이 할 수.
spark.yarn.submit.file.replication	3	응용 프로그램이 HDFS에 업로드하는 파일의 HDFS 복제 수. 이들은 Spark jar, app jar 또한 모든 분산 캐시 파일 / 아카이브가 포함된다.
spark.yarn.preserve.staging.files	false	작업 종료시에 작업중에 생성된 파일 (Spark jar, app jar, distributed cache files)을 제거하는 것이 아니라 보존하고 싶은 경우는 true한다.
spark.yarn.scheduler.heartbeat.interval - ms	5000	Spark application master에서 YARN ResourceManager에 하트 비트 간격을 밀리 세컨드로 지정.
spark.yarn.max.executor.failure	2 * numExecutors	응용 프로그램이 실패할 경우 이전 실패한 executor의 최대 수.
spark.yarn.historyServer.addres	(none)	Spark 히스토리 서버의 주소. (예 : host.com : 18080) 주소는 스키마 (http : //)을 포함하는 것이다. 히스토리 서버는 선택적 서비스에 대한 기본 아무것도 설정되어 있지 않다. 이 주소는 Spark application이 종료 할 때 ResourceManager UI에서 Spark 히스토리 서버에 application의 링크를 풀칠하기 위하여 YARN ResourceManager에 전달된다.

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
261	https용 인증서 발급 명령문 예시및 오류 메세지	2018.01.24	240
260	Hadoop의 Datanode를 Decommission하고 나서 HBase의 regionservers파일에 해당 노드명을 지웠는데 여전히 "Dead regionser"로 표시되는 경우 처리	2018.01.25	538
259	Could not compute split, block input-0-1517397051800 not found형태의 오류가 발생시 조치방법	2018.02.01	346
258	spark-submit 실행시 "java.lang.OutOfMemoryError: Java heap space"발생시 조치사항	2018.02.01	652
257	프로세스를 확인해서 프로세스를 삭제하는 shell script예제(cryptonight)	2018.02.02	446
256	fuseki의 endpoint를 이용한 insert, delete하는 sparql예시	2018.02.14	218
255	scala application 샘플소스(SparkSession이용)	2018.03.07	372
254	Scala를 이용한 Streaming예제	2018.03.08	554
253	Scala에서 countByWindow를 이용하기(예제)	2018.03.08	653
252	이미지 관리 오픈소스 목록	2018.03.11	422
251	update 샘플	2018.03.12	1055
250	에러 추적(Error Tracking) 및 로그 취합(logging aggregation) 시스템인 Sentry 설치	2018.03.14	253
249	자주쓰는 유용한 프로그램	2018.03.16	1389
248	HA(Namenode, ResourceManager, Kerberos) 및 보안(Zookeeper, Hadoop)	2018.03.16	194
247	hadoop 클러스터 실행 스크립트 정리	2018.03.20	705
246	HDFS Balancer설정및 수행	2018.03.21	289
245	Components of the Impala Server	2018.03.21	382
244	[CentOS] 네트워크 설정	2018.03.26	420
243	cloudera-scm-agent 설정파일 위치및 재시작 명령문	2018.03.29	472
242	Cloudera가 사용하는 서비스별 디렉토리	2018.03.29	373

쓰기 태그

첫 페이지 20 21 22 23 24 25 26 27 28 29 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark spark-env.sh에서 사용할 수있는 항목.

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark spark-env.sh에서 사용할 수있는 항목.

댓글 0

LOGIN