Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

spark spark-env.sh에서 사용할 수있는 항목.

총관리자 2016.05.24 16:53 조회 수 : 568

Environment Variable

spark-env.sh에서 사용할 수있는 항목.


SPARK_MASTER_IP	-	Spark 마스터가 바인딩 할 특정 IP 주소.
SPARK_MASTER_PORT	7077	마스터를 부팅하는 포트.
SPARK_MASTER_WEBUI_PORT	8080	마스터 Web UI 포트.
SPARK_MASTER_OPTS	-	마스터에만 적용되는 속성을 "-Dx = y"로 지정.
SPARK_LOCAL_DIRS	/ tmp	디스크에 저장되는 map 출력과 RDDs을 포함한 Spark의 "스크래치"공간에 사용할 디렉토리. 이것은 당신의 시스템에서 빠른 로컬 디스크이어야합니다. 쉼표로 구분 된 여러 디스크를 지정할 수도 있습니다. ※ spark.local.dir과 같다. 이 경우의 디폴트는 / tmp.
SPARK_WORKER_CORES	(사용 가능한 코어 수)	Spark 응용 프로그램이 사용할 수있는 컴퓨터의 코어 수를 지정합니다. 기본값은 모든 사용 가능한 코어 수.
SPARK_WORKER_MEMORY	(총 메모리에서 마이너스 1GB)	Spark 응용 프로그램이 사용할 수있는 컴퓨터의 총 메모리 양을 지정합니다. 예 : 1000m, 2g (기본값은 전체 메모리에서 마이너스 1GB) 각 개별 응용 프로그램의 메모리 spark.executor.memory 속성에 의해 정의되는 것에주의할 것.
SPARK_WORKER_PORT	(random)	Worker가 시작될 때 포트를 지정합니다.
SPARK_WORKER_WEBUI_PORT	8081	Worker 용 Web UI 포트.
SPARK_WORKER_INSTANCES	1	각 시스템에서 시작시 생성되는 Worker 인스턴스의 수입니다. 매우 높은 사양의 컴퓨터에서 멀티 Spark worker 프로세스를 선호한다면 1 이상으로하는 것도 가능하다.만약 그렇게한다면 반드시 SPARK_WORKER_CORES를 명시 적으로 설정하여 하나의 worker 대한 코어 수를 제한해야한다. 그렇게하지 않으면 각 worker는 모든 코어를 사용하는 것을 시도 것이다.
SPARK_WORKER_DIR	$ SPARK_HOME / work	응용 프로그램이 사용하는 디렉토리를 지정한다. 로그 및 스크래치 공간이 포함된다.
SPARK_WORKER_OPTS	-	worker에만 적용되는 속성을 "-Dx = y"형태로 지정한다.
SPARK_DAEMON_MEMORY	512m	Spark master와 worker 각각 자신에게 할당 된 메모리를 지정합니다.
SPARK_DAEMON_JAVA_OPTS	-	Spark master와 worker 각각 자신에게 할당할 JVM 옵션을 "-Dx = y"로 지정한다.
SPARK_PUBLIC_DNS	-	Spark master 및 workers의 공용 DNS.

SPARK_WORKER_MEMORY은 중요하기 때문에 여기에서 보충.SPARK_WORKER_MEMORY의 범위 내에서 spark.executor.memory을 별도 정의하게되는데, executor가 차지하는 비중 다른 관리를 위해 수백 MB 정도 남겨두면 좋을 듯. 하지만 거기의 균형은 물론 환경에 의한 다.

SPARK_MASTER_OPTS

SPARK_MASTER_OPTS가 지원하는 속성.


spark.deploy.spreadOut	true	standalone 클러스터 관리자가 모든 노드에 응용 프로그램을 배포해야하거나 그들을 가능한 한 적은 노드로 통합 하는가? 널리 배포 할 일반적으로 HDFS의 지역성에 바람직하다. 그러나 계산 집약적 인 워크로드에 집약시키는 것이 효과적이다.
spark.deploy.defaultCore	(infinite)	spark.cores.max을 설정하지 않은 경우, Spark standalome 모드에서 할당 기본 코어 수. 설정되어 있지 않으면 응용 프로그램은 그 자체로 spark.cores.max을 정의하지 않는 한 항상 사용 가능한 코어를 취득한다. 공유 클러스터에서는 기본적으로 모든 클러스터를 취득하는 것을 방지하기 위해 낮은 값으로 설정한다.
spark.worker.timeout	60	standalome deploy 마스터가 worker와 하트 비트 통신이 두절 때 worker가 사라진 것을 인식 시간 제한 값을 초 단위로 지정합니다.

SPARK_WORKER_OPTS

SPARK_WORKER_OPTS가 지원하는 속성.


spark.worker.cleanup.enabled	false	worker / applicatin 디렉토리의 정기적 인 정리를 사용한다. 이것은 standalone 모드에서만 유효하며 YARN에서는 다른 동작이되는 일에주의. 사용하면 응용 프로그램이 이미 실행 여부에 관계없이 application 디렉토리 정리된다.
spark.worker.cleanup.interval	1800 (30 min)	로컬 컴퓨터에서 오래된 application work 디렉토리를 정리하는 간격을 초 단위로 지정합니다.
spark.worker.cleanup.appDataTtl	7 * 24 * 3600 (7 days)	각 worker에서 application work 디렉토리를 유지하는 시간을 초 단위로 지정합니다. 이것은 생존 기간이며, 또한 사용 가능한 디스크 공간 용량에 따라 결정해야한다. application logs 및 jars는 각 application work 디렉토리에 다운로드된다. 특히 당신이 작업을 매우 자주 실행하고있는 경우 시간이 지나면 그 work 디렉토리는 바로 디스크 공간을 압박 할 가능성이있다.

High Availability

ZooKeeper를 물지시켜 HA 구성 할 수 있습니다. 본문에 따르면, 퍼스트 리더가 다운에서 걸리는 총 복구 프로세스는 약 1-2 분 정도 걸리는 것. 이 지연은 새로운 애플리케이션의 스케줄링에만 영향을 이미 실행중인 응용 프로그램은 마스터 장애 조치 영향을주지 않는다.

호스트 이름을 쉼표로 구분 OK.

1	`export` `STANDALONE_SPARK_MASTER_HOST = master1, master2`


spark.deploy.recoveryMode	-	"ZOOKEEPER"로 설정한다.
spark.deploy.zookeeper.url	-	쉼표로 구분 ZooKeeper 쿼럼 호스트 이름 or IP를 지정.
spark.deploy.zookeeper.dir	-	ZooKeeper가 복구 상태를 저장하는 디렉토리. 기본값은 / spark.

Spark properties for YARN


spark.yarn.applicationMaster.waitTries	10	ApplicationMaster이 Spark master를 기다릴 수. 또한 SparkContext가 초기화 될 때까지 트라이 할 수.
spark.yarn.submit.file.replication	3	응용 프로그램이 HDFS에 업로드하는 파일의 HDFS 복제 수. 이들은 Spark jar, app jar 또한 모든 분산 캐시 파일 / 아카이브가 포함된다.
spark.yarn.preserve.staging.files	false	작업 종료시에 작업중에 생성된 파일 (Spark jar, app jar, distributed cache files)을 제거하는 것이 아니라 보존하고 싶은 경우는 true한다.
spark.yarn.scheduler.heartbeat.interval - ms	5000	Spark application master에서 YARN ResourceManager에 하트 비트 간격을 밀리 세컨드로 지정.
spark.yarn.max.executor.failure	2 * numExecutors	응용 프로그램이 실패할 경우 이전 실패한 executor의 최대 수.
spark.yarn.historyServer.addres	(none)	Spark 히스토리 서버의 주소. (예 : host.com : 18080) 주소는 스키마 (http : //)을 포함하는 것이다. 히스토리 서버는 선택적 서비스에 대한 기본 아무것도 설정되어 있지 않다. 이 주소는 Spark application이 종료 할 때 ResourceManager UI에서 Spark 히스토리 서버에 application의 링크를 풀칠하기 위하여 YARN ResourceManager에 전달된다.

이 게시물을

번호	제목	글쓴이	날짜	조회 수
281	Namenode Metadata백업하는 방법	총관리자	2020.02.10	374
280	scan의 startrow, stoprow지정하는 방법	총관리자	2015.04.08	375
279	특정문자열이나 URI를 임의로 select 절에 지정하여 사용할때 사용하는 sparql 문장	총관리자	2016.08.25	376
278	namenode오류 복구시 사용하는 명령	총관리자	2016.04.01	377
277	sparql 문법구조 설명	총관리자	2015.12.09	378
276	hive metadata(hive, impala, kudu 정보가 있음) 테이블에서 db, table, owner, location를 조회하는 쿼리	총관리자	2020.02.07	380
275	Error: E0501 : E0501: Could not perform authorization operation, User: hadoop is not allowed to impersonate hadoop 해결하는 방법	총관리자	2015.06.07	385
274	Cassandra 3.4(3.10) 설치/설정 (5대로 clustering)	총관리자	2016.04.11	397
273	Eclipse실행시 Java was started but returned exit code=1이라는 오류가 발생할때 조치방법	총관리자	2016.11.07	398
272	source, sink를 직접 구현하여 사용하는 예시	총관리자	2019.05.30	398
271	Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.http.HttpConfig.getSchemePrefix()Ljava/lang/String; 해결->실패	총관리자	2015.06.14	403
270	Job이 끝난 log을 볼수 있도록 설정하기	총관리자	2016.05.30	406
269	2개 data를 join하고 마지막으로 code정보를 join하여 결과를 얻는 mr 프로그램	총관리자	2014.06.30	408
268	원보드 컴퓨터 비교표	총관리자	2014.08.04	408
267	S2RDF를 실행부분만 추출하여 1건의 triple data를 HDFS에 등록, sparql을 sql로 변환, sql실행하는 방법및 S2RDF소스 컴파일 방법	총관리자	2016.06.15	410
266	Permission denied: user=hadoop, access=EXECUTE, inode="/tmp":root:supergroup:drwxrwx--- 오류해결방법	총관리자	2015.05.17	412
265	kafka 0.9.0.1 for scala 2.1.1 설치및 테스트	총관리자	2016.05.02	412
264	컬럼및 라인의 구분자를 지정하여 sqoop으로 데이타를 가져오고 hive테이블을 생성하는 명령문	총관리자	2018.08.03	419
263	conda를 이용한 jupyterhub(v0.9)및 jupyter설치 (v4.4.0)	총관리자	2018.07.30	421
262	Tracking URL = N/A 가발생하는 경우 - 환경설정값을 잘못설정하는 경우에 발생함	총관리자	2015.06.17	423

쓰기 태그

첫 페이지 19 20 21 22 23 24 25 26 27 28 끝 페이지

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

spark spark-env.sh에서 사용할 수있는 항목.

댓글 0

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다. 필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

spark spark-env.sh에서 사용할 수있는 항목.

댓글 0

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc. We are open to the required minutes. Please send inquiries to gooper@gooper.com.

LOGIN

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.