메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


*문제가 있는 노드를 제거하는 경우 HDFS노드및 YARN노드를 동시에 제거해야한다.

(9대로 구성된 클러스터에서 4대(gsda5~9)를 해제하는 경우)

hdfs-site.xml에서 지정하는 dfs.hosts.exclude와 yarn-site.mxl에 지정되는 yarn.resourcemanager.nodes.exclude-path에 지정되는 노드는 slaves에 지정되는 노드와 다르게 네임노드와 리소스 매니저가 워커 노드의 접속 허용 여부를 결정할 때 사용된다. slaves파일은 클러스터 재시작과 같이 하둡의 제어 스크립트가 클러스터 전역에 걸치 작업을 수행하는데 사용된다. 하둡데몬은 slaves파일을 절대 사용하지 않는다.

 

1. nodes.include에 해제하지 않을 노드를 기록한다.(호스트명 또는 ip)
vi nodes.include
  gsda1
  gsda2
  gsda3
  gsda4

 

2. nodes.exclude에 해제할 노드를 기록한다.(호스트명 또는 ip)
vi nodes.exclude
  gsda5
  gsda6
  gsda7
  gsda8
  gsda9


3. hdfs-site.xml파일에 포함/제외할 노드 목록이 있는 파일의 경로를 추가한다

  <property>
   <name>dfs.host</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.include</value>
  </property>
  <property>
   <name>dfs.hosts.exclude</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.exclude</value>
  </property>

 

4. yarn-site.xml파일에 포함/제외할 노드 목록이 있는 파일의 경로를 추가한다.

   <property>
   <name>yarn.resourcemanager.nodes.include-path</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.include</value>
  </property>
   <property>
   <name>yarn.resourcemanager.nodes.exclude-path</name>
   <value>$HOME/hadoop/etc/hadoop/nodes.exclude</value>
  </property>

 

4-1. 각 노드에 반영해준다.(실제는 namenode가 기동되고 있는 노드에만 복사해도됨)

scp -P 10022 yarn-site.xml root@gsda2:$HOME/hadoop/etc/hadoop

scp -P 10022 hdfs-site.xml root@gsda2:$HOME/hadoop/etc/hadoop

scp -P 10022 nodes.include root@gsda2:$HOME/hadoop/etc/hadoop

scp -P 10022 nodex.exclude root@gsda2:$HOME/hadoop/etc/hadoop

 

*참고: yarn-site.xml과 hdfs-site.xml만 각 노드에 복사하고 exclude파일은./sbin/distribute-exclude.sh를 이용하여 namenode에 복사할 수 도 있다(https://www.gooper.com/ss/index.php?mid=bigdata&category=2789&document_srl=3565)

 

 

5. 변경된 노드정보를 네임노드및 리소스매니져에 반영하기 위해서 다음을 수행한다.
  ./bin/hdfs dfsadmin -refreshNodes

  ./bin/yarn rmadmin -refreshNodes

 

6. 해제 상태 확인
  가. hdfs dfsadmin -report를 이용
    - Decommission Status : 진행중 => Decommission in progress, 완료상태 => Decommissioned
  나. gsda1:50070에 접근하여 확인한다.

 

 

7. 퇴역노드를 중단시킨다.(웹UI에 접속해서 퇴역시킬 데이터노드의 관리상태가 Decommissioned가되면 블록의 복제가 완료된 것이다.)

-bash-4.1# ./hadoop-daemon.sh stop datanode

-bash-4.1# ./yarn-daemon.sh stop nodemanager(필요시)

(nodemanager는 ./bin/yarn rmadmin -refreshNodes를 실행하면 즉시 decommission되는거 같음)

decommissioned.png

 

 

 

 

8. include파일의 내용을 지우고(#으로 주석처리 가능함) 다음 명령어를 수행한다.

  ./bin/hdfs dfsadmin -refreshNodes

  ./bin/yarn rmadmin -refreshNodes

-> Datanode Information화면에서 Dead,Decommissioned가 표시되며 Decommissioned노드가 Dead상태로 바뀌지 않으면 어느정도 대기후 반복해서 실행한다.

(datanode 데몬이 살아 있으면 Dead상태로 바뀌지 않으므로 반드시 7번작업을 통해서 datanode데몬을 죽이고 실행해야함)

decommission후dead상태의노드.png

 

 

 

 

9. slaves파일에서 해당 노드를 삭제한다. 

 

*참고 : 퇴역이 진행중에도 MR등의 작업은 정상적으로 진행됨

decommission중에wordcount실행하는모습.png

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

번호 제목 글쓴이 날짜 조회 수
620 RDF4J의 rdf4j-server.war가 제공하는 RESTFul API를 이용하여 repository에 CRUD테스트 총관리자 2017.08.30 51
619 jar파일의 dependency찾는 프로그램 총관리자 2016.08.11 52
618 oracle 12에 sqoop해서 데이터 import하기 (console에서 sqoop import하는 방법) 총관리자 2021.12.31 52
617 [HDFS]Encryption Zone에 생성된 테이블 조회시 Failed to open HDFS file hdfs://nameservice1/tmp/zone1/sec_test_file.txt Error(255): Unknown error 255 Root cause: AuthorizationException: User:impala not allowd to do 'DECRYPT_EEK' on 'testkey' gooper 2023.06.29 52
616 DataSetCreator.py 실행시 파일을 찾을 수 없는 오류 총관리자 2016.05.27 53
615 서버 5대에 solr 5.5.0 설치하고 index data를 HDFS에 저장/search하도록 설치/설정하는 방법 총관리자 2016.04.08 54
614 Windows에서 sbt개발환경 구축 방법(링크) 총관리자 2016.06.02 54
613 fuseki가 제공하는 web ui를 통해서 dataset를 remove->create할 경우 동일한 동일한 이름으로 지정했을때 fuseki-server.jar가 뜨지 않는 현상 총관리자 2017.02.03 54
612 [Impala jdbc]CDP7.1.7환경에서 java프로그램을 이용하여 kerberized impala cluster에 접근하여 SQL을 수행하는 방법 gooper 2023.08.22 54
611 HDFS에서 quota 설정 방법및 확인 방법 총관리자 2022.03.30 55
610 [hive] hive.tbls테이블의 owner컬럼값은 hadoop.security.auth_to_local에 의해서 filtering된다. 총관리자 2022.04.14 55
609 9대가 hbase cluster로 구성된 서버에서 테스트 data를 halyard에 적재하고 테스트 하는 방법및 절차 총관리자 2017.07.21 56
608 Lagom프레임웍에서 제공하는 HelloWorld 테스트를 수행시 [unknown-version]오류가 발생하면서 빌드가 되지 않는 경우 조치사항 총관리자 2017.12.22 56
607 queryTranslator실행시 NullPointerException가 발생전에 java.lang.ArrayIndexOutOfBoundsException발생시 조치사항 총관리자 2016.06.16 58
606 Master rejected startup because clock is out of sync 오류 해결방법 총관리자 2016.05.03 60
605 Mysql DB 생성 및 권한. 특정아이피, 대역에 대한 접근 허용 총관리자 2017.05.04 60
604 lagom-windows용 build.sbt파일 내용 총관리자 2017.10.12 60
603 [TLS]TLS용 사설 인증서 변경 혹은 신규 지정시 No trusted certificate found 오류 발생시 확인및 조치사항 총관리자 2022.03.15 60
602 [TLS/SSL]Kudu Master 설정하기 총관리자 2022.05.13 61
601 python 2.6.6에서 print 'A=' 형태의 사용이 python 3.5.1에서 오류(SyntaxError: Missing parentheses in call to 'print') 발생함.. 총관리자 2016.05.27 62

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로