메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


*출처 : http://gamma0burst.tistory.com/295


갑자기 무한재부팅 현상이 일어나서 몇시간동안 설쳤네요.

컴퓨터 이상의 원인은 셀 수 없을만큼 많지만 대부분 다음 정도로 추려집니다.

- 메모리 불량
- cpu 장착불량
- 그래픽카드 불량
- 오버클럭 실패
- 메인보드 고장
- 파워 불량
- 메인보드의 cpu 미지원
등등

드물게는 다음같은 경우도 있습니다.

- 케이스 접지 불량
- 소켓 번 등의 cpu핀 혹은 소켓핀의 문제
- 그래픽카드 호환성 문제
- 메모리 호환 문제
등등


재부팅 현상도,
- 바이오스화면까지 뜨고 재부팅.
- 윈도우로고까지 뜨고 재부팅.
- 아무것도 안 뜨고 재부팅.
등등 다양.

- 바이오스화면까지 뜨고 재부팅.
 메모리 문제일 가능성이 높음.

- 윈도우로고까지 뜨고 재부팅.
 오버클럭 실패 가능성이 높음.

- 아무것도 안 뜨고 재부팅.
 cpu, 메인보드 문제일 가능성이 높음.

물론 주로 그렇다는 것이지 원인에 대해서는 모든 가능성을 열어놓고 생각해야합니다.



(대부분 새로 사는 등 돈으로 해결하는 것이기때문에)조치방법은 간단한 편이지만, 
원인을 찾는게 쉬운일이 아니지요. 


해결법

- 메모리 불량
 초기 불량일 경우 교체하는 수 밖에 없음.

- cpu 장착불량
 cpu 재장착.

- 그래픽카드 불량
 그래픽카드 교체.

- 오버클럭 실패
 바이오스 초기화.
 메인보드의 시모스클리어 점퍼를 사용하는 방법도 있고, 전원을 완전히 차단한 후 수은전지를 제거하는 방법도 있음.

- 메인보드 고장
 메인보드교체

- 파워 불량
 좋은 파워서플라이를 샀다면 이게 원인이 되는 경우는 거의 없지만, 저가형이라면 가능성이 있음.
 파워 교체.

- 메인보드의 cpu 미지원
 이 경우 본인이 잘 알아보고 cpu를 선택한 것이라면 대부분 바이오스 업데이트를 통해 해결.
 업그레이드 시에 cpu 지원 여부를 잘 알아보고 구입하는 것이 중요.


- 케이스 접지 불량
 접지 불량은 근본적으로 가정내에 들어오는 전력과 콘센트 등 배선의 문제이기때문에 근본적인 해결이 어려움.  그나마 최선이 멀티탭을 좋을걸 쓰거나 좋은 케이스로 교체, 창틀등에 임시로 접지하는 방법 등이 있음.

- 소켓 번 등의 cpu핀 혹은 소켓핀의 문제
 cpu 재장착으로 해결이되면 다행이지만, 이미 핀이 복구불가능한 수준으로 손상되었을 경우 해당 제품은 교체 밖에 방법이 없음.

- 그래픽카드 호환성 문제
 요즘 세상에는 거의 없는 일이기는 한데, 구형pc에서는 의외로 자주 발생.
 그래픽카드 교체.

- 메모리 호환 문제
 EK, 시넥스 등의 메모리를 사용할 때는 문제가 발생하다가 삼성걸로 교체를 하니 해결된 사례가 있는 등 의외로 무시할수 없는 원인.
 


대부분이 무상 수리, 교환이 불가능하면 돈이 드는 방법이기때문에 원인을 확실히 찾아보는게 좋습니다.
잘못된 원인 판단은 불필요한 구매로 이어져 생돈만 날리는 상황이 발생할 수도 있습니다.

저 사례들은 대표적인 경우일뿐이고, 예상치도 못한 원인도 많습니다.
이번에 제가 당한 사례도 그런거고요.



현재 사용보드가 MSI P45 Neo3-FR V3 입니다.
MSI 보드에서 지원하는 점퍼를 통해 FSB 오버클럭상태.(E5400 2.7GHz -> 3.6GHz, 기본전압) 
현상은 모니터에 아무것도 뜨지 않고 무한재부팅.

대충 짚이는 원인이,
메모리 불량
오버클럭 실패
cpu장착 불량
메인보드 고장
파워 고장 

정도입니다만, 1년 넘게 정상적으로 사용했다는 점에서 가능성이 적어보입니다.

일단 메모리 교체 후 테스트로 메모리 불량 여부를 확인. - 메모리 이상없음
바이오스 리셋으로 오버클럭 해제.
cpu 재장착.
파워는 델타제품인지라 문제가 생길리가 없습니다.(플웨즈 등에서 한동안 말이 많았던 제품도 아님. 그 상위제품)

할 수 있는걸 다 해봤지만 해결이 안 됩니다.

마지막으로 걸리는게 메인보드 고장.
이게 문제면 강제 업그레이드입니다. ㅜㅜ 자금은 어디서 구하라고 OTL

마지막이라는 심정으로 본체를 완전 분해 후 재조립하려고 분해를 시작합니다.
불가사의하게도 저런 비논리적인 방법으로 해결되는 경우가 의외로 많습니다. -_-;;

분해 과정에서 원인이 발견되었으니......



메인보드를 중고로 구입했는데, 구입당시에 이전 사용자가 보드의 각종 칩에 방열판을 붙여놨더군요.

빨간 상자로 표시된 저 3군데 말이지요.
방열판 부착 자체가 특별히 필요한건 아니지만 그렇다고 나쁠건 없습니다.



문제는 가운데와 오른쪽에 붙어있던 방열판에 떨어진 것.
더위때문인지 칩의 발열때문인지 접착력이 떨어져서 칩에 반쯤 걸쳐있더군요.

특히나 가운데는 평소에는 그래픽카드에 가려서 잘 보이지도 않는 부분.

가운데와 오른쪽, 두 방열판을 제거하니 정상적으로 동작. -_-;;
바이오스 리셋 등 그 동안의 대처가 삽질이 되는 순간입니다.

아무래도 방열판이 메인보드의 저항등에 접촉하면서 쇼트가 났나봅니다.

이런 말도 안되는 것이 원인일수있으니 원인을 찾을 때 메인보드를 꼼꼼히 살펴봐야할듯.

-추가-
이 후에 다시 동일 증상이 발생하여 다시 한번 꼼꼼히 확인한 결과, 오버클럭 세팅이 원인이었습니다.
제가 원래 오버클럭을 할 때 조건이 다음과 같습니다.
1. 기본전압 (전압 조정 없음, 추가 전압으로 인한 소비전력 증가가 ㅎㄷㄷ하기때문)
2. 램 오버는 안 함 (안정화 작업이 cpu에 비해 무지하게 귀찮고 오래걸림)

레퍼런스 상태가 fsb800(쿼드펌핑), 램클럭 800 인데, 저 조건에서 가능한 최대치가 fsb1066 입니다.
이 때 램 디바이더를 따로 조절하지 않으면 램클럭이 1066 으로 상승합니다.
그런데 DDR2 메모리 중에 추가 전압없이 이 정도 오버클럭이 되는 램은 거의 없지요.
램 디바이더를 조절해야하는데, MSI는 오토로 세팅하면 800으로 잡아준다고 나옵니다.
그래서 가만히 놔뒀는데, 아무래도 이게 원인인듯합니다.
램 디바이더를 1 : 1.5 로 강제설정해주니 부팅이 되네요.

참고) 램 디바이더 비율.
(FSB 클럭 x4) : (메모리 클럭x2 x2)

FSB 클럭 x4 : x4 - 쿼드펌핑
메모리 클럭x2 x2 : x2 - DDR이므로 2배, x2 - 듀얼채널

앞의 상황을 예로 계산해보면,
FSB 클럭 : 266MHz
메모리 클럭 : 400MHz

266 x4 : 400 x2 x2 = 1064 : 1600 = 1 : 1.5

AMD와 네할렘부터의 인텔에서는 중간에 NB(AMD)/언코어(인텔) Frequency 를 도압하면서 저 램 디바이더(or 램 ratio) 라는 개념을 사용할 수가 없습니다.


출처: http://gamma0burst.tistory.com/295 [감마의 하드웨어정보.]
번호 제목 글쓴이 날짜 조회 수
577 source, sink를 직접 구현하여 사용하는 예시 총관리자 2019.05.30 395
576 kerberos설정된 상태의 spooldir->memory->hdfs로 저장하는 과정의 flume agent configuration구성 예시 총관리자 2019.05.30 171
575 hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 merge하여 동일한 테이블에 입력하는 방법 총관리자 2019.05.23 640
574 하둡 클러스터 전체 노드를 다시 기동하면 invalidate metadata를 수행해야 데이터가 틀어지지 않는다. 총관리자 2019.05.20 114
573 Could not configure server becase SASL configuration did not allow the Zookeeper server to authenticate itself properly: javax.security.auth.login.LoginException: Checksum failed 총관리자 2019.05.18 432
572 json으로 존재하는 데이터 parsing하기 총관리자 2019.03.25 970
571 TransmitData() to failed: Network error: Recv() got EOF from remote (error 108) 오류 현상 총관리자 2019.02.15 355
570 [Oozie]Disk I/O error: Failed to open HDFS file dhfs://..../tb_aaa/....OPYING 총관리자 2019.02.15 311
569 kafka에서 메세지 중복 consume이 발생할 수 있는 상황 총관리자 2018.10.23 258
568 [sentry]role부여후 테이블명이 변경되어 오류가 발생할때 조치방법 총관리자 2018.10.16 215
567 hive metastore ERD file 총관리자 2018.09.20 723
566 Error: java.lang.RuntimeException: java.lang.OutOfMemoryError 오류가 발생하는 경우 총관리자 2018.09.20 215
565 physical memory used되면서 mapper가 kill되는 경우 오류 발생시 조치 총관리자 2018.09.20 1518
564 impala,hive및 hdfs만 접근가능하고 파일을 이용한 테이블생성가능하도록 hue 권한설정설정 총관리자 2018.09.17 356
563 cloudera(python 2.7.5)에서 anaconda3로 설치한 외부 python(3.6.6)을 이용하여 pyspark를 사용하는 설정 총관리자 2018.09.14 1084
562 ntp시간 맞추기 총관리자 2018.09.12 249
561 ubuntu 커널 업그레이드 방법 총관리자 2018.09.02 1416
560 oracle to hive data type정리표 총관리자 2018.08.22 763
559 postgresql-9.4에서 FATAL: remaining connection slots are reserved for non-replication superuser connections가 나올때 조치 총관리자 2018.08.16 935
558 sentry설정 방법및 활성화시 설정이 필요한 파일및 설정값, 계정생성 방법 총관리자 2018.08.16 765

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로