메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


impala테이블이 어떤 형태인지에 따라 다음과 같이 2가지 방법으로 수행할 수 있다. 

특히 parquet형식의 테이블인 경우 set num_nodes=1을 먼저 수행해주면 여러개의 fragment로 수행하지 않고 1개의 fragment로 수행되며 지정하지 않으면 병렬 처리를 위해서 가능한한 1개 이상의 fragment로 나뉘어서 수행된다. 

1개의 노드에서만 처리할때 파일 사이즈가 많이 크면 OOM을 유발할 수 있으니 주의해야 한다. 


1. text형식의 hdfs파일에 대한 테이블인 경우 : insert overwrite table 테이블명 select * from 테이블명;

2. parquet형식의 hdfs파일에 대한 테이블인 경우  : set num_nodes=1; insert overwrite table 테이블명 select * from 테이블명;



*참고 

-- OVERWRITE가 붙으면 해당 위치의 내용을 삭제하고 덮어 쓴다. 

INSERT OVERWRITE TABLE target PARTITION(col1 = 'a', col2)

SELECT data1,

       date2

  FROM source;

번호 제목 글쓴이 날짜 조회 수
180 Query Status: Sender xxx.xxx.xxx.xxx timed out waiting for receiver fragment instance: 1234:cdsf, dest node: 10 의 오류 원인및 대응방안 총관리자 2021.11.03 77
179 A Cluster의 HDFS 디렉토리및 파일을 사용자및 권한 유지 하여 다운 받아서 B Cluster에 넣기 총관리자 2020.05.06 77
178 hadoop에서 yarn jar ..를 이용하여 appliction을 실행하여 정상적(?)으로 수행되었으나 yarn UI의 어플리케이션 목록에 나타나지 않는 문제 총관리자 2017.05.02 77
177 테이블의 row수를 빠르게 카운트 하는 방법 총관리자 2017.01.26 77
176 How-to: Tune Your Apache Spark Jobs (Part 2) file 총관리자 2016.10.31 77
175 S2RDF 테스트(벤치마크 테스트를 기준으로 python, scala소스가 만들어져서 기능은 파악되지 못함) [2] file 총관리자 2016.05.27 76
» small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블) gooper 2022.07.04 75
173 [CentOS 7.4]Hadoop NFS gateway기동시 Cannot connect to port 2049 오류 발생시 확인/조치 총관리자 2022.03.02 75
172 특정 커밋 시점(commit id를 기준으로)으로 돌리기(reset) 총관리자 2016.11.21 75
171 gradle을 이용하여 jar파일 생성시 provided속성을 지정할 수 있게 설정하는 방법 총관리자 2016.08.09 75
170 Hadoop 2.7.x에서 사용할 수 있는 파일/디렉토리 관련 util성 클래스 파일 총관리자 2017.09.28 74
169 DBCP Datasource(org.apache.commons.dbcp.BasicDataSource) 설정 및 속성 설명 총관리자 2016.09.26 74
168 [SBT] project.sbt에 libraryDependencies에 필요한 jar를 지정했으나 sbt compile할때 클래스를 못찾는 오류가 발생했을때 조치사항 총관리자 2016.08.03 74
167 drools에서 drl관련 로그를 기록하기 위한 클래스 파일 총관리자 2016.07.21 74
166 [sbt] sbt 0.13.11 를 windows에 설치하고 scala프로그램을 compile해서 jar파일 만들기 총관리자 2016.07.11 73
165 SPIN(SPARQL Inference Notation)이란.. file 총관리자 2016.02.25 73
164 Cloudera의 CMS각 컴포넌트의 역할 총관리자 2020.02.10 71
163 jdk 9이상 사용하려면 repository를 아래와 같이 지정해야한다. 총관리자 2019.06.02 71
162 CentOS6에 python3.5.1 소스코드로 빌드하여 설치하기 총관리자 2016.05.27 71
161 hbase startrow와 endrow를 지정하여 검색하기 샘플 총관리자 2016.12.07 70

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로