메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


impala테이블이 어떤 형태인지에 따라 다음과 같이 2가지 방법으로 수행할 수 있다. 

특히 parquet형식의 테이블인 경우 set num_nodes=1을 먼저 수행해주면 여러개의 fragment로 수행하지 않고 1개의 fragment로 수행되며 지정하지 않으면 병렬 처리를 위해서 가능한한 1개 이상의 fragment로 나뉘어서 수행된다. 

1개의 노드에서만 처리할때 파일 사이즈가 많이 크면 OOM을 유발할 수 있으니 주의해야 한다. 


1. text형식의 hdfs파일에 대한 테이블인 경우 : insert overwrite table 테이블명 select * from 테이블명;

2. parquet형식의 hdfs파일에 대한 테이블인 경우  : set num_nodes=1; insert overwrite table 테이블명 select * from 테이블명;



*참고 

-- OVERWRITE가 붙으면 해당 위치의 내용을 삭제하고 덮어 쓴다. 

INSERT OVERWRITE TABLE target PARTITION(col1 = 'a', col2)

SELECT data1,

       date2

  FROM source;

번호 제목 날짜 조회 수
45 우분투 16.04LTS에 Jupyter설치 2018.04.17 3957
44 not leader of this config: current role FOLLOWER 오류 발생시 확인방법 2022.01.17 3941
43 lateral view 예제 2014.09.18 3904
42 impala session type별 표시되는 정보로 구분하는 방법 2021.05.25 3873
41 impala external 테이블 생성시 컬럼과 라인 구분자를 지정하여 테이블 생성하는 예시 2020.02.20 3850
40 Apache Toree설치(Jupyter에서 Scala, PySpark, SparkR, SQL을 사용할 수 있도록 하는 Kernel) 2018.04.17 3848
39 streaming작업시 입력된 값에 대한 사본을 만들게 되는데 이것이 실패했을때 발생하는 경고메세지 2017.04.03 3841
38 Scala를 이용한 Streaming예제 2018.03.08 3809
37 spark에서 hive table을 읽어 출력하는 예제 소스 2017.03.09 3791
36 Query 1234:1234 expired due to client inactivity(timeout is 5m)및 invalid query handle 2022.06.10 3775
35 Caused by: java.lang.ClassNotFoundException: org.apache.spark.Logging 발생시 조치사항 2017.04.19 3752
» small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블) 2022.07.04 3740
33 Hive JDBC Connection과 유형별 에러및 필요한 jar파일 2021.05.24 3724
32 kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법) 2016.07.13 3719
31 spark-submit 실행시 "java.lang.OutOfMemoryError: Java heap space"발생시 조치사항 2018.02.01 3710
30 hive기동시 Caused by: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D 오류 발생시 조치사항 2016.09.25 3631
29 hive에서 insert overwrite directory.. 로 하면 default column구분자는 'SOH'혹은 't'가 됨 2014.05.20 3590
28 spark notebook 0.7.0설치및 설정 2016.11.14 3574
27 [Impala jdbc]CDP7.1.7환경에서 java프로그램을 이용하여 kerberized impala cluster에 접근하여 SQL을 수행하는 방법 2023.08.22 3544
26 spark stream처리할때 두개의 client프로그램이 동일한 checkpoint로 접근할때 발생하는 오류 내용 2018.01.16 3537
위로