Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

gooper 2022.07.04 13:53 조회 수 : 3740

impala테이블이 어떤 형태인지에 따라 다음과 같이 2가지 방법으로 수행할 수 있다.

특히 parquet형식의 테이블인 경우 set num_nodes=1을 먼저 수행해주면 여러개의 fragment로 수행하지 않고 1개의 fragment로 수행되며 지정하지 않으면 병렬 처리를 위해서 가능한한 1개 이상의 fragment로 나뉘어서 수행된다.

1개의 노드에서만 처리할때 파일 사이즈가 많이 크면 OOM을 유발할 수 있으니 주의해야 한다.

1. text형식의 hdfs파일에 대한 테이블인 경우 : insert overwrite table 테이블명 select * from 테이블명;

2. parquet형식의 hdfs파일에 대한 테이블인 경우 : set num_nodes=1; insert overwrite table 테이블명 select * from 테이블명;

*참고

-- OVERWRITE가 붙으면 해당 위치의 내용을 삭제하고 덮어 쓴다.

INSERT OVERWRITE TABLE target PARTITION(col1 = 'a', col2)

SELECT data1,

date2

FROM source;

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
45	우분투 16.04LTS에 Jupyter설치	2018.04.17	3957
44	not leader of this config: current role FOLLOWER 오류 발생시 확인방법	2022.01.17	3941
43	lateral view 예제	2014.09.18	3904
42	impala session type별 표시되는 정보로 구분하는 방법	2021.05.25	3873
41	impala external 테이블 생성시 컬럼과 라인 구분자를 지정하여 테이블 생성하는 예시	2020.02.20	3850
40	Apache Toree설치(Jupyter에서 Scala, PySpark, SparkR, SQL을 사용할 수 있도록 하는 Kernel)	2018.04.17	3848
39	streaming작업시 입력된 값에 대한 사본을 만들게 되는데 이것이 실패했을때 발생하는 경고메세지	2017.04.03	3841
38	Scala를 이용한 Streaming예제	2018.03.08	3809
37	spark에서 hive table을 읽어 출력하는 예제 소스	2017.03.09	3791
36	Query 1234:1234 expired due to client inactivity(timeout is 5m)및 invalid query handle	2022.06.10	3775
35	Caused by: java.lang.ClassNotFoundException: org.apache.spark.Logging 발생시 조치사항	2017.04.19	3752
»	small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)	2022.07.04	3740
33	Hive JDBC Connection과 유형별 에러및 필요한 jar파일	2021.05.24	3724
32	kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)	2016.07.13	3719
31	spark-submit 실행시 "java.lang.OutOfMemoryError: Java heap space"발생시 조치사항	2018.02.01	3710
30	hive기동시 Caused by: java.net.URISyntaxException: Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D 오류 발생시 조치사항	2016.09.25	3631
29	hive에서 insert overwrite directory.. 로 하면 default column구분자는 'SOH'혹은 't'가 됨	2014.05.20	3590
28	spark notebook 0.7.0설치및 설정	2016.11.14	3574
27	[Impala jdbc]CDP7.1.7환경에서 java프로그램을 이용하여 kerberized impala cluster에 접근하여 SQL을 수행하는 방법	2023.08.22	3544
26	spark stream처리할때 두개의 client프로그램이 동일한 checkpoint로 접근할때 발생하는 오류 내용	2018.01.16	3537

쓰기 태그

첫 페이지 1 2 3 4 5 6 7 8 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

impala small file 한개 파일로 만들기(text file 혹은 parquet file의 테이블)

댓글 0

LOGIN