메뉴 건너뛰기

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.


hive테이블의 물리적인 위치인 HDFS에 여러개의 데이터 파일이 존재할때 한개의 파일로 만들어서 다시 동일한 테이블에 입력하는 hive쿼리는 다음과 같다.

(1번, 2번 모두 가능함)


1. 

set mapreduce.job.running.map.limit=1;

set mapreduce.job.running.reduce.limit=1;

insert overwrite table temp.tb_test select * from temp.tb_test;


2. 

insert overwrite table temp.tb_test select * from temp.tb_test;


를 실행하면 hive에서 실행하면 목적지 테이블에 데이터를 입력할 때 select된 데이터에 한해서 자동으로 merge해서 입력한다.


1번 쿼리를 impala에서 실행하면 set구문이 인식이 안되어 오류가 발생하며 set구문없이  2번 쿼리를 실행하면 파일 개수에는 변함이 잆이 동일한 개수의 파일로  데이터가 overwrite된다.


번호 제목 날짜 조회 수
710 LAGOM 1.4 AND KUBERNETES ORCHESTRATION 2019.07.19 2459
709 https://github.com/Merck/Halyard프로젝트 컴파일및 배포/테스트 2017.01.24 2461
708 [u-Auctions]목록이 1개만 나오는 문제 2017.05.29 2489
707 룰에 매칭되면 발생되는 엑티베이션 객체에 대한 작업(이전값 혹은 현재값)을 처리하는 클래스 파일 2016.07.21 2502
706 테이블의 row수를 빠르게 카운트 하는 방법 2017.01.26 2515
705 jar파일의 dependency찾는 프로그램 2016.08.11 2528
704 JavaStreamingContext를 이용하여 스트림으로 들어오는 문자열 카운트 소스 2017.03.30 2551
703 sparql 1.1 BIND(if() as ?bind변수) 버그로 추정되는 문제점및 해결방안 -> select 문에 (if(,,) as ?bind변수) file 2016.01.21 2570
702 org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException 오류시 조치사항 2016.07.14 2576
701 [PHP7.0]로그파일 위치 2017.05.07 2578
700 ontology, jena, sparql등 전반에 대한 설명및 예제를 제공하는 사이트 2015.12.08 2601
699 lombok설치방법 2020.06.20 2604
698 ?a는 모두 표시하면서 ?b와 비교하여 ?a=?b는 ""로 하고 ?a!=?b 인경우는 해당값을 가지는 결과 집합을 구하는 경우 file 2016.01.29 2611
697 Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.http.HttpConfig.getSchemePrefix()Ljava/lang/String; 해결->실패 2015.06.14 2614
696 주문히스토리 조회 2022.04.30 2618
695 [vue storefrontui]외부 API통합하기 참고 문서 2022.02.09 2630
694 전체 컨택스트 내용 file 2017.12.19 2632
693 mongodb 2.6.6 설치(64bit) 2015.09.30 2633
692 DataSetCreator실행시 "Illegal character in fragment at index"오류가 나는 경우 조치방안 2016.06.17 2634
691 AIX 7.1에 Hadoop설치(정리중#2) 2016.09.20 2634
위로