메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


MariaDB의 study데이타 베이스에 접근하여 product테이블의 데이타를 가져와서 study/out/productimport에 저장하는 sqoop문장이다.
이때 컬럼구분자는 '\001'(^A)를 사용하고 라인구분자는 '\003'(^C)를 사용한다.
hive폴더에 저장되는 라인은 price >1인 조건을 만족해야하며 productID및 name만 저장된다
이렇게 하면 컬럼에 newline(\n)이 있어도 문제없이 가져올 수 있다.

sqoop import \
--connect=jdbc:mysql://gsda3:포트/study \
--username=db사용자\
--password=패스워드\
--table=product \
--target-dir=study/out/productimport \
--fields-terminated-by='\001' \
--lines-terminated-by='\003'
--where="price > 1 " \
--columns="productID, name"

아래는 위에서 sqoop로 가져온 데이타에 대한 external table을 생성하는 hive명령문이다.

hive 1.1에서 기본적으로 지원하는 라인 구분자는 '\n'만 지원한다.
하지만 textinputformat.record.delimiter을 이용하여 라인 구분자를 변경할 수 있다.

set textinputformat.record.delimiter='\003';
create external table productimport
(productID string, name string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
STORED AS TEXTFILE
LOCATION 'study/out/productimport';
번호 제목 글쓴이 날짜 조회 수
319 [CDP7.1.7]BDR작업후 오류로 Diagnostic Data를 수집하는 동안 "No content to map due to end-of-input at [Source: (String)""; line: 1, column: 0]" 오류 발생시 조치 gooper 2024.02.20 90
318 It is indirectly referenced from required .class files 오류 발생시 조치방법 총관리자 2017.03.09 93
317 HA(Namenode, ResourceManager, Kerberos) 및 보안(Zookeeper, Hadoop) 총관리자 2018.03.16 93
316 [TLS/SSL]Cloudera CDH6.3.4기준 Hue TLS설정 항목 총관리자 2022.05.13 93
315 kafkaWordCount.scala의 producer와 consumer 클래스를 이용하여 kafka를 이용한 word count 테스트 하기 총관리자 2016.08.02 97
314 참고할만한 spark예제를 설명하는 사이트 총관리자 2016.11.11 98
313 Hue Load Balancer를 L4로 L/B하는 경우는 L4쪽 도멘인으로 발행된 인증서를 TLS/SSL항목에 설정해주어야 한다. 총관리자 2021.10.08 101
312 [AD(LADP)] CDP1.7에서 AD및 Kerberos를 연동해도 각 노드에 os account, os group은 생성되어야 하지만 SSSD서비스를 이용하면 직접 생성될 필요가 없다. gooper 2022.06.10 105
311 centos 6에서 mariadb 5.1 to 10.0 으로 upgrade 총관리자 2016.11.01 106
310 spark 2.0.0를 windows에서 실행시 로컬 파일을 읽을때 발생하는 오류 해결 방법 총관리자 2017.01.12 106
309 [Impala TLS/SSL이슈]RangerAdminRESTClient.java:151] Failed to get response, Error is: TrustManager is not specified gooper 2023.02.02 106
308 impala external 테이블 생성시 컬럼과 라인 구분자를 지정하여 테이블 생성하는 예시 총관리자 2020.02.20 107
307 hue.axes_accessattempt테이블 데이터 샘플 총관리자 2020.02.10 108
306 kudu 테이블 metadata강제 삭제시 발생하는 오류 메세지 총관리자 2022.01.12 109
305 Toree 0.1.0-incubating이 Scala 2.10.4까지만 지원하게 되어서 발생하는 NoSuchMethod오류 문제 해결방법(scala 2.11.x을 지원하지만 오류가 발생할 수 있음) 총관리자 2018.04.20 110
304 Impala daemon기동시 "Could not create temporary timezone file"오류 발생시 조치사항 총관리자 2018.03.29 113
303 하둡 클러스터 전체 노드를 다시 기동하면 invalidate metadata를 수행해야 데이터가 틀어지지 않는다. 총관리자 2019.05.20 114
302 hadoop에서 yarn jar ..를 이용하여 appliction을 실행하여 정상적으로 수행되었으나 yarn UI의 어플리케이션 목록에 나타나지 않는 문제 총관리자 2017.05.02 117
301 tablet별 disk사용량 확인하는 방법 총관리자 2021.08.27 118
300 ./hadoop-daemon.sh start namenode로 namenode기동시 EditLog의 custerId, namespaceId가 달라서 발생하는 오류 해결방법 총관리자 2016.09.24 119

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로