Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

kafka producer / consumer구현시 설정 옵션 설명

총관리자 2016.10.19 17:10 조회 수 : 121

* 출처 : http://epicdevs.com/21

* 샘플 소스 : https://www.gooper.com/ss/index.php?mid=bigdata&category=2776&document_srl=3161

<Producer>

필수 프로퍼티

프로퍼티

설명

metadata.broker.list

메타데이터를 받아 올 Kafka broker 리스트. 호스트1:포트1,호스트2:포트2,호스트3:포트3의 형태로 명시한다.
예) kafka-test-001.epicdevs.com:9092,kafka-test-002.epicdevs.com:9092,kafka-test-003.epicdevs.com:9092

여기서 명시하는 broker는 메타데이터를 받아오는 데만 사용하고, 실제 메시지를 전송할 때에는 메타데이터를 기반으로 새로운 connection을 맺은 다음 메시지를 전송한다. 따라서 이 리스트에는 전체 broker 중 일부만 명시해도 무관하다.

중요 프로퍼티

프로퍼티	기본 값	설명
serializer.class	kafka.serializer.DefaultEncoder	메시지를 serialize할 때 사용하는 인코더.DefaultEncoder는 byte[]를 받아서 그대로 전달한다.
key.serializer.class	serializer.class의 값과 동일	메시지 키를 serialize할 때 사용하는 인코더.
partitioner.class	kafka.producer.DefaultPartitioner	메시지를 어떤 partition에 전송할지 결정하는 클래스. DefaultPartitioner는 메시지 키의 해시 코드를 기반으로 메시지를 전송할 partition을 결정한다. 메시지 키를 명시하지 않았거나 null 값을 키로 전달할 경우 사용자가 명시한 partitioner.class를 무시하고 임의의 partition에 메시지를 보내게 된다. 이 때문에 특정 상황에서 전체 partition에 메시지가 제대로 분산되지 않는 현상이 발생할 수 있다. 이에 대한 자세한 사항은 Kafka FAQ의 Why is data not evenly distributed among partitions when a partitioning key is not specified?를 참조하길 바란다.
request.required.acks	0	Producer가 전송한 메시지가 몇 개의 replica에 commit되어야 ack처리(성공적으로 전송된 것으로 간주)를 하는지 결정하는 기준. 0: producer는 broker로부터 ack를 기다리지 않고 메시지 전송이 끝나자마자 성공된 것으로 간주한다. 응답 시간은 가장 빠르지만 broker에서 오류가 발생할 경우 메시지가 유실된다. 1: leader를 맡고있는 replica에 메시지가 commit되면 ack처리를 한다. N: N개의 replica에 메시지가 commit되면 ack처리를 한다. -1: 모든 replica에 메시지가 commit되면 ack처리를 한다.
compression.codec	none	메시지를 압축할 때 사용할 코덱. none, gzip,snappy 중 하나를 선택할 수 있다. none을 선택하면 메시지를 압축하지 않는다.
producer.type	sync	Producer가 메시지를 동기적으로 전송할지 비동기적으로 전송할지에 대한 설정. 동기적으로 전송하려면 sync로 명시하고 비동기적으로 전송하려면async로 명시한다. 비동기 producer를 사용할 경우 메시지를 일정 시간 큐에 쌓아 두었다가 한 번에 전송하므로 producer의 메시지 처리량을 향상시킬 수 있다. 단, 장애가 발생할 경우 전송하지 않고 쌓아 둔 메시지가 유실될 우려가 있다.
queue.buffering.max.ms	5000	비동기 producer를 사용할 경우 몇 ms동안 메시지를 모아둘지 결정하는 값. 비동기 producer는queue.buffering.max.ms 값에 도달하거나batch.num.messages 값에 도달할 경우 쌓아두었던 메시지를 전송한다.
batch.num.messages	200	비동기 producer를 사용할 경우 최대 몇 개의 메시지를 모아둘지 결정하는 값. 비동기 producer는queue.buffering.max.ms 값에 도달하거나batch.num.messages 값에 도달할 경우 쌓아두었던 메시지를 전송한다.

위에서 언급한 필수 프로퍼티와 중요 프로퍼티 외의 항목들은 Kafka 공식 페이지의 3.3 Producer Configs를 참고하길 바란다.

<Consumer>

코드 상에는 consumer가 소비할 메시지의 offset과 관련된 내용은 전혀 존재하지 않는다. Offset 값은 Zookeeper에서 별도로 관리하며, high level consumer는 Zookeeper로부터 자신이 속한 consumer group이 몇 번째 메시지 offset을 소비할 차례인지 전달받은 뒤 해당 offset의 메시지부터 소비하기 시작한다.

필수 프로퍼티

프로퍼티	설명
group.id	Consumer가 속한 consumer group의 ID. Zookeeper에서는 각 consumer group의 메시지 offset을 관리하는데, 이 때 이 ID가 키로써 사용된다. 따라서 consumer group ID가 같으면 모두 같은 consumer group에 속한 것으로 간주되며 메시지 offset 값 또한 공유된다.
zookeeper.connect	Zookeeper 인스턴스 리스트. 호스트1:포트1,호스트2:포트2,호스트3:포트3의 형태로 명시한다. 예) kafka-test-001.epicdevs.com:2181,kafka-test-002.epicdevs.com:2181,kafka-test-003.epicdevs.com:2181

중요 프로퍼티

프로퍼티	기본 값	설명
auto.commit.enable	true	Consumer가 메시지를 전달받은 뒤 자동으로 offset 값을 commit할지 결정하는 플래그. 메시지가 성공적으로 처리되었을 때만 offset이 commit되도록 하려면 이 값을 false로 설정해야 한다. 이 값이 true일 경우auto.commit.interval.ms 값마다 주기적으로 offset을 commit하며,false일 경우 ConsumerConnector의 commitOffsets 메소드를 직접 호출해야 offset이 commit된다
auto.commit.interval.ms	60000	auto.commit.enable이 true일 때 offset을 자동으로 commit하는 주기. 이 값을 길게 잡으면 메시지 처리 중에 장애가 발생할 경우 실제로 처리된 메시지 offset과 commit된 offset 간의 격차가 커져서 fail over 후 중복으로 처리되는 메시지의 수가 많아질 가능성이 높으며, 짧게 잡을 경우 잦은 Zookeeper 업데이트로 인한 오버헤드가 발생할 수 있다.
auto.offset.reset	largest	Consumer가 속한 consumer group의 offset 값이 존재하지 않거나 범위를 벗어나는 값을 전달받았을 경우 어떻게 동작할지를 정하는 값. smallest: 가장 작은 offset의 메시지부터 소비한다. largest: 가장 큰 offset의 메시지 이후부터 소비한다. (즉, 새롭게 전송되는 메시지부터 소비한다.)

위에서 언급한 필수 프로퍼티와 중요 프로퍼티 외의 항목들은 Kafka 공식 페이지의 3.2 Consumer Configs를 참고하길 바란다.

이 게시물을

번호	제목	글쓴이	날짜	조회 수
260	[TLS]pkcs12형식의 인증서 생성및 jks형식 인증서 생성 커맨드 예시	총관리자	2022.03.15	123
259	여러가지 방법으로 특정 jar파일을 exclude하지 못하는 경우 해당 jar파일을 제외시키는 방법	총관리자	2016.08.11	122
258	[Kudu]Schema별 혹은 테이블별 사용량(Replica포함) 구하는 방법	gooper	2022.07.14	121
»	producer / consumer구현시 설정 옵션 설명	총관리자	2016.10.19	121
256	HBase 설정 최적화하기(VCNC)	총관리자	2017.07.18	120
255	VPS에서는 root로 실행해도 swap파일을 만들지 못하게 만들어 두었지만 swap파일을 생성하는 방법	총관리자	2017.06.20	120
254	console명령과 API비교	총관리자	2015.12.21	120
253	./hadoop-daemon.sh start namenode로 namenode기동시 EditLog의 custerId, namespaceId가 달라서 발생하는 오류 해결방법	총관리자	2016.09.24	119
252	select와 group by결과 값이 없는경우의 리턴 값이 다름	총관리자	2016.02.05	119
251	tablet별 disk사용량 확인하는 방법	총관리자	2021.08.27	118
250	hadoop에서 yarn jar ..를 이용하여 appliction을 실행하여 정상적으로 수행되었으나 yarn UI의 어플리케이션 목록에 나타나지 않는 문제	총관리자	2017.05.02	117
249	[CDP7.1.7]BDR작업후 오류로 Diagnostic Data를 수집하는 동안 "No content to map due to end-of-input at [Source: (String)""; line: 1, column: 0]" 오류 발생시 조치	gooper	2024.02.20	115
248	하둡 클러스터 전체 노드를 다시 기동하면 invalidate metadata를 수행해야 데이터가 틀어지지 않는다.	총관리자	2019.05.20	114
247	Collections.sort를 이용한 List<User>형태의 데이타 정렬(숫자, 문자에 대해서 각각 asc/desc및 복합정렬)	총관리자	2016.12.15	114
246	Impala daemon기동시 "Could not create temporary timezone file"오류 발생시 조치사항	총관리자	2018.03.29	113
245	test333444	총관리자	2017.05.01	113
244	solrcloud에 solrdf1.1설치하고 테스트 하기	총관리자	2016.04.22	113
243	lagom에서 제공하는 초기 생성기능을 이용하여 생성한 프로젝트의 소스 파악	총관리자	2018.01.16	111
242	java스레드 덤프 분석하기	총관리자	2016.11.03	111
241	Toree 0.1.0-incubating이 Scala 2.10.4까지만 지원하게 되어서 발생하는 NoSuchMethod오류 문제 해결방법(scala 2.11.x을 지원하지만 오류가 발생할 수 있음)	총관리자	2018.04.20	110

쓰기 태그

첫 페이지 20 21 22 23 24 25 26 27 28 29 끝 페이지

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

kafka producer / consumer구현시 설정 옵션 설명

댓글 0

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다. 필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

kafka producer / consumer구현시 설정 옵션 설명

댓글 0

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc. We are open to the required minutes. Please send inquiries to gooper@gooper.com.

LOGIN

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.