Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)

총관리자 2016.07.13 15:00 조회 수 : 1924

0. test-topic은 미리 생성해둔다.

(./bin/kafka-topics.sh --create --zookeeper gsda1:2181,gsda2:2181,gsda3:2181 --replication-factor 3 --partitions 3 --topic test-topic)

1. scala-ide용 eclipse에서 아래의 소스를 편집한다.

2. 해당 프로젝트의 console창에서 "sbt clean assemlby"를 실행하여 fat jar파일을 만든다.(파일명 : icbms-assembly-2.0.jar)

3. 서버에서 producer를 실행한다.(icbms.test.KafkaWordCountProducer)

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master local[2] --class icbms.test.KafkaWordCountProducer --jars icbms-assembly-2.0.jar icbms_2.10-2.0.jar gsda1:7077,gsda2:7077 test-topic 1 1

4. 서버에서 consumer를 실행한다.(icbms.test.KafkaWordCount)

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master local[2] --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar icbms_2.10-2.0.jar  gsda1:2181,gsda2:2181 testg-1 test-topic 1

* 다양한 실행방법

    (icbms-assembly-2.0.jar은 "sbt assembly"명령으로 만들어지며, icbms_2.10-2.0.jar는 "sbt package"명령으로 만들어진다.)

가. yarn에서 실행(#1) : /svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master yarn --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar,icbms_2.10-2.0.jar icbms_2.10-2.0.jar  gsda1:2181,gsda2:2181 testg-1 test-topic 3

나. yarn에서 실행(#1) : /svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master yarn --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar --files icbms_2.10-2.0.jar icbms_2.10-2.0.jar gsda1:2181,gsda2:2181 testg-1 test-topic 3

다. spark cluster에서 실행

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master spark://gsda1:7077,sda2:7077 --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar icbms-assembly-2.0.jar gsda1:2181,gsda2:2181 testg-1 test-topic 3

라. local모드로 실행

/svc/apps/sda/bin/hadoop/spark/bin/spark-submit --master local[2] --class icbms.test.KafkaWordCount --jars icbms-assembly-2.0.jar icbms_2.10-2.0.jar gsda1:2181,sda2:2181 testg-1 test-topic 3

-----------------scala소스 빌드용 설정파일(project.sbt) ---------------

import sbtassembly.AssemblyPlugin._

name := "icbms"

version := "2.0"

 //scalaVersion := "2.11.8"
scalaVersion := "2.10.4"

resolvers += "Akka Repository" at "http://repo.akka.io/releases/"

libraryDependencies ++= Seq(
	("org.apache.spark" %% "spark-core" % "1.3.1" % "provided")
	.exclude("org.mortbay.jetty", "servlet-api").
    exclude("commons-beanutils", "commons-beanutils-core").
    exclude("commons-collections", "commons-collections").
    exclude("commons-logging", "commons-logging").
    exclude("com.esotericsoftware.minlog", "minlog").
    exclude("com.codahale.metrics", "metrics-core")
	,
	"org.apache.spark" %% "spark-sql" % "1.3.1" ,
	"org.apache.spark" % "spark-streaming_2.10" % "1.3.1",
	"org.apache.spark" % "spark-streaming-kafka_2.10" % "1.3.1" ,
	"org.apache.kafka" % "kafka_2.10" % "0.9.0.1" ,
	"org.apache.avro" % "avro" % "1.7.7" 
)

assemblyMergeStrategy in assembly := {
    case PathList("javax", "servlet", xs @ _*) => MergeStrategy.last
    case PathList("javax", "activation", xs @ _*) => MergeStrategy.last
    case PathList("org", "apache", xs @ _*) => MergeStrategy.last
    case PathList("com", "google", xs @ _*) => MergeStrategy.last
    case PathList("com", "esotericsoftware", xs @ _*) => MergeStrategy.last
    case PathList("com", "codahale", xs @ _*) => MergeStrategy.last
    case PathList("com", "yammer", xs @ _*) => MergeStrategy.last
    case "about.html" => MergeStrategy.rename
    case "META-INF/ECLIPSEF.RSA" => MergeStrategy.last
    case "META-INF/mailcap" => MergeStrategy.last
    case "META-INF/mimetypes.default" => MergeStrategy.last
    case "plugin.properties" => MergeStrategy.last
    case "log4j.properties" => MergeStrategy.last
    case x =>
        val oldStrategy = (assemblyMergeStrategy in assembly).value
        oldStrategy(x)
}

----------------------소스파일---------------

package icbms.test

import java.util.HashMap

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord}

import org.apache.spark.SparkConf

import org.apache.spark.streaming._

import org.apache.spark.streaming.kafka._

import org.apache.spark.streaming.dstream.DStream.toPairDStreamFunctions

/**

 * Consumes messages from one or more topics in Kafka and does wordcount.

 * Usage: KafkaWordCount <zkQuorum> <group> <topics> <numThreads>

 *   <zkQuorum> is a list of one or more zookeeper servers that make quorum

 *   <group> is the name of kafka consumer group

 *   <topics> is a list of one or more kafka topics to consume from

 *   <numThreads> is the number of threads the kafka consumer should use

*

 * Example:

 *    `$ bin/run-example 

 *      org.apache.spark.examples.streaming.KafkaWordCount zoo01,zoo02,zoo03 

 *      my-consumer-group topic1,topic2 1`

*/

object KafkaWordCount {

  def main(args: Array[String]) {

    if (args.length < 4) {

      System.err.println("Usage: KafkaWordCount <zkQuorum> <group> <topics> <numThreads>")

      System.exit(1)

}

    //StreamingExamples.setStreamingLogLevels()

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf().setAppName("KafkaWordCount")

    //sparkConf.setMaster("spark://gsda1:7077,gsda2:7077")

    //sparkConf.setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf, Seconds(2))

    ssc.checkpoint("checkpoint")

    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1L))

      .reduceByKeyAndWindow(_ + _, _ - _, Minutes(10), Seconds(2), 2)

    wordCounts.print()

    ssc.start()

    ssc.awaitTermination()

}

}

// Produces some random words between 1 and 100.

object KafkaWordCountProducer {

  def main(args: Array[String]) {

    if (args.length < 4) {

      System.err.println("Usage: KafkaWordCountProducer <metadataBrokerList> <topic> " +

        "<messagesPerSec> <wordsPerMessage>")

      System.exit(1)

}

    val Array(brokers, topic, messagesPerSec, wordsPerMessage) = args

    // Zookeeper connection properties

    val props = new HashMap[String, Object]()

    props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)

    props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,

      "org.apache.kafka.common.serialization.StringSerializer")

    props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,

      "org.apache.kafka.common.serialization.StringSerializer")

    val producer = new KafkaProducer[String, String](props)

    // Send some messages

    while(true) {

      (1 to messagesPerSec.toInt).foreach { messageNum =>

        val str = (1 to wordsPerMessage.toInt).map(x => scala.util.Random.nextInt(10).toString)

          .mkString(" ")

        val message = new ProducerRecord[String, String](topic, null, str)

        producer.send(message)

}

      Thread.sleep(1000)

}

}

}

이 게시물을

이 글의 추천인 목록 목록

번호	제목	날짜	조회 수
270	spark, kafka, mariadb, jena, springframework등을 이용하여 공통모듈을 jar로 만들기 위한 build.gradle파일(참고용)	2016.08.19	1878
269	kafka 0.9.0.1버젼의 producer와 kafka버젼이 0.10.0.1인 consumer가 서로 대화하는 모습	2016.08.18	1650
268	build.gradle을 pom.xml로 변환하는 방법	2016.08.18	3203
267	Jena는 기본적으로 multi thread환경을 지원하지 않는다.	2016.08.16	1938
266	down된 broker로 메세지를 전송하려는 경우의 오류 내용및 조치사항	2016.08.12	1300
265	여러가지 방법으로 특정 jar파일을 exclude하지 못하는 경우 해당 jar파일을 제외시키는 방법	2016.08.11	1060
264	jar파일의 dependency찾는 프로그램	2016.08.11	1249
263	compile할때와 exclude할때 대상을 표현하는 명칭이 다르므로 주의할것	2016.08.10	2116
262	외부 jar파일을 만들려고하는jar파일의 package로 포함하는 방법	2016.08.10	906
261	servlet-api를 jar형태로 build할때 포함하지 말고 java 설치 위치의 jre/lib/ext에 복사하여 사용하는것이 좋다.	2016.08.10	1456
260	[Elephas] Jena Elephas를 이용하여 Spark에서 rdfTriples의 RDD를 만들고 RDD관련 작업하는 샘플소스	2016.08.10	1853
259	로컬의 라이브러리파일들을 dependency에 포함시키는 방법	2016.08.09	1940
258	gradle을 이용하여 jar파일 생성시 provided속성을 지정할 수 있게 설정하는 방법	2016.08.09	1860
257	[SBT] assembly시 "[error] deduplicate: different file contents found in the following:"오류 발생시 조치사항	2016.08.04	3044
256	[SBT] SBT 사용법 정리(링크)	2016.08.04	1975
255	[SBT] project.sbt에 libraryDependencies에 필요한 jar를 지정했으나 sbt compile할때 클래스를 못찾는 오류가 발생했을때 조치사항	2016.08.03	2467
254	build할때 unmappable character for encoding MS949 에러 발생시 조치사항	2016.08.03	2284
253	kafkaWordCount.scala의 producer와 consumer 클래스를 이용하여 kafka를 이용한 word count 테스트 하기	2016.08.02	2099
252	bin/start-hbase.sh실행시 org.apache.hadoop.hbase.util.FileSystemVersionException: HBase file layout needs to be upgraded오류가 발생하면 조치사항	2016.08.01	1588
251	start-all.sh로 spark데몬 기동시 "JAVA_HOME is not set"오류 발생시 조치사항	2016.08.01	2595

쓰기 태그

첫 페이지 20 21 22 23 24 25 26 27 28 29 끝 페이지

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)

댓글 0

Cloudera, BigData, Semantic IoT, Hadoop, NoSQL

Cloudera CDH/CDP 및 Hadoop EcoSystem, Semantic IoT등의 개발/운영 기술을 정리합니다. gooper@gooper.com로 문의 주세요.

spark kafka로 부터 메세지를 stream으로 받아 처리하는 spark샘플소스(spark의 producer와 consumer를 sbt로 컴파일 하고 서버에서 spark-submit하는 방법)

댓글 0

LOGIN