Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

Spark+S2RDF S2RDF모듈의 실행부분만 추출하여 별도록 실행하는 방법(draft)

총관리자 2016.06.14 17:07 조회 수 : 36

-----아래는 S2RDF가 제시한 *.py프로그램(테스트 목적으로만 만드어져 있어서 실제 사용할 수 없음)을 사용하지 않고 직접 java나 spark-submit을 호출하여 작업하는 방법을 기록함

--------------------DataSetCreator(동록하려는 data(test2.nq)는 HDFS상의 s2rdf폴더 밑에 존재 해야함, /home/hadoop/DataSetCreator에서 실행)-------------------------------------

1. Generate Vertical Partitioning

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq VP 0.2

==> /tmp/stat_vp.txt가 만들어짐

2. Generate Exteded Vertical Partitioning subset SO

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq SO 0.2

==> /tmp/stat_so.txt가 만들어짐

3. Generate Exteded Vertical Partitioning subset OS

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq OS 0.2

==> /tmp/stat_os.txt가 만들어짐

4. Generate Exteded Vertical Partitioning subset SS

$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq SS 0.2

==> /tmp/stat_ss.txt가 만들어짐

----------------------QueryTranslator(data/하위 파일(DataSetCreator과정을 통해서 만들어짐)은 모두 OS파일로 존재함), /home/hadoop/QueryTranslator/S2RDF_QueryTranslator에서 실행)------------------------

java -jar /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/queryTranslator-1.1.jar -i data/sparql.in -o data/sparql.in -sd data/statistics/ -sUB 0.2

===>

VP STAT Size = 86

OS STAT Size = 353

SO STAT Size = 353

SS STAT Size = 1702

THE NUMBER OF ALL SAVED (< ScaleUB) TRIPLES IS -> 1311014421

THE NUMBER OF ALL SAVED (< ScaleUB) TABLES IS -> 2127

TABLE-><gr__offers>

TABLE-><foaf__homepage>

TABLE-><sorg__author>

TABLE-><wsdbm__friendOf>

TABLE-><wsdbm__likes>

TABLE-><sorg__language>

TABLE-><rev__hasReview>

TABLE-><rev__reviewer>

TABLE-><wsdbm__follows>

TABLE-><gr__includes>

* QueryTranslator실행 위치의 폴더구조(여기서 실행해도 실제 사용되는 것은 data폴더와 queryTranslator-1.1.jar파일이다.)

-bash-4.1$ ll

합계 20192

-rw-rw-r--. 1 hadoop hadoop 0 2016-06-13 15:30 HiveSPARQL_error.log

drwxrwxr-x. 3 hadoop hadoop 4096 2016-06-13 15:36 data

drwxrwxr-x. 2 hadoop hadoop 4096 2016-05-26 18:46 lib

-rw-rw-r--. 1 hadoop hadoop 20661741 2016-04-04 22:34 queryTranslator-1.1.jar

drwxrwxr-x. 3 hadoop hadoop 4096 2016-05-26 18:46 src

-bash-4.1$ ll -R data

data:

합계 16

-rw-rw-r--. 1 hadoop hadoop 0 2016-06-13 15:28 HiveSPARQL_error.log

-rw-rw-r--. 1 hadoop hadoop 730 2015-08-17 17:07 sparql.in

-rw-rw-r--. 1 hadoop hadoop 1821 2016-06-13 15:36 sparql.in.log

-rw-rw-r--. 1 hadoop hadoop 1889 2016-06-13 15:36 sparql.in.sql

drwxrwxr-x. 2 hadoop hadoop 4096 2016-05-26 18:46 statistics

data/statistics:

합계 132

-rw-rw-r--. 1 hadoop hadoop 19129 2015-08-17 17:07 stat_os.txt

-rw-rw-r--. 1 hadoop hadoop 18910 2015-08-17 17:07 stat_so.txt

-rw-rw-r--. 1 hadoop hadoop 89774 2015-08-17 17:07 stat_ss.txt

-rw-rw-r--. 1 hadoop hadoop 3419 2015-08-17 17:07 stat_vp.txt

=====새로운 QueryTranslator=======>

java -jar /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/queryTranslator-1.1.jar -i ./test2/test2.sparql -o ./test2/test2.sparql -sd ./test2/statistics/ -sUB 0.2

-bash-4.1$ mkdir ./test2/statistics

-bash-4.1$ touch ./test2/statistics/stat_vp.txt

-bash-4.1$ touch ./test2/statistics/stat_os.txt

-bash-4.1$ touch ./test2/statistics/stat_so.txt

-bash-4.1$ touch ./test2/statistics/stat_ss.txt

==> ./test2/폴더 밑에 test2.sparql.sql로 sql파일이 생성됨

------------------------QueryExecutor(/home/hadoop/QueryExecutor에서 실행)--------------------------------------

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files ./IL5-1-U-1--SO-OS-SS-VP__WatDiv1M.sql ./queryexecutor_2.10-1.1.jar WatDiv1M IL5-1-U-1--SO-OS-SS-VP__WatDiv1M.sql > ./QueryExecutor.err

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/data/sparql.in.sql ./queryexecutor_2.10-1.1.jar s2rdf sparql.in.sql

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files ./sparql.in__s2rdf.sql ./queryexecutor_2.10-1.1.jar s2rdf sparql.in__s2rdf.sql

---------새로운 QueryExecutor---------------------------------------------------------

$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn --executor-memory 1g --deploy-mode cluster --files /home/hadoop/QueryExecutor/test2/test2.sparql.sql ./queryexecutor_2.10-1.1.jar s2rdf test2.sparql.sql

==> select 결과값이 /tmp/table명/results.txt와 table명/resultTimes.txt파일로 생성됨

이 게시물을

번호	제목	글쓴이	날짜	조회 수
341	ntp시간 맞추기	총관리자	2018.09.12	249
340	centos에 sbt 0.13.5 설치	총관리자	2016.05.30	251
339	우분투에서 패키지 설치시 E: Sub-process /usr/bin/dpkg returned an error code 발생시 조치	총관리자	2017.05.02	252
338	How-to: Build a Complex Event Processing App on Apache Spark and Drools	총관리자	2016.10.31	253
337	?a는 모두 표시하면서 ?b와 비교하여 ?a=?b는 표시하고 ?a!=?b 인경우는 ""로 구성된 결과 집합을 구하는 경우	총관리자	2016.01.29	255
336	HiveServer2인증을 PAM을 이용하도록 설정하는 방법	총관리자	2018.07.21	255
335	DB별 JDBC 드라이버	총관리자	2015.10.02	256
334	Not enough replica available for query at consistency QUORUM가 발생하는 경우	총관리자	2017.06.21	256
333	sparql 1.1 BIND(if() as ?bind변수) 버그로 추정되는 문제점및 해결방안 -> select 문에 (if(,,) as ?bind변수)	총관리자	2016.01.21	257
332	fuseki에 update하는 방법(java api이용)및 주의 사항	총관리자	2015.12.30	258
331	Windows7 64bit 환경에서 Apache Spark 2.2.0 설치하기	총관리자	2017.07.26	260
330	hive metastore db중 TBLS, TABLE_PARAMS테이블 설명	총관리자	2021.10.22	260
329	kafka에서 메세지 중복 consume이 발생할 수 있는 상황	총관리자	2018.10.23	262
328	[MemoryLeak분석]다수의 MongoCleaner 쓰레드가 Sleep상태에 있으면서 Full GC가 계속 발생되는 문제 해결방법	총관리자	2017.01.11	265
327	hbase가 기동시키는 zookeeper에서 받아드리는 ip가 IPv6로 사용되는 경우가 있는데 이를 IPv4로 강제적용하는 방법	총관리자	2015.05.08	268
326	solr 데몬이 떠있는 동안 hadoop이 다운되는 경우 Index dir 'hdfs://mycluster/user/../core_node2/data/index/' of core 'gc_shard1_replica2' is already locked라논 오류가 발생하는데 이에 대한 조치사항	총관리자	2018.01.04	268
325	[sap] Error: java.io.IOException: SQLException in nextKeyValue 오류 발생	총관리자	2020.06.08	273
324	SPARQL의 유형, SPARQL 만들기등에 대한 설명	총관리자	2016.02.18	274
323	nc -l 7777 : 7777포트에서 입력을 받는다.	총관리자	2017.03.23	278
322	impala2를 Cloudera Manager가 아닌 수동으로 설치하는 방법	총관리자	2018.05.30	281

쓰기 태그

첫 페이지 16 17 18 19 20 21 22 23 24 25 끝 페이지

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

Spark+S2RDF S2RDF모듈의 실행부분만 추출하여 별도록 실행하는 방법(draft)

댓글 0

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다. 필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

Spark+S2RDF S2RDF모듈의 실행부분만 추출하여 별도록 실행하는 방법(draft)

댓글 0

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc. We are open to the required minutes. Please send inquiries to gooper@gooper.com.

LOGIN

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.