메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


-----아래는 S2RDF가 제시한 *.py프로그램(테스트 목적으로만 만드어져 있어서 실제 사용할 수 없음)을 사용하지 않고 직접 java나 spark-submit을 호출하여 작업하는 방법을 기록함

--------------------DataSetCreator(동록하려는 data(test2.nq)는 HDFS상의 s2rdf폴더 밑에 존재 해야함, /home/hadoop/DataSetCreator에서 실행)-------------------------------------
1. Generate Vertical Partitioning
$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq VP 0.2
==> /tmp/stat_vp.txt가 만들어짐

2. Generate Exteded Vertical Partitioning subset SO
$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq SO 0.2 
==> /tmp/stat_so.txt가 만들어짐

3. Generate Exteded Vertical Partitioning subset OS
$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq OS 0.2
==> /tmp/stat_os.txt가 만들어짐

4. Generate Exteded Vertical Partitioning subset SS
$HOME/spark/bin/spark-submit --driver-memory 1g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster ./datasetcreator_2.10-1.1.jar s2rdf/ test2.nq SS 0.2
==> /tmp/stat_ss.txt가 만들어짐




----------------------QueryTranslator(data/하위 파일(DataSetCreator과정을 통해서 만들어짐)은 모두 OS파일로 존재함), /home/hadoop/QueryTranslator/S2RDF_QueryTranslator에서 실행)------------------------
java -jar /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/queryTranslator-1.1.jar -i data/sparql.in -o data/sparql.in -sd data/statistics/ -sUB 0.2
===>
VP STAT Size = 86
OS STAT Size = 353
SO STAT Size = 353
SS STAT Size = 1702
THE NUMBER OF ALL SAVED (< ScaleUB) TRIPLES IS -> 1311014421
THE NUMBER OF ALL SAVED (< ScaleUB) TABLES IS -> 2127
TABLE-><gr__offers>
TABLE-><foaf__homepage>
TABLE-><sorg__author>
TABLE-><wsdbm__friendOf>
TABLE-><wsdbm__likes>
TABLE-><sorg__language>
TABLE-><rev__hasReview>
TABLE-><rev__reviewer>
TABLE-><wsdbm__follows>
TABLE-><gr__includes>


* QueryTranslator실행 위치의 폴더구조(여기서 실행해도 실제 사용되는 것은 data폴더와 queryTranslator-1.1.jar파일이다.)
-bash-4.1$ ll
합계 20192
-rw-rw-r--. 1 hadoop hadoop        0 2016-06-13 15:30 HiveSPARQL_error.log
drwxrwxr-x. 3 hadoop hadoop     4096 2016-06-13 15:36 data
drwxrwxr-x. 2 hadoop hadoop     4096 2016-05-26 18:46 lib
-rw-rw-r--. 1 hadoop hadoop 20661741 2016-04-04 22:34 queryTranslator-1.1.jar
drwxrwxr-x. 3 hadoop hadoop     4096 2016-05-26 18:46 src
-bash-4.1$ ll -R data
data:
합계 16
-rw-rw-r--. 1 hadoop hadoop    0 2016-06-13 15:28 HiveSPARQL_error.log
-rw-rw-r--. 1 hadoop hadoop  730 2015-08-17 17:07 sparql.in
-rw-rw-r--. 1 hadoop hadoop 1821 2016-06-13 15:36 sparql.in.log
-rw-rw-r--. 1 hadoop hadoop 1889 2016-06-13 15:36 sparql.in.sql
drwxrwxr-x. 2 hadoop hadoop 4096 2016-05-26 18:46 statistics

data/statistics:
합계 132
-rw-rw-r--. 1 hadoop hadoop 19129 2015-08-17 17:07 stat_os.txt
-rw-rw-r--. 1 hadoop hadoop 18910 2015-08-17 17:07 stat_so.txt
-rw-rw-r--. 1 hadoop hadoop 89774 2015-08-17 17:07 stat_ss.txt
-rw-rw-r--. 1 hadoop hadoop  3419 2015-08-17 17:07 stat_vp.txt


=====새로운 QueryTranslator=======>
java -jar /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/queryTranslator-1.1.jar -i ./test2/test2.sparql -o ./test2/test2.sparql -sd ./test2/statistics/ -sUB 0.2

-bash-4.1$ mkdir ./test2/statistics
-bash-4.1$ touch ./test2/statistics/stat_vp.txt
-bash-4.1$ touch ./test2/statistics/stat_os.txt
-bash-4.1$ touch ./test2/statistics/stat_so.txt
-bash-4.1$ touch ./test2/statistics/stat_ss.txt
==> ./test2/폴더 밑에 test2.sparql.sql로 sql파일이 생성됨




------------------------QueryExecutor(/home/hadoop/QueryExecutor에서 실행)--------------------------------------
$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster --files ./IL5-1-U-1--SO-OS-SS-VP__WatDiv1M.sql ./queryexecutor_2.10-1.1.jar WatDiv1M IL5-1-U-1--SO-OS-SS-VP__WatDiv1M.sql > ./QueryExecutor.err


$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster --files /home/hadoop/QueryTranslator/S2RDF_QueryTranslator/data/sparql.in.sql ./queryexecutor_2.10-1.1.jar s2rdf sparql.in.sql


$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster --files ./sparql.in__s2rdf.sql ./queryexecutor_2.10-1.1.jar s2rdf sparql.in__s2rdf.sql


---------새로운 QueryExecutor---------------------------------------------------------
$HOME/spark/bin/spark-submit --driver-memory 2g --class runDriver --master yarn  --executor-memory 1g --deploy-mode cluster --files /home/hadoop/QueryExecutor/test2/test2.sparql.sql ./queryexecutor_2.10-1.1.jar s2rdf test2.sparql.sql
==> select 결과값이 /tmp/table명/results.txt와 table명/resultTimes.txt파일로 생성됨
번호 제목 글쓴이 날짜 조회 수
361 [postgresql 9.x] PostgreSQL Replication 구축하기 총관리자 2018.07.17 226
360 hive 0.13.1 설치 + meta정보는 postgresql 9.3에 저장 총관리자 2015.04.30 227
359 Cloudera Manager에서 "Mismatched CDH versions: host has NONE but role expects 5 Suppress..."와 같이 오류 발생시 확인사항 총관리자 2018.06.06 228
358 HDFS 파일및 디렉토리 생성시 생성방법에 따라 권한이 다르게 부여된다. gooper 2022.05.30 228
357 CentOS에서 리눅스(Linux) 포트 열기, 방화벽 설정/해제 등. 총관리자 2016.03.14 231
356 AIX 7.1에서 hive실행시 "hive: line 86: readlink: command not found" 오류가 발생시 임시 조치사항 총관리자 2016.09.25 234
355 Scala에서 countByWindow를 이용하기(예제) 총관리자 2018.03.08 235
354 AIX 7.1에 Hadoop설치(정리중) 총관리자 2016.09.12 236
353 Windows7 64bit 환경에서 Apache Hadoop 2.7.1설치하기 총관리자 2017.07.26 236
352 [보안/인증]javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target발생 원인/조치내용 gooper 2023.10.24 236
351 down된 broker로 메세지를 전송하려는 경우의 오류 내용및 조치사항 총관리자 2016.08.12 238
350 [Dovecot] -ERR [SYS/PERM] Permission denied 총관리자 2017.06.13 238
349 Hbase API를 이용하여 scan시 페이징을 고려하여 목록을 가져올때 사용할 수 있는 로직의 예시를 보여줌 총관리자 2017.04.26 239
348 [우분투] suppoie 채굴 프로세스 발생시 자동으로 삭제하는 shell프로그램 총관리자 2018.04.01 243
347 cumulusRDF 1.0.1설치및 "KeyspaceCumulus" keyspace확인하기 file 총관리자 2016.04.15 244
346 oozie db변경후 재기동시 "Table 'oozie.VALIDATE_CONN' doesn't exist" 오류 발생시 조치방법 총관리자 2018.05.23 244
345 ResultSet에서 데이타를 List<Map<String,String>>형태로 만들어서 리턴하는 소스(Collections.sort를 이용한 정렬 가능) 총관리자 2016.12.15 246
344 Hadoop의 Datanode를 Decommission하고 나서 HBase의 regionservers파일에 해당 노드명을 지웠는데 여전히 "Dead regionser"로 표시되는 경우 처리 총관리자 2018.01.25 246
343 부팅을 외장하드에서 하도록 변경하는 방법 총관리자 2015.07.28 247
342 kafka의 re-balance를 이용하여 consumer를 multi thread로 돌려서 topic의 partitions을 활용 총관리자 2015.03.31 248

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로