메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


0. test데이타는 Fuseki에서 사용중인 데이타를 백업한 파일을 이용한다.(트리플 개수 : 12700751)

(파일이름 : icbms_2017-06-19_16-09-05.nq.gz )


<LUBM data 관련 정보>

*LUBM93000 : 약 110억(11615964562)건의 triple, 1TB용량, 데이타 생성하는데 약 1일 소요됨, 카운트 시간(Halyard이용) 약 22시간(80069028ms)

*LUBM20000 : 약 22억건의 triple,

*LUBM3000  : 약 33억건의 triple, 33MB용량


*LUBM1000  : 약 20.4G용량

*LUBM100   : 약 2.0G용량

*LUBM10    : 약 195.1M용량

*LUBM1     : 약 1만건의 triple, 15.2M용량


1. HDFS폴더 생성
hdfs dfs -mkdir gooper-test


2. console에서 repo생성
create hbase -> gooperRepo, 타임아웃시간 ->7일(604800초)


3. test owl파일 HDFS적재
hdfs dfs -put icbms_2017-06-19_16-09-05.nq.gz gooper-test


4. Halyard의 임시 저장소 삭제
hdfs dfs -rm -r gooper-test/temp


5. HDFS데이타를 Halyard에 적재
./bulkload gooper-test gooper-test/temp gooperRepo


6. query수행

가. fuseki에서 sparql을 실행하는 결과와 같은 결과가 나옴

나. 카운트등이 포함된 쿼리를 TDB를 이용한 fuseki를 이용하는 경우 1초미만 소요됨

다. 나와 동일한 쿼리를 Halyard의 console을 이용하면 약7.2분 소요됨

라. 카운트

gooperRepo> sparql
enter multi-line SPARQL query (terminate with line containing single '.')
select (count(*) as ?cnt) where {?s ?p ?o}
.
Evaluating SPARQL query...
+-----------------------------------------------------------------------------+
| cnt                                                                         |
+-----------------------------------------------------------------------------+
| "12700751"^^<http://www.w3.org/2001/XMLSchema#integer>                      |
+-----------------------------------------------------------------------------+
1 result(s) (143744 ms)

번호 제목 글쓴이 날짜 조회 수
500 딥러닝 수학/알고리즘 '한국어' 강의 총관리자 2016.04.10 110
499 Toree 0.1.0-incubating이 Scala 2.10.4까지만 지원하게 되어서 발생하는 NoSuchMethod오류 문제 해결방법(scala 2.11.x을 지원하지만 오류가 발생할 수 있음) 총관리자 2018.04.20 110
498 java스레드 덤프 분석하기 file 총관리자 2016.11.03 111
497 lagom에서 제공하는 초기 생성기능을 이용하여 생성한 프로젝트의 소스 파악 총관리자 2018.01.16 111
496 solrcloud에 solrdf1.1설치하고 테스트 하기 총관리자 2016.04.22 113
495 test333444 총관리자 2017.05.01 113
494 Impala daemon기동시 "Could not create temporary timezone file"오류 발생시 조치사항 총관리자 2018.03.29 113
493 Collections.sort를 이용한 List<User>형태의 데이타 정렬(숫자, 문자에 대해서 각각 asc/desc및 복합정렬) 총관리자 2016.12.15 114
492 하둡 클러스터 전체 노드를 다시 기동하면 invalidate metadata를 수행해야 데이터가 틀어지지 않는다. 총관리자 2019.05.20 114
491 hadoop에서 yarn jar ..를 이용하여 appliction을 실행하여 정상적으로 수행되었으나 yarn UI의 어플리케이션 목록에 나타나지 않는 문제 총관리자 2017.05.02 117
490 tablet별 disk사용량 확인하는 방법 총관리자 2021.08.27 118
489 select와 group by결과 값이 없는경우의 리턴 값이 다름 file 총관리자 2016.02.05 119
488 ./hadoop-daemon.sh start namenode로 namenode기동시 EditLog의 custerId, namespaceId가 달라서 발생하는 오류 해결방법 총관리자 2016.09.24 119
487 console명령과 API비교 총관리자 2015.12.21 120
486 VPS에서는 root로 실행해도 swap파일을 만들지 못하게 만들어 두었지만 swap파일을 생성하는 방법 총관리자 2017.06.20 120
485 HBase 설정 최적화하기(VCNC) file 총관리자 2017.07.18 120
484 producer / consumer구현시 설정 옵션 설명 총관리자 2016.10.19 121
483 [TLS]pkcs12형식의 인증서 생성및 jks형식 인증서 생성 커맨드 예시 총관리자 2022.03.15 121
482 [Kudu]Schema별 혹은 테이블별 사용량(Replica포함) 구하는 방법 gooper 2022.07.14 121
481 여러가지 방법으로 특정 jar파일을 exclude하지 못하는 경우 해당 jar파일을 제외시키는 방법 총관리자 2016.08.11 122

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로