메뉴 건너뛰기

Bigdata, Semantic IoT, Hadoop, NoSQL

Bigdata, Hadoop ecosystem, Semantic IoT등의 프로젝트를 진행중에 습득한 내용을 정리하는 곳입니다.
필요한 분을 위해서 공개하고 있습니다. 문의사항은 gooper@gooper.com로 메일을 보내주세요.


0. test데이타는 Fuseki에서 사용중인 데이타를 백업한 파일을 이용한다.(트리플 개수 : 12700751)

(파일이름 : icbms_2017-06-19_16-09-05.nq.gz )


<LUBM data 관련 정보>

*LUBM93000 : 약 110억(11615964562)건의 triple, 1TB용량, 데이타 생성하는데 약 1일 소요됨, 카운트 시간(Halyard이용) 약 22시간(80069028ms)

*LUBM20000 : 약 22억건의 triple,

*LUBM3000  : 약 33억건의 triple, 33MB용량


*LUBM1000  : 약 20.4G용량

*LUBM100   : 약 2.0G용량

*LUBM10    : 약 195.1M용량

*LUBM1     : 약 1만건의 triple, 15.2M용량


1. HDFS폴더 생성
hdfs dfs -mkdir gooper-test


2. console에서 repo생성
create hbase -> gooperRepo, 타임아웃시간 ->7일(604800초)


3. test owl파일 HDFS적재
hdfs dfs -put icbms_2017-06-19_16-09-05.nq.gz gooper-test


4. Halyard의 임시 저장소 삭제
hdfs dfs -rm -r gooper-test/temp


5. HDFS데이타를 Halyard에 적재
./bulkload gooper-test gooper-test/temp gooperRepo


6. query수행

가. fuseki에서 sparql을 실행하는 결과와 같은 결과가 나옴

나. 카운트등이 포함된 쿼리를 TDB를 이용한 fuseki를 이용하는 경우 1초미만 소요됨

다. 나와 동일한 쿼리를 Halyard의 console을 이용하면 약7.2분 소요됨

라. 카운트

gooperRepo> sparql
enter multi-line SPARQL query (terminate with line containing single '.')
select (count(*) as ?cnt) where {?s ?p ?o}
.
Evaluating SPARQL query...
+-----------------------------------------------------------------------------+
| cnt                                                                         |
+-----------------------------------------------------------------------------+
| "12700751"^^<http://www.w3.org/2001/XMLSchema#integer>                      |
+-----------------------------------------------------------------------------+
1 result(s) (143744 ms)

번호 제목 글쓴이 날짜 조회 수
460 lagom-windows용 build.sbt파일 내용 총관리자 2017.10.12 60
459 lagom-linux용 build.sbt파일 내용 총관리자 2017.10.12 1300
458 lagom의 online-auction-java프로젝트 실행시 외부의 kafka/cassandra를 사용하도록 설정하는 방법 총관리자 2017.10.12 211
457 lagom의 online-auction-java프로젝트 실행시 "Could not find Cassandra contact points, due to: ServiceLocator is not bound" 경고 발생시 조치사항 총관리자 2017.10.12 219
456 Hadoop 2.7.x에서 사용할 수 있는 파일/디렉토리 관련 util성 클래스 파일 총관리자 2017.09.28 74
455 python3.5에서 numpy버젼에 따른 문제점을 조치하는 방법및 pymysql import할때 오류 발생시 조치사항 총관리자 2017.09.28 80
454 fuseki에서 제공하는 script중 s-post를 사용하는 예문 총관리자 2017.09.15 34
453 core 'gc_shard3_replica2' is already locked라는 오류가 발생할때 조치사항 총관리자 2017.09.14 35
452 editLog의 문제로 발생하는 journalnode 기동 오류 발생시 조치사항 총관리자 2017.09.14 313
451 halyard 1.3의 console을 이용하여 100억건의 데이타에 대한 쿼리수행시 ScannerTimeoutException 발생시 조치사항 총관리자 2017.09.06 134
450 hadoop cluster구성된 노드를 확인시 Capacity를 보면 색이 붉은색으로 표시되어 있는 경우나 Unhealthy인 경우 처리방법 총관리자 2017.08.30 46
449 파일은 남겨두고 파일 내용만 지우고자 할 때. 총관리자 2017.08.30 32
448 RDF4J의 RESTFul API처리 클래스 소스 파악(web module위주) 총관리자 2017.08.30 156
447 RDF4J의 rdf4j-server.war가 제공하는 RESTFul API를 이용한 CRUD테스트(트랜잭션처리) 총관리자 2017.08.30 43
446 RDF4J의 rdf4j-server.war가 제공하는 RESTFul API를 이용하여 repository에 CRUD테스트 총관리자 2017.08.30 51
445 DeviceType이 o:motion-sensor_33 이거나 o:motion-sensor_32 경우의 sparql문장은 다음과 같다. 총관리자 2017.08.16 40
444 [oneM2M]Ontologies used for oneM2M 총관리자 2017.08.02 49
443 Windows7 64bit 환경에서 Apache Spark 2.2.0 설치하기 총관리자 2017.07.26 259
442 Windows7 64bit 환경에서 Apache Hadoop 2.7.1설치하기 총관리자 2017.07.26 235
441 jena/fuseki 3.4.0 설치 총관리자 2017.07.25 170

A personal place to organize information learned during the development of such Hadoop, Hive, Hbase, Semantic IoT, etc.
We are open to the required minutes. Please send inquiries to gooper@gooper.com.

위로