본문 바로가기
메뉴 바로가기

클라우드 서비스

  클라우드 서비스

국가생명연구자원정보센터(KOBIC)에서는 대용량 분석 서버나 분석 기술이 필요한 연구자들을 위하여 Bio-Express 대용량 유전체 데이터 분석 클라우드 서비스를 제공합니다.

Bio-Express는 다음과 같이 구성됩니다.

  • (1) 대용량 바이오데이터를 효율적으로 저장, 관리 및 활용 하기 위한 빅데이터 플랫폼,
  • (2) 편리한 인터페이스와 분석 환경을 제공하는 CLOSHA 통합 자동 분석 시스템,
  • (3) 대용량 데이터를 고속 전송하는 고속 전송 시스템 KoDS 3.0

자체 기술로 구축된 빅데이터 플랫폼은 분산 파일 시스템(HDFS)을 기반으로 현재 많이 사용되는 일반 분석 프로그램과 Hadoop 기반의 빅 데이터 분석 프로그램을 동시에 사용할 수 있습니다. 또한 연구자들이 최신의 공용 유전체 데이터를 곧바로 이용할 수 있도록 1000 Genomes 데이터, TCGA 데이터 등을 포함한 다양한 공용 데이터를 함께 제공하고 있습니다.

Bio-Express 바로가기

CLOSHA 통합 자동 분석 시스템

  • • 워크플로우 기반 분석 작업 수행
  • • 빅데이터 분석 프로그램을 사용 가능
  • • 파이프라인 실행 상태 및 결과 모니터링 기능
  • • 다양한 종류의 분석 프로그램/파이프라인 제공

고속 전송 시스템 KoDS 3.0

  • • 대용량 바이오데이터의 고속 전송
  • • 높은 신뢰성과 안정성 제공
  • • 편리한 사용자 인터페이스
  • • 네트워크 대역폭의 효율적인 사용

분석서비스

  • 파이프라인 이름

    GSAseq pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA-seq 데이터용 gene-set enrichment 분석

  • 파이프라인 기능요약

    RNA-seq count data를 입력으로 실험군 및 대조군 간 극명한 차이를 보이는 유전자군(Gene Ontology, Pathway 등)을 통계적 편향없이 정확하게 발굴하는 고속 파이프라인

  • 파이프라인 특징

    • 1. 세계 최초 웹기반 RNA-seq 데이터 분석용 GSEA 분석 도구
    • 2. RNA-seq 데이터의 read number 편향을 조절하여 정확한 결과 도출 (편향 제거 방법론: Ranksum gene statistic, median FC 및 SNR)
    • 3. 인체조직별 기 보고된 문헌데이터 DB와 연계하여 GSAseq 분석으로 발굴된 유전자군의 신뢰도를 검증하고 통계적 유의성 제공
    • 4. 다양한 유전자군 DB 제공
      • 1) 지원 유전자군: Gene Ontology (GO), KEGG, MSigDB, and so on.
      • 2) 지원 생물종: 총 8종(human, mouse, rat, yeast, A. thaliana, worm, fly and E. coli.)
    • 5. 분석 코어가 C++언어로 구성되어 고속 분석 수행이 가능. 시뮬레이션 결과 JAVA로 만들어진 기존 GSEA 소프트웨어보다 10배 정도 빠른 것으로 분석됨.
    • 6. 탭(TAB)으로 구분된 전형적인 정량 데이터를 입력으로 실험군/대조군 지정만 해주면 되므로 사용이 매우 간편함.
  • 파이프라인 구성요소

    이름 기능요약
    GSAseq core (C++) GSEA 기본 알고리즘 구동 지원
    Normalization & Gene set scoring
    (R packages)
    정량데이터 정규화 및 gene set 분석에 사용되는 스코어 계산
    Pipeline interface & Job control
    (JAVA & GWT)
    GSAseq 전체 구동 관장 및 다중 작업 컨트롤
  • 파이프라인 모식도 설명

    GSAseq은 사용자 데이터 업로드, 정규화/ 유전자군 스코어 생성, 및 GSEA 코어 구동의 3단계로 구동이 이루어진다. 사용자가 홈페이지를 통해 업로드 할 데이터는 탭(TAB)으로 구분된 일반 텍스트 데이터이며, 맨 왼쪽 컬럼이 유전자 또는 각종 molecule 정보이며 나머지 컬럼은 실험군 또는 대조군의 정량수치 데이터이다. 데이터 업로드 시 어떤 샘플들이 실험군 또는 대조군인지 지정해야 한다. 또한 데이터에 적용할 정규화 방법, GSEA 방법론, 유전자군 DB 종류, 생물종 등의 정보를 지정해야 한다. 사용자의 데이터가 입력되면 자바로 구성된 컨트롤 모듈이 R코드로 구성된 정규화 모듈 및 유전자군 스코어 생성 모듈을 구동시키며, 이 때 RNA-seq 정량데이터에 포함된 편향이 제거된다. 편향이 제거된 정량데이터는 C++언어로 구성된 GSAseq 코어모듈에 입력되어 GSEA 분석이 수행된다. 분석이 완료되면 자바 컨트롤 모듈이 결과물을 정형화된 테이블로 작성하고 유의한 유전자군 리스트를 파일로 제공한다.

  • 파이프라인 구성 모식도

    GSAseq:a pipeline for GSEA of RNA - seq data GSAseq:a pipeline for GSEA of RNA - seq data
위로