본문 바로가기
메뉴 바로가기

클라우드 서비스

  클라우드 서비스

국가생명연구자원정보센터(KOBIC)에서는 대용량 분석 서버나 분석 기술이 필요한 연구자들을 위하여 Bio-Express 대용량 유전체 데이터 분석 클라우드 서비스를 제공합니다.

Bio-Express는 다음과 같이 구성됩니다.

  • (1) 대용량 바이오데이터를 효율적으로 저장, 관리 및 활용 하기 위한 빅데이터 플랫폼,
  • (2) 편리한 인터페이스와 분석 환경을 제공하는 CLOSHA 통합 자동 분석 시스템,
  • (3) 대용량 데이터를 고속 전송하는 고속 전송 시스템 KoDS 3.0

자체 기술로 구축된 빅데이터 플랫폼은 분산 파일 시스템(HDFS)을 기반으로 현재 많이 사용되는 일반 분석 프로그램과 Hadoop 기반의 빅 데이터 분석 프로그램을 동시에 사용할 수 있습니다. 또한 연구자들이 최신의 공용 유전체 데이터를 곧바로 이용할 수 있도록 1000 Genomes 데이터, TCGA 데이터 등을 포함한 다양한 공용 데이터를 함께 제공하고 있습니다.

Bio-Express 바로가기

CLOSHA 통합 자동 분석 시스템

  • • 워크플로우 기반 분석 작업 수행
  • • 빅데이터 분석 프로그램을 사용 가능
  • • 파이프라인 실행 상태 및 결과 모니터링 기능
  • • 다양한 종류의 분석 프로그램/파이프라인 제공

고속 전송 시스템 KoDS 3.0

  • • 대용량 바이오데이터의 고속 전송
  • • 높은 신뢰성과 안정성 제공
  • • 편리한 사용자 인터페이스
  • • 네트워크 대역폭의 효율적인 사용

분석서비스

  • 파이프라인 이름

    ChIP-sequencing Pipeline for Histone Modifications with bowtie, MACS2, CisGenome, PeakSeq

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 파이프라인 기능요약

    Bowtie로 데이터를 정렬하고 MACS2, CisGenome, 또는 PeakSeq로 히스톤 변형이 유의미한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조서열에 기반 해 데이터를 mapping 한다. Cross correlation 단계에서 그 결과에 대해 quality control을 한다. Peak calling 단계에서 유의미한 부위인 peaks를 탐색한다. 이 때, MACS2, CisGenome, PeakSeq 중 하나를 선택할 수 있다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    fastqc/
    Quality control -o Output directory
    FASTX-Toolkit http://hannonlab.cshl.edu/
    fastx_toolkit/
    Pre-processing -Q33
    Illumina encoded quality scores
    -q 20 Minimum quality score to keep
    -p 80 Minimum percent of bases that
    must have [-q] quality
    -i Input file
    -o Output file
    Bowtie https://ccb.jhu.edu/software/
    tophat/index.shtml
    Alignment -m 1
    Suppress all alignments if > 1
    (select unique reads only)
    -q Query input files are FASTQ
    -p [int] Number of alignment threads
    --sam Write hits in SAM format
    SPP http://compbio.med.harvard.
    edu/Supplements/ChIP-seq/
    Quality control -c ChIP_tagAlign/BAMFile query
    -savp Save cross-correlation plot
    -out Resultfile
    MACS2 https://github.com/taoliu
    /MACS
    Peak calling callpeak
    Call peaks from alignment results
    -t ChIP-seq treatment file
    -c Control file
    -g Effective genome size.
    ’hs’, ’mm’, ’ce’, ’dm’
    -n Experiment name
    CisGenome http://www.biostat.jhsph.edu/
    ~hji/cisgenome/
    Peak calling -i Input
    -d Output folder
    -o Output file
    PeakSeq http://info.gersteinlab.org
    /PeakSeq
    Peak calling -preprocess Preprocessing
    -peak_select
    Configuration file path
    homer http://homer.salk.edu/homer
    /index.html
    Annota-tion, Visualiza-tion annotatePeaks.pl
    Annotating regions in the genome
    makeUCSCfile
    Creating UCSC file
위로