본문 바로가기
메뉴 바로가기

클라우드 서비스

  클라우드 서비스

국가생명연구자원정보센터(KOBIC)에서는 대용량 분석 서버나 분석 기술이 필요한 연구자들을 위하여 Bio-Express 대용량 유전체 데이터 분석 클라우드 서비스를 제공합니다.

Bio-Express는 다음과 같이 구성됩니다.

  • (1) 대용량 바이오데이터를 효율적으로 저장, 관리 및 활용 하기 위한 빅데이터 플랫폼,
  • (2) 편리한 인터페이스와 분석 환경을 제공하는 CLOSHA 통합 자동 분석 시스템,
  • (3) 대용량 데이터를 고속 전송하는 고속 전송 시스템 KoDS 3.0

자체 기술로 구축된 빅데이터 플랫폼은 분산 파일 시스템(HDFS)을 기반으로 현재 많이 사용되는 일반 분석 프로그램과 Hadoop 기반의 빅 데이터 분석 프로그램을 동시에 사용할 수 있습니다. 또한 연구자들이 최신의 공용 유전체 데이터를 곧바로 이용할 수 있도록 1000 Genomes 데이터, TCGA 데이터 등을 포함한 다양한 공용 데이터를 함께 제공하고 있습니다.

Bio-Express 바로가기

CLOSHA 통합 자동 분석 시스템

  • • 워크플로우 기반 분석 작업 수행
  • • 빅데이터 분석 프로그램을 사용 가능
  • • 파이프라인 실행 상태 및 결과 모니터링 기능
  • • 다양한 종류의 분석 프로그램/파이프라인 제공

고속 전송 시스템 KoDS 3.0

  • • 대용량 바이오데이터의 고속 전송
  • • 높은 신뢰성과 안정성 제공
  • • 편리한 사용자 인터페이스
  • • 네트워크 대역폭의 효율적인 사용

분석서비스

  • 파이프라인 이름

    RNA-Sequencing Pipeline with Bowtie, EMSAR, voom

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 파이프라인 기능요약

    Bowtie로 Read Alignment하여 EMSAR로 FPKM 산출 후 VOOM으로 Differencial Express 결과 산출 하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality check, Remove adapter, mapping, Quantification, Differential expression 총 5단계의 모듈로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Quality check는 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고, Remeve adapter 단계는 Sickle를 이용하여 입력 데이터의 quality가 낮은 reads와 adaptor를 제거한 후, R1과 R2의 pair를 맞춰서 공통 서열을 얻는다. 이렇게 얻어진 R1과 R2의 공통서열을 mapping 단계에서 입력으로 활용하여, bowtie를 이용한 reference의 index 생성 후 mapping 한다. bowtie로 mapping된 결과를 바탕으로 transcript referenece index/fasta를 입력하여 EMSAR로 각 transcript 별 Quantifiacton 결과를 산출 한다. R package인 limma 내에 탑재된 voom function을 이용하여 각 transcripts의 expression levels를 비교한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    fastqc/
    Quality control -o Output directory
    Sickle https://github.com/ucdavis-
    bioinformatics/sickle
    Remove Adaptor PE
    Paired-End

    -f PE-File1
    -r PE-File2
    -q Quality Value
    -l Minimum Length
    -t Quality Encoding
    -o Output-PE1
    -p Output-PE2
    -s Output-Single
    bowtie
    http://bowtie-bio.sourceforge
    .net/index.shtml
    Aligning Reads -1
    Read 1 Fastq
    -2 Read 2 Fastq
    -X Maximum insert size for paired-
    end alignment
    --fr Paired reads align fw/rev
    -s Skip the first n pairs
    -u Stop after first n pairs
    EMSAR https://github.com/parklab
    /emsar
    Quantification -I
    rsh index file
    -P Paired-end data
    -s Set strand type
    -p Number of threads
    -F Maximum fragment length
    -f Minimum fragment length
    -S Input file format is SAM
    -B Input file format is BAM
    voom
    (limma)
    https://bioconductor.org/
    packages/release/bioc/html
    /limma.html
    Differential Expression count a numeric matrix containing
    raw counts
    design design matrix with rows corre-
    sponding to samples and columns
    to coefficients to be estimated
    lib.size numeric vector containing total
    library sizes for each sample
    normalize.
    method
    normalization method to be
    applied to the logCPM values
    span width of the lowess smoothing
    window as a proportion
    plot logical, should a plot of the mean
    -variance trend be displayed?
    save.plot logical, should the coordinates
    and line of the plot be saved in
    the output?
위로