본문 바로가기
메뉴 바로가기

클라우드 서비스

  클라우드 서비스

국가생명연구자원정보센터(KOBIC)에서는 대용량 분석 서버나 분석 기술이 필요한 연구자들을 위하여 Bio-Express 대용량 유전체 데이터 분석 클라우드 서비스를 제공합니다.

Bio-Express는 다음과 같이 구성됩니다.

  • (1) 대용량 바이오데이터를 효율적으로 저장, 관리 및 활용 하기 위한 빅데이터 플랫폼,
  • (2) 편리한 인터페이스와 분석 환경을 제공하는 CLOSHA 통합 자동 분석 시스템,
  • (3) 대용량 데이터를 고속 전송하는 고속 전송 시스템 KoDS 3.0

자체 기술로 구축된 빅데이터 플랫폼은 분산 파일 시스템(HDFS)을 기반으로 현재 많이 사용되는 일반 분석 프로그램과 Hadoop 기반의 빅 데이터 분석 프로그램을 동시에 사용할 수 있습니다. 또한 연구자들이 최신의 공용 유전체 데이터를 곧바로 이용할 수 있도록 1000 Genomes 데이터, TCGA 데이터 등을 포함한 다양한 공용 데이터를 함께 제공하고 있습니다.

Bio-Express 바로가기

CLOSHA 통합 자동 분석 시스템

  • • 워크플로우 기반 분석 작업 수행
  • • 빅데이터 분석 프로그램을 사용 가능
  • • 파이프라인 실행 상태 및 결과 모니터링 기능
  • • 다양한 종류의 분석 프로그램/파이프라인 제공

고속 전송 시스템 KoDS 3.0

  • • 대용량 바이오데이터의 고속 전송
  • • 높은 신뢰성과 안정성 제공
  • • 편리한 사용자 인터페이스
  • • 네트워크 대역폭의 효율적인 사용

분석서비스

  • 파이프라인 이름

    RNA-Sequencing Pipeline with MapSplice, RSEM, voom

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 파이프라인 기능요약

    Bowtie1과 MapSplice2로 Read Alignment하여 RSEM으로 Expression quantification 하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality control, Adaptive trimming, Alignment, Filter reads, Quantification, Differential expression 총 6단계의 모듈로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Quality control은 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고, Adaptive trimming 단계는 Sickle를 이용하여 입력 데이터의 quality가 낮은reads와 adaptor를 제거한 후, R1과 R2의pair를 맞춰서 공통 서열을 얻는다. 이렇게 얻어진 R1과 R2의 공통서열을 Alignment 단계에서 입력으로 활용하여, Bowtie1을 이용한 reference의 index를 생성하고, MapSplice2로 mapping한다. Filter reads 단계는 mapping된 데이터를 입력으로 활용하여 Picard를 이용하여 mapping된 bam file을 정렬한 후, SamTools로 genomic location 별로 정렬한 후 performace 를 높여주기위해 indexing 한다. 그 다음 perl script를 이용하여 reference의 순서와 같도록 chromosome order로 재정렬한 후, Java scrpit를 이용하여 transcriptome을 annotation한 후 Indel, Insert가 크거나 mapping이 잘되지 않은 read를 제거한다. 이렇게 얻어진 bam file을 RSEM을 이용하여 Quantification하여 read를 count한다. 이 과정에서 FPKM, TPM, read count값을 얻을 수 있다. 마지막 Differential expression 단계에서는 R package Limma voom을 이용하여 유전자 transcripts의 expression levels를 비교하여 differentially expressed genes (DEG)를 얻는다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    download.html#fastqc
    Quality control fastqc
    Quality check
    -o Output Dir.
    Sickle https://github.com/ucdavis-
    bioinformatics/sickle
    Remove Adaptor pe
    Paired-End
    -f PE-file1
    -r PE-file2
    -q Quality Value
    -l Minimum Length
    -t Quality Encoding
    -o Output-PE1
    -p Output-PE2
    -s Output-Single
    Bowtie1

    http://bowtie-bio.sourceforge
    .net/manual.shtml
    Create reference index
    Bowtie-build
    Reference fasta file and
    Reference id
    MapSplice2 http://www.netlab.uky.edu/p
    /bioinfo/MapSplice2UserGuide
    Aligning Reads -p
    Threads
    --qual-scale Type of input qualities
    (phred33:Illumina1.8+,orSanger)
    --bam
    Output bam format
    --fusion Find canonical and semi-
    canonical fuxion junctions
    -o Output Dir.
    -c Reference sequence Dir.
    -x Bowtie1 index basename
    -1 Input-PE1 fasta file
    -2 Input-PE2 fasta file
    Picard
    (AddOrReplace
    ReadGroups.jar)
    https://broadinstitute.github.io/
    picard/command-line-overview.
    html#AddOrReplaceReadGroups
    Add read groups I
    Alignments bam file
    O Output file
    RGSM Read group sample name
    RGID Read group sample ID
    RGLB Read group library
    RGPL Read group platform
    (Illumina)
    RGPU Read group platform unit
    (barcode: Illuminaslide: SOLiD)

    SAMtools

    http://www.htslib.org/doc/
    samtools.html

    Sort by genomic location sort
    InputFile and OutputFile
    -@ Threads
    Statistic of alignment flagstat InputFile > OutputFile
    Indexing index InputFile


    Perl script
    (sort_bam_by_
    reference_and_
    name.pl)

    https://github.com/mozack/
    ubu/tree/master/src/perl

    Sort alignmented file by
    chromosome order
    --input
    Alignmened InputFile
    --output OutputFile
    --temp-dir Temp Dir.
    --samtools Samtools Dir.
    Java script
    (ubu-1.2-jar-
    with-dependen
    cies.jar)
    https://github.com/mozack/
    ubu/wiki
    Translate from genome to
    transcriptome coordinates
    sam-xlate
     
    --bed

    Reference bed File

    --in Alignmened Input File
    --out Output File
    --order Reference Fasta file
    --xgtags  
    --reverse  
    sam-filter
     
    --in

    Transcriptome annotated Input File

    --out Output File
    --strip-indels  
    --max-insert Max insert size
    --mapq
    Minimun Mapping quality
    RSEM
    (rsem-calculate
    -expression)

    http://deweylab.biostat.wisc.
    edu/rsem/rsem-calculate-
    expression.html

    Quantification

    rsem-calculate
    -expression

    Input_File
    Refence_File
    Ouput_File_name
    --estimate-rspd Estimate the read start position
    distribution(RSPD)
    -p Threads
    --no-bam-output No output bam File
    --bam Input File Format
    --paired-end Input reads are Paired-end reads
    Limma voom in R

    https://bioconductor.org/
    packages/release/bioc/html
    /limma.html

    DEG Analysis
    voom Read count and design matrix
위로