본문 바로가기
실험실/실험(Experiments)

Higlass-Ensembl annotation

by 준준xy 2024. 1. 30.

몇 번 삽을 퍼다 해결하여 정리를 해본다.

Genomics에서 gene annotation data는 크게 미국(NCBI)과 유럽(Ensembl)으로 나뉘는 것 같다. 이전에는 NCBI만 사용하지 않았는데, 몸이 유럽에 있어서 그런 걸까? Ensembl이 이제는 더 익숙해졌다. (그리고 Ensembl의 data update 속도가 NCBI refgene 보다 훨씬 빠르다.) 무엇이 익숙한가 보다 더 큰 숙제는 두 개의 annotation algorithm이 일치하지 않기 때문에 항상… 두 개를 같이 보는 습관을 두는 것이 좋다고 생각한다. (NCBI:Refseq / Ensembl: Genebuild) Hi-C data를 Higlss에 upload 하고 gene annotation track을 입히는데, refgene을 이용한 option 밖에 서술이 되어 있지 않아서 헤메였는데, gff3ToGenePred로 간단하게 해결되었다.

 

참나… 이런건 알고 나면 허무하다.

 

1. Ensembl에서 gff3 format의 annotation file을 받는다.

wget <https://ftp.ensembl.org/pub/release-111/gff3/salmo_salar/Salmo_salar.Ssal_v3.1.111.gff3.gz>
gzip -d Salmo_salar.Ssal_v3.1.111.gff3.gz

2. UCSC에서 gff3ToGenePred 을 받고 실행 권한을 부여한다.

wget <https://hgdownload.soe.ucsc.edu/admin/exe/macOSX.arm64/gff3ToGenePred>
chmod +x /Users/jun/bin/gff3ToGenePred
./gff3ToGenePred /Users/jun/Salmo_salar.Ssal_v3.1.111.gff3 /Users/jun/Salmo_salar.Ssal_v3.1.genePred

3. .hgbed file로 변환한다.

cat /Users/jun/bin/UCSC/gff3ToGenePred/Ssal_v3.1.genePred | python /Users/jun/bin/gene_annotations-master/scripts/genepredext_to_hgbed.py | python /Users/jun/bin/gene_annotations-master/scripts/exonU.py - > Ssal_v3.1.refGene.hgbed

 

4. Chromosomsize file을 생성한다. (Reference genome의 fasta file은 동일하기 때문에, 같은 Chromosomsize를 가지고 있다. 따라서, NCBI의 GFF file을 받은 후 higlass-gene-annotations에서 제공한느 2번째 option을 이용하여 chrom.sizes file을 생성한다.)

 

5. clodius를 이용하여 .beddb를 생성한다.

clodius aggregate bedfile --chromsizes-filename /Users/jun/bin/gene_annotations-master/test/Salmo_salar.Ssal_v3.1.dna_sm.toplevel.fa.sizes /Users/jun/bin/UCSC/gff3ToGenePred/Ssal_v3.1.hgbed

 

6. Higlass-manage로 data ingest. 

higlass-manage ingest /Users/jun/bin/UCSC/gff3ToGenePred/Ssal_v3.1.hgbed.beddb --filetype beddb --datatype bedlike --project-name  --name Ensembl_annotation

 

 

---

생물정보학은 여전히 신기하다. 

데이터의 프레임을 이해하고, 어떻게 맞춰나가야할지 생각해 보면 답은 찾는다. 

 

'실험실 > 실험(Experiments)' 카테고리의 다른 글

Transcription factor footprinting analysis  (0) 2024.02.05
Chromatin accessibility  (1) 2024.02.02
Hi-C experiments_Bioinformatic analysis_#1  (0) 2024.01.21
Higlass  (0) 2023.08.18
Hi-C experiments_library prep  (0) 2023.07.27