- 단편 서열의 효율적인 가시화를 위한 지놈 브라우저 데이터베이스 설계
- ㆍ 저자명
- 박민서,김우연,김판규,Park. Min-Seo,Kim. Woo-Yeon,Kim. Pan-Gyu
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2012년|39권 1호|pp.30-36 (7 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
지놈 브라우저는 유전체 참조서열에 정렬된 다양한 종류의 데이터와 정보를 시각적으로 보여주는 가시화 도구이다. 차세대 시퀀싱 기술을 이용하여 생산되는 서열의 양이 증가함에 따라, 유전학적 데이터 분석을 위해서 많은 시간을 소비하게 되며, 시각적인 가시화 도구가 없이는 분석에 많은 어려움이 따른다. 현재 가장 널리 사용되는 브라우저중 하나는 GBrowse(Genetic Genome Browser)이다. GBrowse는 GFF(Generic Feature Format) 데이터베이스와 염기서열을 저장하는 파일형식인 SAM(Sequence Alignment/Map)파일로 구성된다. 하지만, 유전자 시퀀싱이 일반화되고 그 양이 증가함에 따라, 많은 양의 짧은 단편서열을 파일시스템으로 관리하는 것보다 지놈 브라우저에 알맞은 새로운 데이터베이스 설계를 활용하는 것이 요구된다. 본 연구에서는 데이터 저장 공간을 줄이고, 큰 용량의 유전체 데이터를 지놈 브라우저에 빨리 전달하고 명확한 가시화를 제공하기 위해 설계한 데이터베이스 구조를 제안한다. 제안한 데이터베이스는 줌 레벨을 고려하고, IOT(Index Organized Tables)와 파티션 기법 및 아스키코드에 기반한다.
Genome browser is a viewer which graphically provides a wide variety of data types and information aligned to the reference genome. As the amount of genomic sequence in Next Generation Sequencing increase. genomic pattern analysis would be extremely time consuming and difficult without graphical display. Currently one of the most prevalent browsers is the Genetic Genome Browser (GBrowse). It consists of GFF database and a set of one or more SAM-format files that contain DNA sequences. However, as sequencing of genomic data becomes increasingly affordable, it requires a new database design to manage a large volume of short reads instead of file-based system. This article proposes a new database to reduce data storage size. to speed up large genome data transfer to genome browser, and to further provide users a clear view. It is achieved by considering Zoom level, and is based on IOT, Partitioning, and ASCII code.