기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
전유전체(Whole gerlome) 서열 분석과 가시화를 위한 워크벤치 개발
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 전유전체(Whole gerlome) 서열 분석과 가시화를 위한 워크벤치 개발
저자명
최정현,진희정,김철민,장철훈,조환규,Choe. Jeong-Hyeon,Jin. Hui-Jeong,Kim. Cheol-Min,Jang. Cheol-Hun,Jo. Hwan-Gyu
간행물명
정보처리학회논문지. The KIPS transactions. Part A. Part A
권/호정보
2002년|3호|pp.387-398 (12 pages)
발행정보
한국정보처리학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

최근 활발한 소단위 게놈 프로젝트의 수행으로 많은 생물체의 유전체 전체 서열이 밝혀짐에 따라서 전유전체(whole genome)를 기본 단위로 하여 개별 유전자나 그에 관련된 기능 연구가 매우 활발히 이루어지고 있다. 전유전체의 염기 서열은 수백만 bp(base pairs)에서 수백억 bp(base pairs) 정도의 대용량 텍스트 데이터이기 때문에 단순한 온라인 문자 일치(on-line string matching) 알고리즘으로 분석하는 것은 매우 비효율적이다. 본 논문에서는 대용량의 유전체 서열을 분석하는데 적합한 자료 구조인 스트링 B-트리를 사용하여 유전체 서열의 분석과 가시화를 위한 워크벤치를 개발한 과정을 소개한다. 본 연구에서 개발한 시스템은 크게 질의문 부분과 가시화 부분으로 나뉘어 진다. 질의문 부분에는 유전체 서열에 특정 서열이 나타나는 부분의 위치와 횟수를 알아보거나 k번 나타나는 서열을 조사하는 것과 같은 기본적인 패턴 검색 부분과 k-mer 분석을 위한 질의어가 다양하게 준비되어 있다. 가시화 부분은 전유전체 서열과 주석(annotation)을 보여주거나, 유전체 분석을 용이하도록 여러 가시화 방법, CGR(Chaos Game Representation), k-mer graph, RWP(Random Walk Plot) 등으로 생물학자들이 쉽게 전체 구조와 특성 파악할 수 있도록 도와준다. 본 논문이 제안하는 분석 시스템은 생물체의 진화적 관계를 밝히고, 염색체 내에 아직 알려지지 않은 새로운 유전자나 기능이 밝혀지지 않은 junk DNA들의 기능 등을 연구하는데 사용할 수 있다.

기타언어초록

As whole genome sequences of many organisms have been revealed by small-scale genome projects, the intensive research on individual genes and their functions has been performed. However on-memory algorithms are inefficient to analysis of whole genome sequences, since the size of individual whole genome is from several million base pairs to hundreds billion base pairs. In order to effectively manipulate the huge sequence data, it is necessary to use the indexed data structure for external memory. In this paper, we introduce a workbench system for analysis and visualization of whole genome sequence using string B-tree that is suitable for analysis of huge data. This system consists of two parts : analysis query part and visualization part. Query system supports various transactions such as sequence search, k-occurrence, and k-mer analysis. Visualization system helps biological scientist to easily understand whole structure and specificity by many kinds of visualization such as whole genome sequence, annotation, CGR (Chaos Game Representation), k-mer, and RWP (Random Walk Plot). One can find the relations among organisms, predict the genes in a genome, and research on the function of junk DNA using our workbench.