기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
The partial matching method for effective recognizing HLA entities
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • The partial matching method for effective recognizing HLA entities
  • The partial matching method for effective recognizing HLA entities
저자명
채정민,정영희,이태민,채지은,오흥범,정순영,Chae. Jeong-Min,Jung. Young-Hee,Lee. Tae-Min,Chae. Ji-Eun,Oh. Heung-Bum,Jung. Soon-Young
간행물명
컴퓨터교육학회논문지
권/호정보
2011년|14권 2호|pp.83-94 (12 pages)
발행정보
한국컴퓨터교육학회
파일정보
정기간행물|ENG|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

영문초록

생의학분야에서 문헌에 표기된 개체를 인식하기 위해 길이우선매칭기법을 빈번히 사용한다. 길이우선매칭기법은 사전을 이용한 개체인식기법으로 좋은 사전만 구축되어 있다면 빠르고 정확하게 개체를 찾아낼 수 있다는 장점을 가진다. 그러나 개체가 나열되고 중복된 단어가 생략될 경우에는 길이우선매칭기법을 이용할 경우 성능이 현저히 떨어지게 된다. 우리는 이러한 인식성능문제를 해결하기 위해 부분매칭기법을 제안한다. 제안된 부분매칭기법은 생략이 발생될 수 있다는 것을 가정하여 다수의 후보개체를 만들어 내고 그 후에 최적화 알고리즘을 통해 다수의 개체후보 중에서 가장 타당해 보이는 개체를 선택한다. 우리는 생의학분야의 개체 중에서 나열되는 경우가 빈번한 HLA 유전자, HLA 항원, HLA 대립유전자 개체들을 대상으로 길이우선매칭기법과 제안된 부분매칭기법의 개체인식성능을 분석하였다. 3종의 HLA 개체들을 인식하기 위해서 먼저 확장사전과 태그기반사전을 구축하였으며, 그 후 구축된 사전을 이용해 길이우선매칭과 부분매칭을 수행하였다. 실험결과에 따르면 길이우선매칭기법은 HLA 항원 개체에서 좋은 성능을 보였으며 부분매칭기법은 생략된 표현이 빈번한 HLA 유전자 개체, HLA 대립유전자 개체에서 좋은 성능을 보였다. 부분매칭기법은 HLA 대립유전자 개체를 대상으로 95.59%의 높은 F-score를 얻었다.

기타언어초록

In the biomedical domain, the longest matching method is frequently used for recognizing named entity written in the literature. This method uses a dictionary as a resource for named entity recognition. If there exist appropriated dictionary about target domain, the longest matching method has the advantage of being able to recognize the entities of target domain quickly and exactly. However, the longest matching method is difficult to recognize the enumerated named entities, because these entities are frequently expressed as being omitted some words. In order to resolve this problem, we propose the partial matching method using a dictionary. The proposed method makes several candidate entities on the assumption that the ellipses may be included. After that, the method selects the most valid one among candidate entities through the optimization algorithm. We tested the longest and partial matching method about HLA entities: HLA gene, antigen, and allele entities, which are frequently enumerated among biomedical entities. As preparing for named entity recognition, we built two new resource, extended dictionary and tag-based dictionary about HLA entities. And later, we performed the longest and partial matching method using each dictionary. According to our experiment result, the longest matching method was effective in recognizing HLA antigen entities, in which the ellipses are rare, and the partial matching method was effective in recognizing HLA gene and allele entities, in which the ellipses are frequent. Especially, the partial matching method had a high F-score 95.59% about HLA alleles.