기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
퍼지추론을 적용한 웹 음란문서 검출
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 퍼지추론을 적용한 웹 음란문서 검출
저자명
김병만,최상필,노순억,김종완
간행물명
퍼지 및 지능시스템학회 논문지
권/호정보
2001년|11권 5호|pp.419-425 (7 pages)
발행정보
한국지능시스템학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

본 논문은 인터넷 상에서 무수히 많은 음란 문서를 검출하는 방법을 제시한다. 제시된 방법은 정보검색 기술에 퍼지추론을 적용시킨 것이다. 먼저 음란 사이트 주소를 몇 개 선정하고 이 문서들로부터 어휘분석과 스테밍과정을 통하여 음란 사이트를 대표하는 후보단어들을 추출한다. 추출된 후보단어가 음란문서를 대표할 중요도를 계산하기 위해, 각 후보 단어별로 용어 빈도수(DF), 휴리스틱 정보(HI)를 계산하고 이 값들을 이용하여 퍼지추론을 수행한다. 이렇게 계산 된 후보용어의 중요도들이 주어진 사이트가 음란사이트인지 아닌지를 판별하는데 최종적으로 사용된다. 소규모 테스트 데이터를 갖고 실험한 결과, 본 논문에서 제시한 방법이 음란 사이트 자동 검출시 유용함을 알 수 있었다.

기타언어초록

A method to detect lots of porno documents on the internet is presented in this parer. The proposed method applies fuzzy inference mechanism to the conventional information retrieval techniques. First, several example sites on porno arc provided by users and then candidate words representing for porno documents are extracted from theme documents. In this process, lexical analysis and stemming are performed. Then, several values such as tole term frequency(TF), the document frequency(DF), and the Heuristic Information(HI) Is computed for each candidate word. Finally, fuzzy inference is performed with the above three values to weight candidate words. The weights of candidate words arc used to determine whether a liven site is sexual or not. From experiments on small test collection, the proposed method was shown useful to detect the sexual sites automatically.