본 논문은 웹 서비스의 로그와 게시판 데이터베이스 정보를 수집하고 이상행위에 대한 분석을 위한 빅데이터 기반의 웹 서비스 로그와 게시판 분석 연구에 관해 소개한다. 기존의 웹 서비스의 필터링 방식은 관리자가 직접 수 많은 데이터들을 모니터링 후 특정 키워드를 등록하고, 악성 사용자를 직접 등록해서 필터링하는 방식으로 진행되었다. 하지만 이 방식은 사람이 직접 키워드 업데이트를 해주어야 하고, 스팸 키워드에 일치해야만 필터링이 되어 조금만 다른 키워드로 글을 등록하면 필터링이 되지 않았다. 따라서 본 논문에서는 기존 관리자가 게시판을 직접 모니터링하면서 필터링 작업을 하는 방식보단 빅데이터를 활용한다면 다량의 데이터를 실시간으로 처리해 속도를 향상 시킬 수 있으며 분석에 대해 정확도가 높은 장점이 있다. 빅데이터는 오늘날 다양한 분야에 활용되는 데이터수집 및 분석기술의 경향으로, 정형 데이터와 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 웹 서비스의 로그와 게시판 역시 정형과 비정형 데이터 형식으로 로그 데이터는 Flume을 통해 실시간 저장되며 Sqoop은 필요한만큼 대량의 데이터 하둡에 저장한다. 저장된 데이터들은 빅데이터의 처리 도구인 Hive와 Pig를 통하여 최종적으로 R프로그래밍을 통해 분석이 완료된다. 이처럼 빅데이터와 접목 시 좀 더 원활하고 정확한 필터링이 가능하며 이상행위를 탐지하여 빅데이터 기반으로 웹 서비스 환경을 분석한다.