• 전체
  • 전자/전기
  • 통신
  • 컴퓨터
닫기

사이트맵

Loading..

Please wait....

국내 논문지

홈 홈 > 연구문헌 > 국내 논문지 > 한국정보처리학회 논문지 > 정보처리학회 논문지 소프트웨어 및 데이터 공학

정보처리학회 논문지 소프트웨어 및 데이터 공학

Current Result Document : 7 / 7 이전건 이전건

한글제목(Korean Title) 소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법
영문제목(English Title) Logistic Regression Ensemble Method for Extracting Significant Information from Social Texts
저자(Author) 김소현   김한준   Kim So Hyeon   Kim Han Joon  
원문수록처(Citation) VOL 06 NO. 05 PP. 0279 ~ 0284 (2017. 05)
한글내용
(Korean Abstract)
빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 서비스로부터 유용한 정보를 추출하는 작업은 매우 중요한 연구 주제 중 하나이다. 이에 본 논문은 블로그 HTML 문서에서 주요 본문을 찾는 로지스틱 회귀 앙상블 기법을 제안한다. 먼저, 블로그 HTML 태그에서 구조적 특징, 텍스트 특징을 추출한다. 그 다음, 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한다. 본 연구의 중요한 발견 중 하나는 태그의 깊이 특징을 이용하여 주요 본문을 찾을 수 있다는 점이다. 다양한 주제의 국내 블로그 데이터를 이용한 실험에서 태그 분류 정확도가 99%, 본문을 찾아낸 문서의 비율이 80.5%로 평가되었다.
영문내용
(English Abstract)
Currenty, in the era of big data, text mining and opinion mining have been used in many domains, and one of their most important research issues is to extract significant information from social media. Thus in this paper, we propose a logistic regression ensemble method of finding the main body text from blog HTML. First, we extract structural features and text features from blog HTML tags. Then we construct a classification model with logistic regression and ensemble that can decide whether any given tags involve main body text or not. One of our important findings is that the main body text can be found through ‘depth’ features extracted from HTML tags. In our experiment using diverse topics of blog data collected from the web, our tag classification model achieved 99% in terms of accuracy,
키워드(Keyword) 기계학습   정보 추출   앙상블   로지스틱 회귀   소셜 네트워크 서비스   Machine Learning   Information Extraction   Ensemble   Logistic Regression   Social Media  
파일첨부 PDF 다운로드