• 전체
  • 전자/전기
  • 통신
  • 컴퓨터
닫기

사이트맵

Loading..

Please wait....

국내 학회지

홈 홈 > 연구문헌 > 국내 학회지 > 데이터베이스 연구회지(SIGDB)

데이터베이스 연구회지(SIGDB)

Current Result Document : 3 / 11 이전건 이전건   다음건 다음건

한글제목(Korean Title) 클러스터 기반 키워드 연관망의 자동 구축
영문제목(English Title) Automatic construction of cluster-based keyword association network
저자(Author) 유한묵   김한준   Han-Mook Yoo   Han-joon Kim  
원문수록처(Citation) VOL 33 NO. 01 PP. 0015 ~ 0025 (2017. 04)
한글내용
(Korean Abstract)
본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 ClusterTextRank 기법과 추출된 키워드를 최소신장트리를 이용한 연관망 구축 기법을 제안한다. 제안 기법은 k-means 군집화 알고리즘을 이용하여 문서들을 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최소신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그 다음 추출된 키워드들간에 유사도를 계산한 후 최소신장트리 그래프로 표현하고, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 12% 가량 개선됨을 보인다.
영문내용
(English Abstract)
In this paper, we propose a novel way of producing keyword networks, named ClusterTextRank, which extracts significant key words from a set of clusters with mutual information metric, and constructs an association network from their minimal spanning tree. The proposed method decomposes documents into multiple clusters through the k-means clustering, and expresses the words within each cluster as a minimum spanning tree graph. The significant key words are determined by evaluating their mutual information within clusters. Then, the method calculates the similarity among the extracted key words, and the results are represented as a minimum spanning tree, called a keyword association network. To evaluate the performance of the proposed method, we used travel-related blog data and showed that the proposed method outperforms the existing TextRank algorithm by about 12% in terms of accuracy.
키워드(Keyword) 상호정보량   최소신장트리   클러스터링   키워드추출   텍스트마이닝   Mutual Information   Minimal Spanning Tree   Clustering   Keyword extraction   Text mining  
파일첨부 PDF 다운로드