Web page clustering enhanced by summarization

作者： Xuanhui Wang , Dou Shen , Hua-Jun Zeng , Zheng Chen , Wei-Ying Ma

关键词: Factor (programming language) 、 Feature vector 、 Cluster analysis 、 Computer science 、 Web page 、 Data mining 、 Information retrieval 、 Representation (mathematics) 、 Automatic summarization 、 Latent semantic analysis 、 HITS algorithm

摘要: Traditional Web page clustering algorithms use the full-text in documents to generate feature vectors. Such methods often produce unsatisfactory results because there is much noisy information, such as decoration, interaction, and advertisement, pages. The varying-length problem of pages also a significant negative factor affecting performance. In this paper, we investigate several summarization techniques tackle these issues when Compared with representation pages, our experimental indicate that proposed approach effectively solves problems information varying-length, thus significantly boosts

uni-trier.de 本地加速

acm.org 本地加速

sci-hub.se PDF 下载加速

参考文章(7)

Víctor Pàmies, Open Directory Project Softcatalà (http://www.softcatala.org/). ,(2003)

George Karypis, Michael Steinbach, Vipin Kumar, A Comparison of Document Clustering Techniques ,(2000)

Yihong Gong, Xin Liu, Generic text summarization using relevance measure and latent semantic analysis international acm sigir conference on research and development in information retrieval. pp. 19- 25 ,(2001) , 10.1145/383952.383955

H. P. Luhn, The automatic creation of literature abstracts Ibm Journal of Research and Development. ,vol. 2, pp. 159- 165 ,(1958) , 10.1147/RD.22.0159

James P. Callan, Passage-level evidence in document retrieval international acm sigir conference on research and development in information retrieval. pp. 302- 310 ,(1994) , 10.5555/188490.188589

Gerard Salton, J. Allan, Chris Buckley, Approaches to passage retrieval in full text information systems international acm sigir conference on research and development in information retrieval. pp. 49- 58 ,(1993) , 10.1145/160688.160693

Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman, Indexing by Latent Semantic Analysis Journal of the Association for Information Science and Technology. ,vol. 41, pp. 391- 407 ,(1990) , 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9

Web page clustering enhanced by summarization

来源期刊

我的账户

Web page clustering enhanced by summarization

来源期刊

相似文章 7

Method and system for classifying display pages using summaries

Web Sessions Anomaly Detection in Dynamic Environments

Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering

Exploiting neighborhood knowledge for single document summarization and keyphrase extraction

Verfahren und Vorrichtung zur Klassifikation von Bildseiten mittels Zusammenfassungen

Arabic Text Summarization Based on Latent Semantic Analysis to Enhance Arabic Documents Clustering

A Novel Sentence Scoring Method for Extractive Text Summarization

我的账户