web page, features extraction, classification, AdaBoost
Abstrakt
Artykuł porusza zagadnienia dotyczące klasyfikacji stron internetowych. Klasyfikacja przeprowadzana jest w oparciu o analizę struktury oraz zawartości stron. Pod uwagę brane są cechy zróżnicowanym charakterze, w tym między innymi cechy strukturalne, wizualne, tekstowe, łączy internetowych. Przy budowie klasyfikatorów wykorzystano algorytm AdaBoost. Skupiono się na wpływie metody selekcji słów kluczowych na skuteczność procesu klasyfikacji.
The paper concerns the issues of web pages analysis process. The classification is performed based on the analysis of the structure as well content of pages. Various characteristics are taken into account including inter alia, structural, visual, text, web and links features. During the construction of classifiers the AdaBoost algorithm was applied. This paper focuses on the impact of keyword selection methods on the effectiveness of the classification process.
Wydział
Wydział Fizyki, Matematyki i Informatyki
Licencja
Licencja PK. Brak możliwości edycji i druku.
Prawa dostępu
Zasób dostępny dla wszystkich
Na stronie wykorzystywane są pliki cookie, bądź podobne rozwiązania. Aby poznać szczegóły zapoznaj się z polityką prywatności.