Algorytm wykrywania treści na stronach portali internetowych
Wariant tytułu
Detection algorithm for content on Internet web portals
Autor
Ulman, Krzysztof
Rzecki, Krzysztof
Opublikowane w
Czasopismo Techniczne. Nauki Podstawowe
Numeracja
R. 109, Z. 18, 1-NP
Data wydania
2012
Miejsce wydania
Kraków
Wydawca
Wydawnictwo PK
Język
polski
Słowa kluczowe
wykrywanie treści, eksploracja danych, ekstrakcja danych, gromadzenie danych, analiza budowy stron WWW, HTML
web pages contents recognition, data mining, web scraping, data collection, web pages structure analysis, HTML
Abstrakt
W artykule przedstawiono podejście wykorzystane podczas projektowania i implementowania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.).
The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc.
Wydział
Wydział Fizyki, Matematyki i Informatyki
Licencja
Licencja PK. Brak możliwości edycji i druku.
Prawa dostępu
Zasób dostępny dla wszystkich
Na stronie wykorzystywane są pliki cookie, bądź podobne rozwiązania. Aby poznać szczegóły zapoznaj się z polityką prywatności.