Algorytm wykrywania treści na stronach portali internetowych

Typ: Artykuł

Liczba pobrań: 1827

Pobierz zasób

PDF

Cytuj

BibTeX EndNote

Tytuł: Algorytm wykrywania treści na stronach portali internetowych
Wariant tytułu: Detection algorithm for content on Internet web portals
Autor: Ulman, Krzysztof

Rzecki, Krzysztof
Opublikowane w: Czasopismo Techniczne. Nauki Podstawowe
Numeracja: R. 109, Z. 18, 1-NP
Data wydania: 2012
Miejsce wydania: Kraków
Wydawca: Wydawnictwo PK
Język: polski
Słowa kluczowe: wykrywanie treści, eksploracja danych, ekstrakcja danych, gromadzenie danych, analiza budowy stron WWW, HTML

web pages contents recognition, data mining, web scraping, data collection, web pages structure analysis, HTML
Abstrakt: W artykule przedstawiono podejście wykorzystane podczas projektowania i implementowania algorytmu automatycznego wykrywania treści na stronach portali internetowych oparte o analizę struktury kodu HTML strony WWW. Za treść strony uznano tekst artykułów wraz z jego nagłówkiem, z pominięciem innych tekstów występujących na stronie (menu, reklamy, komentarze, podpisy pod zdjęciami, itp.).

The paper shows steps, made during designing and implementing automatic web pages contents recognition algorithm, based on HTML structure analysis. A web page contents is the article text with its headline, without any other text like menu, advertisements, user’s comments, image captions, etc.
Wydział: Wydział Fizyki, Matematyki i Informatyki
Licencja: Licencja PK. Brak możliwości edycji i druku.
Prawa dostępu: Zasób dostępny dla wszystkich