Short text similarity algorithm based on the edit distance and thesaurus

Typ: Artykuł

Liczba pobrań: 1627

Pobierz zasób

PDF

Cytuj

BibTeX EndNote

Tytuł: Short text similarity algorithm based on the edit distance and thesaurus
Wariant tytułu: Algorytm podobieństwa krótkich fragmentów tekstów oparty na odległości edycyjnej i słowniku wyrazów bliskoznacznych
Autor: Niewiarowski, Artur
Opublikowane w: Technical Transactions
Numeracja: Y. 113, iss. 1-NP
Strony: 159-173
Data wydania: 2016
Miejsce wydania: Kraków
Wydawca: Wydawnictwo PK
Język: angielski
DOI: 10.4467/2353737XCT.16.149.5760
Słowa kluczowe: Levenshtein distance algorithm, the edit distance, thesaurus, the measure of texts similarity, plagiarism detection, text mining, Natural Language Processing, Natural Language Understanding, stemming, lemmatization

odległość Levenshteina, odległość edycyjna, słownik wyrazów bliskoznacznych, miara podobieństwa tekstów, detekcja plagiatu, analiza danych tekstowych, przetwarzanie języka naturalnego, stemming, lematyzacja
Abstrakt: This paper proposes a method of comparing the short texts using the Levenshtein distance algorithm and thesaurus for analysing terms enclosed in texts instead of popular methods exploiting the grammatical variations glossary. The tested texts contain a variety of nouns and verbs together with grammatical or orthographical mistakes. Based on the proposed new algorithm the similarity of such texts will be estimated. The described technique is compared with methods: Cosine distances, distance Dice and Jaccard distance constructed on the term frequency method. The proposition is competitive against well-known algorithms of stemming and lemmatization.

Artykuł przedstawia propozycję metody porównywania krótkich fragmentów tekstów bazującą na algorytmie odległości Levenshteina i słowniku wyrazów bliskoznacznych. Porównywane teksty zawierają odmienione terminy oraz celowe błędy ortograficzne i gramatyczne. Opisany mechanizm zestawiony został z popularnymi metodami porównywania tekstów, takimi jak: odległości Kosinusowa, Dice’a i Jaccard’a, dla których wartości wektorów obliczane są metodą częstości terminów. Zastosowanie w mechanizmie słownika wyrazów bliskoznacznych jest alternatywą wobec znanych algorytmów określania rdzenia terminu i lematyzacji w analizie danych tekstowych.
Wydział: Wydział Fizyki, Matematyki i Informatyki
Licencja: Licencja PK
Prawa dostępu: Zasób dostępny dla wszystkich