Дослідження структур даних електронного словника української мови для задач встановлення авторства текстів

Loading...
Thumbnail Image
Date
2021
Journal Title
Journal ISSN
Volume Title
Publisher
Український державний університет науки і технологій, Дніпро
Abstract
UKR: Магістерська робота виконана на 184 сторінках, з них 92 – пояснювальна записка, 92 – додатки (технічна документація, наукові публікації), містить 23 рисунків, 26 таблиць та 63 використані джерела. В магістерській роботі досліджено низку структур даних для ефективного зберігання та доступу до словника української мови з атрибутами слів, проведено реструктуризацію словника ВЕСУМ для компактного зберігання даних, а також розроблено відповідні програмні засоби для вимірів швидкодії операцій над словником. Крім того, розроблено метод аналізу текстів на подібність через послідовності атрибутів слів, що також передбачає кластеризацію для наглядності. Мета – дослідити можливості ефективного зберігання словника української мови з їх атрибутами, побудови швидкодіючої структури даних в оперативній пам’яті на його основі, використання послідовностей морфологічних атрибутів слів для визначення приналежності довільного тексту. Об’єктом дослідження є процес визначення авторства природно-мовних текстів, вибір структури даних для ефективного зберігання та здійснення операцій вставки та пошуку для текстових даних довільного розміру, а також структуризації словнику української мови для його компактного зберігання на жорсткому диску.
ENG: The master's thesis is performed on 184 pages, of which 92 - explanatory note, 92 - applications (technical documentation, scientific publications), contains 23 figures, 26 tables and 63 sources used. The master's thesis a number of data structures for efficient storage and access to the Ukrainian dictionary with word attributes were investigated, restructured the VESUM dictionary for compact data storage, and developed appropriate software for measuring the speed of operations on the dictionary. In addition, a method for analyzing texts for similarity through word attribute sequences has been developed, which also involves clustering for clarity. The aim is to explore the possibilities of effective storage of the dictionary of the Ukrainian language with their attributes, building a fast-acting data structure in RAM based on it, using sequences of morphological attributes of words to determine the affiliation of any text. The object of the research is the process of determining the authorship of natural language texts, choosing the data structure for efficient storage, insertion and search operations for text data of any size, as well as structuring the Ukrainian dictionary for compact storage on hard disk.
Description
Keywords
лінгвістичний аналіз, швидкодіючі структури даних, кластерний аналіз, максимінний метод, мінімальна ідеальна хеш-функція, префіксальне дерево пошуку, linguistic analysis, fast-acting data structures, cluster analysis, maximin method, minimum perfect hash function, prefix search tree, ВКР, КІТ
Citation
Кириченко О. О. Дослідження структур даних електронного словника української мови для задач встановлення авторства текстів : дипломна робота на здобуття кваліфікаційного ступеня магістра : спец. 121 – Інженерія програмного забезпечення / наук. керівник В. І. Шинкаренко ; Укр. держ. ун-т науки і технологій. Дніпро, 2021. 184 с.