Обробка неструктурованих текстових даних

Форманюк, Микита Євгенович

Обробка неструктурованих текстових даних

Файли

Форманюк М.Є. Обробка неструктурованих текстових даних.pdf (2.71 MB)

Дата

2025

Автори

Форманюк, Микита Євгенович

Видавець

ПВНЗ "Європейський університет"

Анотація

Обробка неструктурованих даних є однією з ключових проблем сучасної науки про дані, оскільки понад 80% інформації у цифровому середовищі представлено у формі текстів, аудіо-, відеофайлів, зображень та інших форматів, що не піддаються традиційним методам аналізу. Основна мета даного дослідження полягала у систематизації існуючих методів та інструментів обробки неструктурованої інформації, розробці ефективного алгоритму аналізу текстових даних та його практичній реалізації у межах програмного проєкту. У роботі здійснено ґрунтовний теоретичний аналіз особливостей неструктурованих даних, їхніх ключових характеристик, а також викликів, пов’язаних із їхньою обробкою. Проведено детальний огляд методів аналізу текстових документів, включаючи лінгвістичні підходи, статистичні моделі, алгоритми машинного навчання та сучасні нейромережеві підходи. Значна увага приділена інструментам і бібліотекам для роботи з текстовими даними, зокрема NLTK, spaCy, scikit-learn, TensorFlow та PyTorch. Практична частина дослідження передбачала розробку та реалізацію системи автоматизованої обробки текстових даних, що охоплює всі основні етапи: 1. Завантаження даних – інтеграція із зовнішніми API (наприклад, New York Times API) та використання відкритих корпусів (20 Newsgroups). 2. Попередня обробка – нормалізація текстів, токенізація, лематизація, видалення стоп-слів та очищення даних від небуквених символів. 3. Векторизація тексту – застосування методу TF-IDF для перетворення текстових документів у числові представлення. 4. Навчання моделі класифікації – використання логістичної регресії з підбором оптимальних параметрів. 5. Оцінка продуктивності – аналіз точності, повноти, F1-міри, матриці плутанини та ROC-кривої.6 6. Візуалізація результатів – побудова графіків для інтерпретації ефективності алгоритмів. Результати дослідження підтвердили ефективність запропонованої методики, яка забезпечила високу точність класифікації текстів. Наукова новизна роботи полягає у вдосконаленні методології обробки неструктурованої текстової інформації шляхом поєднання сучасних алгоритмів машинного навчання, текстового аналізу та використання автоматизованих методів розпізнавання структурних особливостей тексту. Практичне значення роботи полягає у можливості застосування отриманих результатів у реальних задачах автоматизованого аналізу текстів у різних сферах, включаючи журналістику, медицину, фінансовий сектор, кібербезпеку та бізнес-аналітику. Запропонований підхід дозволяє ефективно працювати з великими обсягами текстових даних, забезпечуючи швидку обробку та точні результати.

Опис

Unstructured data processing is one of the key challenges in modern data science, as over 80% of digital information exists in the form of text, audio, video files, images, and other formats that cannot be processed using traditional methods. The main objective of this study was to systematize existing methods and tools for unstructured data processing, develop an effective algorithm for text analysis, and implement it within a software project. This research presents a comprehensive theoretical analysis of the characteristics of unstructured data, their key features, and the challenges associated with their processing. A detailed review of text analysis methods was conducted, including linguistic approaches, statistical models, machine learning algorithms, and modern neural network-based techniques. Special attention was paid to tools and libraries for text processing, including NLTK, spaCy, scikit-learn, TensorFlow, and PyTorch. The practical part of the study involved the development and implementation of an automated text processing system covering all major stages: 1. Data acquisition – integration with external APIs (e.g., New York Times API) and the use of open datasets (20 Newsgroups). 2. Preprocessing – text normalization, tokenization, lemmatization, stop-word removal, and cleaning from non-alphabetic symbols. 3. Text vectorization – application of the TF-IDF method to transform text documents into numerical representations. 4. Model training – using logistic regression with hyperparameter optimization. 5. Performance evaluation – analyzing accuracy, recall, F1-score, confusion matrix, and ROC curve. 6. Result visualization – generating graphs to interpret model efficiency. The study results confirmed the effectiveness of the proposed methodology, which achieved high text classification accuracy. The scientific novelty of the work lies in improving the methodology for processing unstructured text data by combining modern machine learning algorithms, text analysis techniques, and automated recognition of text structure features. The practical significance of this research is the applicability of the developed methods in real-world tasks of automated text analysis across various domains, including journalism, medicine, finance, cybersecurity, and business analytics. The proposed approach enables efficient processing of large-scale textual data, ensuring high-speed analysis and accurate results.