Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее вост...

Full description

Bibliographic Details
Published in:	Государственное управление. Электронный вестник № 97. С. 70-84
Main Author:	Саркисова, Анна Юрьевна
Other Authors:	Петров, Евгений Юрьевич, Дунаева, Дарья Олеговна
Format:	Article
Language:	Russian
Subjects:	лингвистические маркеры большие данные COVID-19 автоматизированный сбор данных выгрузка данных текстовые коллекции полнотекстовый поиск социальные сети ВКонтакте, социальная сеть открытые API вакцинация статьи в журналах
Online Access:	http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001016156 Перейти в каталог НБ ТГУ

Description
Summary:	Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров.
Bibliography:	Библиогр.: с. 82-83
ISSN:	2070-1381

Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Similar Items