Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети

Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее вост...

Полное описание

Библиографическая информация
Опубликовано в: :Государственное управление. Электронный вестник № 97. С. 70-84
Главный автор: Саркисова, Анна Юрьевна
Другие авторы: Петров, Евгений Юрьевич, Дунаева, Дарья Олеговна
Формат: Статья в журнале
Язык:Russian
Предметы:
Online-ссылка:http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001016156
Перейти в каталог НБ ТГУ
LEADER 05667nab a2200445 c 4500
001 koha001016156
005 20240906135412.0
007 cr |
008 231214|2023 ru s c rus d
024 7 |a 10.24412/2070-1381-2023-97-70-84  |2 doi 
035 |a koha001016156 
040 |a RU-ToGU  |b rus  |c RU-ToGU 
100 1 |a Саркисова, Анна Юрьевна  |9 337847 
245 1 0 |a Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети  |c А. Ю. Саркисова, Е. Ю. Петров, Д. О. Дунаева 
246 1 1 |a Development of а system of linguistic markers for automated unloading of thematic text data from а social network 
336 |a Текст 
337 |a электронный 
504 |a Библиогр.: с. 82-83 
520 3 |a Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров. 
653 |a лингвистические маркеры 
653 |a большие данные 
653 |a COVID-19 
653 |a автоматизированный сбор данных 
653 |a выгрузка данных 
653 |a текстовые коллекции 
653 |a полнотекстовый поиск 
653 |a социальные сети 
653 |a ВКонтакте, социальная сеть 
653 |a открытые API 
653 |a вакцинация 
655 4 |a статьи в журналах  |9 916874 
700 1 |a Петров, Евгений Юрьевич  |9 773788 
700 1 |a Дунаева, Дарья Олеговна  |9 761915 
773 0 |t Государственное управление. Электронный вестник  |d 2023  |g  № 97. С. 70-84  |x 2070-1381 
852 4 |a RU-ToGU 
856 4 |u http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001016156 
856 |y Перейти в каталог НБ ТГУ  |u https://koha.lib.tsu.ru/cgi-bin/koha/opac-detail.pl?biblionumber=1016156 
908 |a статья 
999 |c 1016156  |d 1016156 
039 |b 100