Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети
Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее вост...
| Published in: | Государственное управление. Электронный вестник № 97. С. 70-84 |
|---|---|
| Main Author: | |
| Other Authors: | , |
| Format: | Article |
| Language: | Russian |
| Subjects: | |
| Online Access: | http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001016156 Перейти в каталог НБ ТГУ |
| LEADER | 05667nab a2200445 c 4500 | ||
|---|---|---|---|
| 001 | koha001016156 | ||
| 005 | 20240906135412.0 | ||
| 007 | cr | | ||
| 008 | 231214|2023 ru s c rus d | ||
| 024 | 7 | |a 10.24412/2070-1381-2023-97-70-84 |2 doi | |
| 035 | |a koha001016156 | ||
| 040 | |a RU-ToGU |b rus |c RU-ToGU | ||
| 100 | 1 | |a Саркисова, Анна Юрьевна |9 337847 | |
| 245 | 1 | 0 | |a Разработка системы лингвистических маркеров для автоматизированной выгрузки тематических текстовых данных из социальной сети |c А. Ю. Саркисова, Е. Ю. Петров, Д. О. Дунаева |
| 246 | 1 | 1 | |a Development of а system of linguistic markers for automated unloading of thematic text data from а social network |
| 336 | |a Текст | ||
| 337 | |a электронный | ||
| 504 | |a Библиогр.: с. 82-83 | ||
| 520 | 3 | |a Автоматизированный поиск и отбор текстов по определенной теме в целевом источнике для формирования репрезентативной тематической текстовой коллекции (текстового датасета) большой размерности, будучи частным случаем получения и структурирования первичных данных, остается одной из наиболее востребованных прикладных задач обработки естественного языка. В статье представлен опыт разработки системы лингвистических маркеров, позволяющей извлекать автоматизированными методами тексты, связанные с тематикой вакцинации от COVID-19, на материале социальной сети «ВКонтакте». Для формирования итогового датасета использовалась комбинация лингвистических методов с методами сбора и обработки текстовых данных. Тестовый список маркеров сформирован на основе фоновых знаний, работы со словарями и специальными лингвистическими сервисами. Ставилась задача сформировать список слов, объединенных общим концептуальным признаком, спрогнозировать совместную встречаемость слов в текстах о вакцинации от COVID-19 или найти специфичные слова, маркирующие данную тему: окказионализмы, обозначения специфичных реалий. Контент выгруженных с помощью тестового списка маркеров тематических сообществ в сети «ВКонтакте» стал источником автоматизированного и экспертного извлечения основного массива маркеров (354 единицы). Подробно описана процедура автоматизированной фильтрации промежуточной текстовой выборки (12,8 млн текстов); приведена методика формирования стоп-слов. За период с 01.01.2020 по 01.03.2023 извлечено 4,5 млн релевантных сообщений; валидность маркеров подтвердилась незначительным в масштабе больших данных количеством шума. Систематизированы общие принципы подготовки лингвистических маркеров для автоматизированной выгрузки больших текстовых данных; отмечены сильные и слабые стороны данного инструмента; предложены рекомендации по формированию списка лингвистических маркеров. | |
| 653 | |a лингвистические маркеры | ||
| 653 | |a большие данные | ||
| 653 | |a COVID-19 | ||
| 653 | |a автоматизированный сбор данных | ||
| 653 | |a выгрузка данных | ||
| 653 | |a текстовые коллекции | ||
| 653 | |a полнотекстовый поиск | ||
| 653 | |a социальные сети | ||
| 653 | |a ВКонтакте, социальная сеть | ||
| 653 | |a открытые API | ||
| 653 | |a вакцинация | ||
| 655 | 4 | |a статьи в журналах |9 916874 | |
| 700 | 1 | |a Петров, Евгений Юрьевич |9 773788 | |
| 700 | 1 | |a Дунаева, Дарья Олеговна |9 761915 | |
| 773 | 0 | |t Государственное управление. Электронный вестник |d 2023 |g № 97. С. 70-84 |x 2070-1381 | |
| 852 | 4 | |a RU-ToGU | |
| 856 | 4 | |u http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001016156 | |
| 856 | |y Перейти в каталог НБ ТГУ |u https://koha.lib.tsu.ru/cgi-bin/koha/opac-detail.pl?biblionumber=1016156 | ||
| 908 | |a статья | ||
| 999 | |c 1016156 |d 1016156 | ||
| 039 | |b 100 | ||
