Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций)
Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра - лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала...
| Published in: | Язык и культура : сборник статей XXXIII Международной научной конференции (16-17 ноября 2023 г.) С. 276-281 |
|---|---|
| Main Author: | |
| Other Authors: | |
| Format: | Book Chapter |
| Language: | Russian |
| Subjects: | |
| Online Access: | http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001139906 Перейти в каталог НБ ТГУ |
| LEADER | 03430naa a2200325 c 4500 | ||
|---|---|---|---|
| 001 | koha001139906 | ||
| 005 | 20240529163512.0 | ||
| 007 | cr | | ||
| 008 | 240523s2024 ru fs 100 0 rus d | ||
| 035 | |a koha001139906 | ||
| 040 | |a RU-ToGU |b rus |c RU-ToGU | ||
| 100 | 1 | |a Нагель, Ольга Васильевна |9 562031 | |
| 245 | 1 | 0 | |a Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций) |c О. В. Нагель, Б. В. Ли |
| 246 | 1 | 1 | |a The challenges of automated discourse markers mining: a case study of introductory phrases |
| 336 | |a Текст | ||
| 337 | |a электронный | ||
| 504 | |a Библиогр.: 11 назв. | ||
| 520 | 3 | |a Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра - лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем - с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88-97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров. | |
| 653 | |a дискурсивные маркеры | ||
| 653 | |a тексты публичных выступлений | ||
| 653 | |a автоматическая идентификация | ||
| 655 | 4 | |a статьи в сборниках |9 962688 | |
| 700 | 1 | |a Ли, Борис Викторович |9 812606 | |
| 773 | 0 | |t Язык и культура : сборник статей XXXIII Международной научной конференции (16-17 ноября 2023 г.) |d Томск, 2024 |g С. 276-281 |z 9785907722644 |w koha001138971 | |
| 852 | 4 | |a RU-ToGU | |
| 856 | 4 | |u http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001139906 | |
| 856 | |y Перейти в каталог НБ ТГУ |u https://koha.lib.tsu.ru/cgi-bin/koha/opac-detail.pl?biblionumber=1139906 | ||
| 908 | |a статья | ||
| 999 | |c 1139906 |d 1139906 | ||
| 039 | |b 100 | ||
