Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций)

Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала был...

Full description

Bibliographic Details
Published in:Язык и культура : сборник статей XXXIII Международной научной конференции (16-17 ноября 2023 г.) С. 276-281
Main Author: Нагель, Ольга Васильевна
Other Authors: Ли, Борис Викторович
Format: Book Chapter
Language:Russian
Subjects:
Online Access:http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001139906
LEADER 03221naa a2200301 c 4500
001 koha001139906
005 20240529163512.0
007 cr |
008 240523s2024 ru fs 100 0 rus d
035 |a koha001139906 
040 |a RU-ToGU  |b rus  |c RU-ToGU 
100 1 |a Нагель, Ольга Васильевна 
245 1 0 |a Трудности автоматической идентификации дискурсивных маркеров (на примере вводных конструкций)  |c О. В. Нагель, Б. В. Ли 
246 1 1 |a The challenges of automated discourse markers mining: a case study of introductory phrases 
336 |a Текст 
337 |a электронный 
504 |a Библиогр.: 11 назв. 
520 3 |a Выявлены трудности автоматической идентификации дискурсивных маркеров (ДМ), представленных вводными конструкциями, в текстах публичных выступлений. Материалом послужили восемь текстов публичных выступлений научно-популярного жанра – лекции Ted Talk общим объемом 1 381 предложение. Тексты сначала были проанализированы вручную для определения количества ДМ, затем – с помощью автоматического скрипта Python с учетом правил определения ДМ в зависимости от положения в тексте и пунктуации. Данные скрипта сравнивались текстами с ручной аннотацией. Результаты показали, что применённый скрипт и правила способны с точностью до 88–97% выделять ДМ. Обнаружилось, что около 9% ДМ были проигнорированы скриптом из-за отсутствия пунктуации. Сделан вывод, что подход NLP для извлечения ДМ из текстов способен их извлекать, однако требуется соблюдение правил пунктуации при преобразовании записей в текст для более точной идентификации ДМ и наличие обширной базы маркеров. 
653 |a дискурсивные маркеры 
653 |a тексты публичных выступлений 
653 |a автоматическая идентификация 
655 4 |a статьи в сборниках 
700 1 |a Ли, Борис Викторович 
773 0 |t Язык и культура : сборник статей XXXIII Международной научной конференции (16-17 ноября 2023 г.)  |d Томск, 2024  |g С. 276-281  |z 9785907722644  |w koha001138971 
852 4 |a RU-ToGU 
856 4 |u http://vital.lib.tsu.ru/vital/access/manager/Repository/koha:001139906 
908 |a статья 
999 |c 1139906  |d 1139906