| 520 |
3 |
|
|a Материалы и методы. С целью улучшения процесса анализа семестра, организованного с использованием существующих методов и моделей, необходимо внести в него корректировки в соответствии с растущими изменениями информационных потоков и на сегодняшний день. В этом случае исследователям крайне важно изучить возможности обновления определённых инструментов, либо объединить их, либо разработать, чтобы адаптировать их к современным задачам, чтобы обеспечить более чёткое понимание результатов их лечения. Мы представляем сравнение нескольких моделей глубокого обучения, включая конволюционная нейронная сеть, рекуррентные нейронные сети и долговременную и кратковременную двунаправленную память, оцененных на основе различных подходов к интеграции слов, включая трансформацию двунаправленных кодирующих представлений (BERT) и ее варианты, FastText и Word2Vec. Дополнение данных проводилось с использованием подхода простого дополнения данных. В этом проекте применяются методы обработки естественного языка (ОЕЯ), глубокое обучение, а также модели - LSTM, CNN, SVM TF-IDF, adaboost, naïves bayes, а затем комбинации моделей.Результаты. Исследования позволили получить и проверить результаты моделей с помощью пользовательских обзоров и сравнить точность моделей, чтобы увидеть, какая модель имеет наибольшую точность результатами анализа, полученными с помощью моделей, и их комбинацией CNN с LSTM-моделью, но SVM с TF-IDF векторизатором оказалась наиболее эффективной для этого несбалансированного набора данных. В построенной модели результатом стали следующие показатели: ROC AUC - 0,82, точность - 0,92, F1 - 0,82, Precision - 0,82 и Recall - 0,82. Для поиска более эффективной модели можно провести дополнительные исследования и внедрение модели. Заключение. За последние годы анализ текста на естественном языке продвинулся довольно далеко вперёд, и не исключено, что в обозримом будущем подобные задачи будут полностью решены. Несколько различных моделей в ML и CNN с LSTM-моделью, но SVM с TF-IDF векторизатором оказалась наиболее эффективной для этого несбалансированного набора данных. В целом, как глубокое обучение, так и методы выбора на основе признаков могут быть использованы для решения некоторых наиболее актуальных проблем. Глубокое обучение полезно, когда наиболее значимые признаки заранее неизвестны, в то время как методы выбора на основе признаков могут помочь повысить точность и эффективность алгоритма классификации. Комбинация обоих подходов также может быть использована для дальнейшего повышения эффективности алгоритма.
|