Семинары
11.06.2025 ОНЛАЙН-СЕМИНАР "Прикладная статистика и моделирование реальных процессов"
Варшавский Александр Евгеньевич,
Пересецкий Анатолий Абрамович
Ученый секретарь: Макарчук Нина Ивановна
Оргсекретарь: Лысенкова Мария Александровна
Очередное заседание семинара "Прикладная статистика и моделирование реальных процессов" состоится:
11 июня 2025 года, в среду, начало в 16 часов.
Заседание семинара проводится в формате ZOOM–конференции
Ссылка для входа в ZOOM конференцию:
Научный семинар "Прикладная статистика и моделирование реальных процессов"
Время: 11 июня 2025 16:00 Москва
Подключиться к конференции Zoom
https://us06web.zoom.us/j/84763306487?pwd=Uh1cOOKAbaPlRFeJOJ9xQskzUaIvBL.1
Идентификатор конференции: 847 6330 6487 Код доступа: 546754
Программа заседания:
Балаш Владимир Алексеевич, д.э.н., профессор, профессор кафедры дифференциальных уравнений и математической экономики Саратовского государственного университета им. Н.Г.Чернышевского
Анализ тематического разнообразия коллекций текстовых документов
Аннотация:
В докладе предполагается поделиться опытом применения некоторых методов обработки текстовых данных для группировки документов по тематике, выделения терминов наиболее адекватно характеризующих темы, а также анализе динамики появления документов, относящихся к разным темам, и трансформации подмножества терминов, описывающих темы.
В качестве информационной базы были использованы тексты публикаций в изданиях издательского дома «Коммерсантъ» и «Аргументы и Факты» за 1992-2023 годы, в которых упоминались ключевые слова «СССР», «Советский» и их синонимы. Исследование проводилось в 2021-2023 годах при финансовой поддержке РНФ в рамках научного проекта № 22-18-00153 «Образ СССР в исторической памяти: исследование медиастратегий воспроизводства представлений о прошлом в России и зарубежных странах», https://rscf.ru/project/22-18-00153/.
Для проведения тематического моделирования использовалась библиотека BERTopic (https://maartengr.github.io/BERTopic/index.html).
Всего в состав информационной базы было включено более 30000 статей. Коллекции статей «АиФ» и «Коммерсант» анализировались отдельно.
В результате применения методов тематического моделирования публикации для каждого из изданий были разбиты на более чем 100 кластеров, некоторые из которых были затем объединились в укрупненные группы. Анализ текстов статей экспертами подтвердил, что статьи, отнесенные к одному и тому же кластеру действительно сходны по тематике, а ключевые слова хорошо репрезентируют содержание статей.
Отдельно анализировались различия в упоминаниях терминов по годам – как часто статьи с конкретной темой появлялись в издании в разные годы, какие термины использовались внутри темы и какие темы превалировали. Особое внимание уделялось выделению внутри темы специфических терминов.
Это позволило выявить и описать как частоту обращения изданий к разным темам, так и трансформацию во времени отношения к советскому периоду в рамках тематических групп, а также проанализировать сходства и различия динамики изменения тематических профилей статей по выбранной проблематике разных изданий.
Приглашаем Вас принять участие в заседании семинара!