Научно-исследовательские семинары “Возможности и перспективы анализа текстов и машинного обучения” предназначены для обсуждения вопросов по темам корпусной лингвистики, анализа текстов и машинного обучения. Семинары являются открытыми и проводятся при участии преподавателей и студентов ИИЯ и ИМИТ, а также сотрудников ЦИИ ПетрГУ. Конференции ведутся в смешанном формате: очно в аудитории 153 и на платформе ZOOM. Докладчиками выступают преподаватели, аспиранты и студенты различных университетов не только из России, но и из-за рубежа. Семинар проводится регулярно - раз в две недели.
К участию в семинаре приглашаются специалисты, обучающиеся магистратуры, бакалавриата и аспирантуры как из ПетрГУ, так и из ВУЗов по всему миру.
Целью этих семинаров является обсуждение проблемных вопросов, перспектив и достижений в соответствующих областях науки. Помимо этого, одним из важнейших аспектов этих семинаров является возможность поделиться опытом с коллегами, работающими в смежных областях и направлениях.
Видеоролики на конкурс «XII Молодежная премия в области науки и инноваций»:
Новости:
Руководители семинара:
Щеголева Людмила Владимировна, док.тех.н, доц., Институт математики и информационных технологий
Котюрова Ирина Аврамовна, канд.филол.н., доц. Институт иностранных языков
Научный секретарь семинара:
Вернигорова Маргарита margaritavernigorova@yandex.ru
27 марта в 19:00 в рамках серии научно-исследовательских семинаров «Возможности и перспективы анализа текстов и машинного обучения» пройдет встреча под общим названием "Примеры задач по
оценке состояния общества на основе анализа текстовой информации из интернета".
На семинаре планируется обсуждение 3 сообщений, объединенных этой общей темой:
Сообщение 1
«Оценка отношения к зарубежным союзникам и противникам РФ по регионам России в период 2022 гг. по запросам в сервис Яндекса» (резюме см. ниже)
Борисова Татьяна Алексеевна, магистрант совместной программы МФТИ-РАНХиГС, институт ИЭМИТ
Резюме.
Мотивация работы: получить независимую от СМИ и официальных органов оценку отношения к группе стран, которые рассматриваются как союзники, противники и нейтральные по отношению к РФ. Такие оценки могут служить дополнительной косвенной оценкой отношения населения к СВО. Объект рассмотрения — интенсивность негативных запросов в сервис Яндекса относительно 8 стран мира из 8 Федеральных округов РФ, поступающих с недельным интервалом времени.
Выбор словаря запросов определен на основе препроцессинга запросов из ЦФО по отношению к США (регион с наиболее девиантным по настроениям населения, и страна с наиболее девиантным к ней отношением). Результаты представляют собой динамику запросов по всем ФО в 2022. Результаты ФО по каждой стране, усредненные за год, нормируются на количество населения этого ФО и сравниваются с степенью благосостояния и информированности его жителей
Сообщение 2
«Динамика левой, правой, провластной и национальной парадигмы в материалах политических партий РФ в 2022 г.» (резюме см. ниже)
Решетов Владислав Максимович, магистрант совместной программы МФТИ-РАНХиГС, институт ИЭМИТ
Резюме
Политические партии в момент своего возникновения и дальнейшего развития ассоциируют себя с различными позициями, отражающими отношения граждан и государства. Из всего множества позиций мы выделили 4 ключевые, предложенные социологами — левая, правая, провластная, националистическая. Естественно, что под влиянием сильных внешних обстоятельств эти идеологические позиции могут меняться. Объектом исследования являются материалы 5 политических партий, представленных в Государственной думе, наиболее значимые с точки зрения рассматриваемой проблемы. Лингвистические ресурсы: сайты
политических партий и краткие словари, отражающие указанные 4 парадигмы. Результаты представляют собой динамику относительного вклада каждой парадигмы в материалы партий в 2022 г. Эта динамика сопоставляется с датами значимых событий в ходе СВО и датами выступлений Президента РФ.
Сообщение 3
«Оценка достоверности новостной ленты в категориях ложной, правдивой, полу-правдивой и прочей информации»
Шушкевич Елена Николаевна, аспирант факультета компьютерных наук Технологического Университета Дублина (Ирландия)
Примечание. Материалы представляет Александров М.А., доцент РАНХиГС, один из научных руководителей аспирантки
Резюме.
Современное общество уже давно называют информационным из-за доступности самых разнообразных материалов, циркулирующих в Интернете. С другой стороны, его можно называть и ложно-информационным из за большого и все возрастающего объема ложной информации, которая вполне успешно находит своего потребителя среди населения. Это обстоятельство уже в течение ряда лет заставляет IT-специалистов интенсивно искать инструменты обнаружения такой информации, но традиционно они решают проблему в рамках парадигмы Правда-Ложь. Между тем, бОльшую часть материалов, направленных на распространение ложной информации, можно отнести к полу-Правде или полу-Лжи, и обнаружение таких материалов оказывается значительно более сложной проблемой. Эта сложность сразу отражается в невысоких показателях, которые демонстрируют современные лингвистические модели на базе различных алгоритмов BERTA и их ансамблей. Действительно, популярные индикаторы качества F1 при использовании указанных моделей не поднимаются выше 0.3. В предложенной работе тестируются 4 лингвистические модели sBERTA, RoBerta, mBerta и их ансамбль на корпусе новостей, используемых в соревновании CheckThat! Lab at CLEF 2023. Предложены классификаторы и операции с ними, которые позволяют улучшить имеющиеся результаты
К участию в семинаре приглашаются все желающие.
Семинар проводится в смешанном формате: очно в ауд. 153 в главном корпусе ПетрГУ (Центр искусственного интеллекта, пр.Ленина, 33), а также дистанционно в Zoom. Ссылку для дистанционного подключения к семинару можно получить по запросу по адресу: margaritavernigorova@yandex.ru