Проблема семантической классификации терминов большими языковыми моделями: экспериментальное исследование в предметной области «цифровое право»

Сведения об авторах:

Д. И. Галюченко — Одинцовский филиал Московского государственного института международных отношений (университета) Министерства иностранных дел Российской Федерации, Одинцово, Россия

Аннотация научной статьи:

Создание терминологических баз и поддержание их в актуальном состоянии в областях с высокой степенью динамичности, семантической нестабильностью и междисциплинарностью является значительным испытанием для современных терминоведов и лексикографов, т. к. классические методы сбора, описания и обработки терминов не соответствуют текущим вызовам и потребностям.

Оценка особенностей и возможностей применения модели генеративного предобученного трансформера в контексте автоматизации лингвистических исследований позволит сделать работу с данными терминами более эффективной и управляемой.

Цель исследования заключается в оценке эффективности генеративного предобученного трансформера (GPT) на примере языковой модели DeepSeek в решении задач по автоматическому извлечению и семантической классификации терминов на материале текстов в области цифрового права, выявлении перспективности данного направления исследования и поиска возможных путей развития данной области.

В рамках исследования выдвигается гипотеза что генеративные модели благодаря особенностям своего обучения покажут высокую полноту при извлечении терминов-кандидатов, но столкнутся с трудностями на этапе семантической классификации.

Для этих целей было сделано следующее: сформирована методика эксперимента по извлечению и классификации терминов с помощью GPT, собран корпус текстов и эталонный список терминов, относящихся к семантическому полю «цифровое право», проведен эксперимент, в результате которого выполнен анализ и дана оценка эффективности работы по результатам рассчитанных метрик полноты и точности для целей классификации терминов, предложены направления дальнейшего развития данной методики.

Данное исследование подтверждает выдвинутую гипотезу и показывает высокий потенциал стандартных языковых моделей для задач терминологической работы, который полностью может быть реализован при дальнейшей точной настройке модели и ее тренировке на решение конкретных задач.

Рубрика журнала ЯЗЫК И КУЛЬТУРА
DOI: 10.47388/2072-3490/lunn2026-73-1-29-44
Количество скачиваний 20
Ключевые слова: NLP; GPT; лингвистика; компьютерная лингвистика; лексикография; компьютерная лексикография; терминология; цифровое право
Скачать “Проблема семантической классификации терминов большими языковыми моделями: экспериментальное исследование в предметной области” 73-02.pdf – Загружено 20 раз – 1,74 МБ