Автоматизация поиска коллокаций в тексте: метод статистической обработки vs модель генеративного предобученного трансформера

Сведения об авторах:

Д. И. Галюченко — Московский государственный институт международных отношений (университет) Министерства иностранных дел Российской Федерации, Москва, Россия

Аннотация научной статьи:

Компьютерная лингвистика — область исследования, неразрывно связанная с автоматической обработкой текстов на естественном языке. В последние годы она стала особенно акту-альной благодаря развитию новых технологий, таких как модели генеративных предобученных трансформеров (GPT). Эти модели способны обрабатывать долгосрочные зависимости в тексте, что делает их перспективными для поиска коллокаций — семантически связанных словосочетаний. Цель исследования заключается в сравнении эффективности двух методов поиска коллокаций: статистической обработки естественного языка (Statistical NLP) и GPT-4 Turbo. Для этого была разработана программа, использующая меру статистической зависимости PMI, и проведен сравнительный анализ с результатами GPT-модели. Материалом исследования послужила статья 5 Европейской конвенции по правам человека.

Оценка особенностей и возможностей применения методов автоматизации поиска коллокаций в тексте в виде статистической обработки текстов естественного языка и модели генеративного предобученного трансформера (GPT) в контексте автоматизации лингвистических исследований позволяет лучше понять разнообразие подходов и сгенерировать наиболее подходящий метод автоматизации поиска коллокаций в тексте для своих собственных исследований. В ходе исследования описываются отличия в подходе к анализу и пониманию текстов на естественном языке в случае выбора метода, использующего модель GPT, и метода статистической обработки текстов на естественном языке и проводится сопоставительный анализ полученных результатов. Оба подхода имеют свои преимущества и ограничения, и выбор между ними зависит от конкретных задач и ресурсов. В некоторых случаях комбинирование этих методов может привести к лучшим результатам в обработке текстов на естественном языке.

Рубрика журнала ЯЗЫК И КУЛЬТУРА
DOI: 10.47388/2072-3490/lunn2024-68-4-24-40
Количество скачиваний 33
Ключевые слова: NLP; GPT; статистические методы; коллокации; лингвистика; компьютерная лингвистика
Скачать “Автоматизация поиска коллокаций в тексте: метод статистической обработки vs модель генеративного предобученного трансформера” 68-02.pdf – Загружено 33 раза – 3,06 МБ