Автоматизированная система морфемно-словообразовательного анализа как инструмент лингвистических исследований

Автоматизированная система морфемно-словообразовательного анализа как инструмент лингвистических исследований В настоящее время всеобщей компьютеризации меняются методы и технологии лингвистического анализа, в частности современной лексикографии. Традиционный «бумажный» словарь перестает быть единственным и эффективным способом представления знаний по двум причинам: 1) на сегодня такой словарь не удовлетворяет потребностей пользователя, который работает с компьютером; 2) заключение бумажного словаря требует много времени и человеческих ресурсов для сбора, обработки и систематизации материала в виде бумажных картотек. Поэтому в украинском языкознании сегодня насущной является проблема заключения электронных лингвистических словарей, формат параметризованных электронных баз данных, оснащенных поисково-классификационным программными анализаторами для эффективного и оперативного проведения лингвистического анализа. Развитие теории и практики прикладной лингвистики, в частности методов компьютерного моделирования, позволили по-новому сформулировать лексикографическое задачи в области современного украинского словообразования и морфемики, а именно как создание автоматизированной системы морфемно-словообразовательного анализа ( сокращенно АСМСА . В лаборатории компьютерной лингвистики Киевского национального университета имени Тараса Шевченко в течение 3-х лет ведется работа над АСМСА. В создании этой системы был использован опыт мировой компьютерной лексикографии (частотный словарь З. Ф.Оливериуса «морфемы русского языка», корневой словарь Д. С.Уорта «Русский словообразовательный словарь»; морфемный словарь чешского языка под редакцией Е. Славичковои); практику и теорию заключения известных морфемных и словообразовательных словарей украинского языка, в частности Словаря аффиксальных морфем украинского языка, Корневого гнездового словаря украинского языка и автоматизированной системы «морфемно-словообразовательный фонд украинского языка»; а также большой опыт компьютерной лексикографии лаборатории компьютерной лингвистики (Частотный словарь современного украинского поэтического языка; Идеографическое словарь украинского фразеологии; Грамматический словарь украинских глаголов; Украинский-итальянский словарь украинских глаголов; Тезаурус (словарь синонимов) украинского языка Цель этого проекта заключается в создании автоматизированной системы, структурируется на: 1) две лингвистические базы данных: морфемную и словообразовательную; и на 2) морфемный и словообразовательный анализаторы, которые рассматриваются как надежные лингвистические инструменты языковедческих исследований, способны работать в режимах поиска, классификации, морфемного и словообразовательного анализов на больших лексических массивах.
банкетные залы для свадьбы
Система АСМСА создавалась на базе ≈ 170 тыс. Слов украинского языка и структурируется на два модуля и четыре блока: 1) морфемный модуль — Морфемная база данных, где анализируется морфных структура словоформ; 2) словообразовательный модуль — словообразовательная база данных, где анализируется словообразовательная структура словоформ. Каждый модуль состоит из двух блоков: 1) блок-словарь; 2) блок-анализатор. Структуру АСМСА можно представить в виде следующей блок-схемы:

морфемный модуль словообразовательный модуль
словарь анализатор словарь анализатор
Как показывает блок-схема АСМСА, предполагается такая логика выполнения задач: укладка морфемного электронного словаря (1), на базе которого создается морфемный анализатор (2), выполняет функцию лингвистического классификатора в процессе заключения электронного словообразовательного словаря (3), на базе которого создается система автоматизированного словообразовательного анализа (4). Такая последовательность задач обусловлена рабочей гипотезой: построение словообразовательного гнезда как статьи электронного словообразовательного словаря осуществляется на базе выборки всех однокоренных слов языка. Создание выборок однокоренных слов само по себе является сложным и трудоемким задачам и таких завдвнь в процессе исследования возникало немало. Единственный выход из этого положения — формализация материала на всех этапах его описания, которая дает возможность создавать программные инструменты лингвистического анализа. На первом этапе необходимо создать формализованное описание морфных структур слов, который бы позволил автоматизировать группировки слов с одним корнем. Первоочередной задачей было создание морфемного базы данных, заключалась на основе компьютерной лексико-грамматической базы украинского языка, где слова представлены в графемно записи с грамматической индексацией частей речи. графемно запись слов в электронном морфемному словаре в некоторых случаях был дополнен фонемным, что обусловлено организацией морфных структур ряда слов и особенностями украинской графики. Речь идет о фонемным представления йотированных я, ю, есть, и, которое сделано автоматизировано с лингвистическим алгоритмом, моделирующего все возможные фонетические позиции, в которых я, ю, есть, и передают два звука. Автоматизация фонетического представления графем я, ю, есть, и обеспечивает постоянное превращение графической записи в фонемные и наоборот, что позволяет проводить правильную морфных сегментацию на базе исходных словоформ текста. Информационный макет морфемного словаря и его идеология определялись спецификой электронного характера и перспективой создания на его основе автоматизированной системы морфемного анализа. Суть предложенной формализации морфных структур слов заключается в моделировании структурно-функциональных связей морфов в слове: представление каждой морфных структуры слова в виде лингвистической модели, определяет границы и тип каждого морфа. Формализованное описание морфных структуры слова предбачае моделирования структурных отношений морфов на двух плоскостях организации слова как языкового знака: формализация структуры плана выражения и плана содержания. Границы и тип каждого морфа определяются типичными обозначениями: — префикс, — корень, — суффикс, — интерфиксы, — флексия, — постфикс если морфных структура слова содержит нулевые аффиксы (суффиксы или флексии), которые не имеют субстанционального выражения, то такие аффиксы обозначаются знаком — или знаком — , обозначающий нулевой суффикс в позиции между двумя субстанциально выраженными морфами.