Оригинальная версия статьи опубликована
в Докладах АН РТ - том 51, №8 - 2008 - С.580-583. |
|||||||||||||||||
Л.А. ГРАЩЕНКО, А.Ю. ФОМИН ОПЫТ РЕАЛИЗАЦИИ СРЕДСТВ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА(сокращенная версия) В ходе реализации начального этапа исследований в области
автоматизированной таджикско-персидской конверсии систем письма [1],
авторами был проведён анализ существующих средств, методов и программных
реализаций алгоритмов, обеспечивающих конверсию текстов с таджикского
на персидский язык. Результаты этого анализа стали исходными данными для
разработки опытных автоматизированных систем таджикско-персидской конверсии
систем письма.
Среди существующих средств автоматизации конвертирования текстов с таджикского на персидский языки был выделен онлайн-конвертер культурного института Ирана «Пендар» [5] (далее ОК «Пендар»). Для целей дальнейшего исследования был разработан прототип автоматизированной системы таджикско-персидской конверсии систем письма (далее – Прототип АСК), обладающий минимальной функциональностью. Математическая модель функционирования Прототипа АСК задаётся в терминах ранее выполненных исследований [1, 2] и представляется системой правил применения заданного в табличном виде параметрического преобразования Yi’=TRANS(xi, Pos(i, X)) каждого i-го символа xi словоформы X таджикского текста в цепочку Yi’, последовательная конкатенация которых образует словоформу Y персидского текста. В качестве характеристик для сравнения двух указанных автоматизированных систем конверсии были выбраны:
Для расчета приведенных статистик на конкретном языковом материале была выбрана статья на таджикском языке [6] длиной 1353 слова, содержащей в числе 789 словоформ числительные, имена собственные, заимствования из других языков (арабского и русского). Для автоматизации расчетов был создан эталонный словарь персидских словоформ. При сравнении слов, полученных в результате конверсии, со словами из эталонного словаря делались следующие допущения: ﺃ =ﯼﺍ, ﺅ = ﻯﻭ, ﺉ = ﻯﯾ. На этапе первичной подготовки данных был выявлен серьёзный недостаток системы ОК «Пендар», состоящий в неспособности данной системы распознавать и конвертировать следующие специфичные буквы таджикского алфавита: ҳ, ӣ, ҷ, қ, ў, ю. Для продолжения исследования, в исходном тексте, подаваемом на вход ОК «Пендар», была произведена замена указанных букв на близкие по звучанию, по следующему правилу: «ҳ» → «x», «ӣ» → «и», «ҷ» → «ч», «қ» → «к», «ў» → «у», «ю» → «у». Сравнительная характеристика ОК «Пендар» и Прототипа АСК по выбранным показателям приведена в таблице. Табл.
Таким образом, качество конверсии таджикского текста
в персидский с помощью Прототипа АСК по показателю Δсф в 1,85 раза выше,
чем посредством ОК «Пендар», однако в обоих случаях полученные показатели
явно недостаточны для практического использования указанных систем. При
этом для ОК «Пендар» требуется пред- и постредактирование конвертируемого
текста, вследствие чего эффект от автоматизации процесса конверсии нивелируется
значительными трудозатратами на этих этапах.
Институт математики АН Республики Таджикистан. Copyright: Усманов З.Д., Гращенко Л.А., Фомин А.Ю., 2008. Все права защищены. При
использовании данного материала ссылка на авторов и источник обязательна. |
|||||||||||||||||