На главную страницу
 
 
Оригинальная версия статьи опубликована в Докладах АН РТ - том 51, №8 - 2008 - С.580-583.
 
 

Л.А. ГРАЩЕНКО, А.Ю. ФОМИН

ОПЫТ РЕАЛИЗАЦИИ СРЕДСТВ ТАДЖИКСКО-ПЕРСИДСКОЙ КОНВЕРСИИ ГРАФИЧЕСКИХ СИСТЕМ ПИСЬМА

(сокращенная версия)

В ходе реализации начального этапа исследований в области автоматизированной таджикско-персидской конверсии систем письма [1], авторами был проведён анализ существующих средств, методов и программных реализаций алгоритмов, обеспечивающих конверсию текстов с таджикского на персидский язык. Результаты этого анализа стали исходными данными для разработки опытных автоматизированных систем таджикско-персидской конверсии систем письма.
При этом установлено, что основой письменного общения носителей указанных языков являются сервисы сети Интернет – электронная почта, службы обмена сообщениями (ICQ, IRC и т.д.), файлообменные сети и Web-сервисы (чаты, форумы, блоги, Интернет-конференции); а также сервисы операторов мобильной связи (SMS). При этом вся нагрузка на преобразование графических систем письма ложится на пользователей – участников межкультурной таджикско-персидской коммуникации, которые непосредственно формируют сообщения на языке получателя, либо используют опорное конвертирование на основе соответствующих стандартов [3, 4]. Для последнего случая обобщенная модель общения таджикскоязычных и персоязычных пользователей указанных сервисов представлена в графологической форме на рисунке.


Рис. Модель общения таджикскоязычных и персоязычных пользователей сервисов обмена сообщениями.

Среди существующих средств автоматизации конвертирования текстов с таджикского на персидский языки был выделен онлайн-конвертер культурного института Ирана «Пендар» [5] (далее ОК «Пендар»). Для целей дальнейшего исследования был разработан прототип автоматизированной системы таджикско-персидской конверсии систем письма (далее – Прототип АСК), обладающий минимальной функциональностью.

Математическая модель функционирования Прототипа АСК задаётся в терминах ранее выполненных исследований [1, 2] и представляется системой правил применения заданного в табличном виде параметрического преобразования Yi’=TRANS(xi, Pos(i, X)) каждого i-го символа xi словоформы X таджикского текста в цепочку Yi’, последовательная конкатенация которых образует словоформу Y персидского текста.

В качестве характеристик для сравнения двух указанных автоматизированных систем конверсии были выбраны:

  • доля корректно конвертированных слов - Δс;
  • доля корректно конвертированных словоформ - Δсф;
  • среднее количество ошибок в словоформе - ε.

Для расчета приведенных статистик на конкретном языковом материале была выбрана статья на таджикском языке [6] длиной 1353 слова, содержащей в числе 789 словоформ числительные, имена собственные, заимствования из других языков (арабского и русского). Для автоматизации расчетов был создан эталонный словарь персидских словоформ. При сравнении слов, полученных в результате конверсии, со словами из эталонного словаря делались следующие допущения:

=ﯼﺍ, ﺅ = ﻯﻭ, ﺉ = ﻯﯾ.

На этапе первичной подготовки данных был выявлен серьёзный недостаток системы ОК «Пендар», состоящий в неспособности данной системы распознавать и конвертировать следующие специфичные буквы таджикского алфавита: ҳ, ӣ, ҷ, қ, ў, ю. Для продолжения исследования, в исходном тексте, подаваемом на вход ОК «Пендар», была произведена замена указанных букв на близкие по звучанию, по следующему правилу:

«ҳ» «x», «ӣ» «и», «ҷ» «ч», «қ» «к», «ў» «у», «ю» «у».

Сравнительная характеристика ОК «Пендар» и Прототипа АСК по выбранным показателям приведена в таблице.

Табл.
Результаты испытаний ОК «Пендар» и Прототипа АСК.

Система
конверсии
Показатель
Δс, %
Δсф, %
ε
ОК «Пендар»
29,1
23,2
1,01
Прототип АСК
47,4
42,7
0,75

Таким образом, качество конверсии таджикского текста в персидский с помощью Прототипа АСК по показателю Δсф в 1,85 раза выше, чем посредством ОК «Пендар», однако в обоих случаях полученные показатели явно недостаточны для практического использования указанных систем. При этом для ОК «Пендар» требуется пред- и постредактирование конвертируемого текста, вследствие чего эффект от автоматизации процесса конверсии нивелируется значительными трудозатратами на этих этапах.
Поэтому разработку перспективной автоматизированной системы таджикско-персидской конверсии систем письма целесообразно производить на основе совершенствования модели функционирования Прототипа АСК.

ЛИТЕРАТУРА

  1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. Известия АН РТ, 2008, №1, с. 20-31.
  2. Гращенко Л.А. Доклады АН РТ, 2008, том 51, №5, с. 339-345.
  3. ГОСТ 7.79-2000 (ИСО 9-95) «Правила транслитерации кирилловского письма латинским алфавитом» - М.: Издательство стандартов, 2002. – 19 с.
  4. ISO 233:3-1999. «Транслитерация арабских письменных знаков латинскими». Часть 3. «Персидский язык. Упрощенная транслитерация».
  5. Интернет-ресурс: онлайн-конвертер культурного института «Пендар», http://www.pendar.net/convertor.asp.
  6. Интернет-ресурс: статья «Суханронии Президенти Ҷумҳурии Тоҷикистон Эмомалӣ Раҳмон дар мулоқот бо сокинони шаҳри Турсунзода дар варзишгоҳи марказӣ», www.khovar.tj.

Институт математики АН Республики Таджикистан.

Copyright: Усманов З.Д., Гращенко Л.А., Фомин А.Ю., 2008.

Все права защищены. При использовании данного материала ссылка на авторов и источник обязательна.

 
     
 
На главную страницу