На главную страницу
 
 
Оригинальная версия статьи опубликована в Известиях АН РТ - №1(150) - 2008 - С.20-26.
 
 

 

З.Д. УСМАНОВ, Л.А. ГРАЩЕНКО, А.Ю. ФОМИН

ИНФОРМАЦИОННЫЕ ОСНОВЫ АВТОМАТИЗИРОВАННОЙ ТАДЖИКСКО-ПЕРСИДСКОЙ ТРАНСЛИТЕРАЦИИ

В статье сформулирован комплекс исследований, выполнение которого будет способствовать созданию автоматизированной системы таджикско-персидской транслитерации. Дан краткий обзор исторических событий, предопределивших необходимость решения рассматриваемой проблемы.

Исторические события XIX – XX веков в Средней Азии и на Среднем Востоке привели к тому, что большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований - Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари – в Афганистане и таджикский - сначала на части территории бывшей Российской Империи, потом СССР, а ныне - суверенного Таджикистана и некоторых областей Узбекистана и Киргизии.
За прошедший исторический период персидский язык проявил относительную устойчивость к внешним воздействиям, в то время как дари подвергся влиянию английского языка, откуда было заимствовано много слов и терминов. Вместе с тем именно эти два языка сохранили одну из главных составляющих своей идентичности – письмо на основе арабской графики.
Сложно и многоэтапно происходило формирование современного таджикского языка. Первый этап определялся вхождением территории Средней Азии, в том числе и населенной таджиками, в состав Российской Империи. На том этапе таджикский народ продолжал говорить на языке полностью схожем с персидским и пользоваться письменностью на арабской графике. Вплоть до конца XIX века таджико-персидский язык был распространен в качестве языка официальной переписки, делопроизводства и судопроизводства в мусульманских княжествах.
Второй этап наступил в 1929 г., когда таджикский язык испытал первое потрясение от перехода к письменности на основе латиницы. Предпринятая реформа не принесла удовлетворительных результатов, однако дала толчок к дальнейшей дивергенции персидских языков.
В 1940 г. начался еще один переход на новую письменность, теперь уже на кириллической основе, в определенном смысле объективно обусловленный высокими темпами социалистического строительства, необходимостью расширения сети народного образования, развитием науки, литературы и искусства. Этот этап характеризовался приобщением таджиков к русской культуре, а через нее и к культуре советских народов и мировой цивилизации. Пробуждаясь от многовекового оцепенения, таджикский народ успешно вовлекался в эпоху научно-технического прогресса и одновременно все более и более отрывался от своего великого исторического наследия, попутно изолируясь и от своих персоязычных собратьев. Принципиальное различие письменностей на арабской графике и кириллице привело к тому, что для широких народных масс Ирана и Афганистана стали не доступны ни исторический опыт таджиков, ни их достижения в период пребывания в составе СССР. В свою очередь таджики, в основной массе, лишились возможности воспринимать информацию, содержащуюся в печатной продукции упомянутых стран.
По этим причинам представлялись вполне понятными попытки таджикской общественности возродить уникальность своего языка на пути его конвергенции к древнему иранскому языковому древу. Серьезной поддержкой таким начинаниям оказал Закон 1999 г. Верховного Совета Республики «О языке», в котором таджикскому языку присвоен государственный статус. Таким образом, четвертый этап эволюции таджикского языка, стартовавший с момента провозглашения независимости Таджикистана в 1991 г., нацеливается на сближение с языками братских народов Ирана и Афганистана, прежде всего посредством аккуратного реформирования используемой в настоящее время письменности. Памятуя о тяжелых последствиях исторических экспериментов, руководство республики с особой осторожностью проводит преобразования в этой области. Это, в частности, касается недавних уточнений состава кириллического алфавита, из которого выведены 4 буквы, произношение которых не свойственно таджикскому языку. Предпринимаются попытки замещения некоторых русских терминов собственными национальными или же заимствованными из персидского языка.
Неизбежное в исторической перспективе сближение персоязычных стран будет нуждаться в интенсификации документооборота, обеспечивающего экономическое, культурное и научное сотрудничество, нормативную базу, официальную переписку, научно-технический обмен. С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике может превратиться в серьезный сдерживающий фактор электронной коммуникации между гражданами этих стран, подогревающий популярность идей перехода Таджикистана на персидскую графику, а Ирана, возможно, - к алфавиту на основе латиницы.
В персоязычных странах прекрасно понимают, что революционные преобразования ныне принятой письменности связаны с глубокими экономическими и социальными потрясениями, поэтому отодвигают решение этой проблемы на будущее. Указанные факторы делают весьма актуальной задачу по разработке формализованной системы правил транслитерации письменных текстов с таджикского языка на персидский язык. Иными словами, необходимо сформулировать совокупность правил отображения множества графических символов таджикского алфавита во множество графических символов персидского алфавита для различных исходных условий.
Однако для разработки такой системы необходимо провести полномасштабные исследования на стыке филологии, компьютерной лингвистики и информационной науки. Для интенсификации таких исследований, возможно, потребуется разработать программные средства поддержки научных изысканий.
Системный анализ указанной предметной области позволил выявить ряд проблемных вопросов, разрешение которых необходимо для построения вначале автоматизированной, а в дальнейшем и автоматической системы таджикско-персидской транслитерации:

  • многозначность и неопределенность характера взаимных отображений графем таджикского и персидского языков, в том числе отображений монограмм и биграмм (к примеру, транслитерирование таджикской буквы «а» в персидские буквы «ا» или «ه» или вовсе её удаление («□»), см. табл. 1, в зависимости от ее положения в слове и других условий);
  • различие и даже размытость правил транслитерации для отдельных символов и их групп для имен собственных (фамильно-именных групп и географических названий) и прочих словоформ, а также для заимствований из арабского, русского и других языков;
  • автоматическое выделение и распознавание в текстовой информации имен собственных (если они стоят в начале предложения), а также разделение имен собственных на национальные и заимствованные;
  • корректное выделение границ словоформ в связи с различием в правилах правописания для указанной пары языков;
  • выявление особенностей отображения сокращений слов и аббревиатур с таджикского языка на персидский.

На рис. 1 в графологической форме представлена обобщенная схема комплекса исследований для решения проблемы межъязыковой транслитерации.

Рис. 1. Этапы решения задачи автоматизированной транслитерации.

В настоящее время решена задача установления взаимного соответствия между графическими символами алфавитов таджикского языка различных этапов (см. табл. 1). На ближайшую перспективу запланировано решение следующих задач:
1) установление взаимного соответствия между множествами n-грамм графических символов таджикского и персидского языков, выявление неоднозначных переходов и их классификация по способу разрешения неоднозначности (частное решение для монограмм слов, не являющихся именами собственными и заимстованиями, приведено в табл. 1);
2) нахождение отображений между множествами словоформ таджикского и персидского языков на основе реализации специальных алгоритмов, выявление пар тождественных в фонетическом смысле словоформ;
3) выявление слов-исключений из найденных правил и обоснование общих и частных методов транслитерации для групп словоформ;
4) разработка формата представления словарей на основе частотного анализа корпусов текстов, оптимизация их структуры.
В результате предварительных исследований получено отображение множеств графем между таджикским алфавитами 3 и 4 этапов и их отображение в множество графем и диграмм персидского языка. Как видно из табл. 1, большинство графем таджикского языка имеют более чем один вариант отображения в графемы и даже диграммы персидского языка, в зависимости от различных условий их положения в тексте.

Табл. 1
Отношение множеств графем таджикского и персидского языка, для слов, не являющихся именами собственными и заимствованиями из других языков

Тадж. алфавит
3 этапа
UNICODE#
Тадж. алфавит
4 этапа
Персидский
алфавит
UNICODE#
Количество
альтернатив
А
0410, 0430
А
ا, ه, ع, □
0627, 0647, 0639
4
Б
0411, 0431
Б
ب, □
0628
2
В
0412, 0432
В
و, □
0648
2
Г
0413, 0433
Г
گ, □
06AF
2
Ғ
0492, 0493
Ғ
غ, □
063A
2
Д
0414, 0434
Д
د, □
062F
2
Е
0415, 0435
Е
ی, ع, □
06CC, 0639
3
Ё
0401, 0451
Ё
ای, ی
2
Ж
0416, 0436
Ж
ژ, □
0698
2
З
0417, 0437
З
ذ, ز, ض, ظ, □
0630, 0632, 0638, 0636
5
И
0418, 0438
И
ا, ی, □
0627, 06CC
3
Й
0419, 0439
Й
ی
06CC
1
Ӣ
04E2, 04E3
Ӣ
ی
06CC
1
К
041A, 043A
К
ک, □
06A9
2
Қ
049A, 049B
Қ
ق, □
0642
2
Л
041B, 043B
Л
ل, □
0644
2
М
041C, 043C
М
م, □
0645
2
Н
041D, 043D
Н
ن, □
0646
2
О
041E, 043E
О
آ,ا
0627, 0622
2
П
041F, 043F
П
پ, □
067E
2
Р
0420, 0440
Р
ر, □
0631
2
С
0421, 0441
С
ث, س, ص, □
062B, 0633, 0635
4
Т
0422, 0442
Т
ت, ط, □
062A, 0637
3
У
0423, 0443
У
و, وا, ع, □
0648, 0639
4
Ӯ
04EE, 04EF
Ӯ
و, □
0648
2
Ф
0424, 0444
Ф
ف, □
0641
2
Х
0425, 0445
Х
خ, □
062E
2
Ҳ
04B2, 04B3
Ҳ
ه, ح, □
0647, 062D
3
Ц
0426, 0446
С, ТС
ث, س, ص,ست
062B, 0633, 0635
4
Ч
0427, 0447
Ч
چ, □
0686
2
Ҷ
04B6, 04B7
Ҷ
ج, □
062C
2
Ш
0428, 0448
Ш
ش, □
0634
2
Щ
0429, 0449
Ш
ش, □
0634
2
Ъ
042A, 044A
Ъ
ع
0639
1
Ы
042B, 044B
И
1
Ь
042C, 044C
1
Э
042D, 044D
Э
ا, ه
0627, 0647
2
Ю
042E, 044E
Ю
وی, و
0648
2
Я
042F, 044F
Я
ی, ای
06CC
2

Разрабатываемая автоматизированная система транслитерации – проблемно-ориентированная система. Её специфика заключается в необходимости своевременной модернизации и адаптации под новые требования пользователей (изменений языка), возникающие во время текущей эксплуатации системы. Исходя из данного требования, целесообразно применить спиральную модель жизненного цикла автоматизированной системы. При этом будет основательно сглажена основная проблема спирального цикла – определение момента перехода на следующий виток спирали. Эта проблема решается за счет планирования исследований, при этом каждому отдельному этапу исследования будет сопоставлена отдельная версия разрабатываемой системы.
На данном этапе проработки концепции автоматизированной системы транслитерации она должна обладать следующим комплексом признаков:

  • гибкостью, то есть возможностью поддержки и быстрой настройки различных режимов обработки (например, параметров обработки служебных символов);
  • точностью, то есть полному соответствию сформулированной системе правил, а также возможностью реализации методов, дающих наибольшую вероятность правильной транслитерации;
  • скоростью выполнения заданий на основе реализации наиболее оптимальных по времени методов обработки текстовых массивов;
  • адаптивностью, то есть возможностью реализация элементов самообучения в процессе текущей эксплуатации (для имен собственных, например);
  • поддержкой пользователя, то есть реализацией системы сигнализации, и диалогового режима в случае затруднений при решении отдельных задач.

В проектируемой автоматизированной системе транслитерации в настоящее время представляется достаточным ограничиться применением 4 рабочих гипотез:

  • текстовая информация, подлежащая транслитерации, является текстом на литературном таджикском языке;
  • входной текст не содержит ошибок;
  • встречающиеся во входном тексте словоформы, записанные символами других языков, передаются в выходной текст без изменений;
  • для собственных имен таджикского и русского языков разрабатывается система правил транслитерации, а для прочих языков применяются обобщенные правила транслитерации.

В дальнейшем необходимо решать задачу разработки системы автоматизированной транслитерации с таджикского на персидский язык в соответствии с приведенными этапами и системами граничных условий и требований.

Институт математики АН Республики Таджикистан.

Copyright: Усманов З.Д., Гращенко Л.А., Фомин А.Ю., 2008.

Все права защищены. При использовании данного материала ссылка на авторов и источник обязательна.

 
     
 
На главную страницу