Таджикско-Персидский конвертер графических систем письма
 
   
ТаджикскийEnglishFarsi
 
       
 
Электронные редкие книги

Доброго времени суток, уважаемые посетители!

Вы находитесь на страничке разработчиков проекта таджикско-персидской конверсии графических систем письма. Здесь приведены основные сведения о предпосылках, целях и задачах разработки подобных систем, а также наши текущие достижения и публикации.

С вопросами, а также с пожеланиями и предложениями Вы можете писать нам по электронной почте, или оставлять сообщения в гостевой книге.

В целях совершенстования и всестороннего испытания продукта предлагаем всем желающим присылать по указанному адресу электронной почты тексты на таджикском языке для конверсии в формате RTF (объемом до 10 тыс. знаков), а также принять участие в обсуждении вопросов конверсии на Лингвофоруме.

 
       

Команда разработчиков:

Наверх
 
  Научное руководство (математические науки):   Научное руководство (филологические науки):

Усманов Зафар Джураевич

 

Академик АН РТ, доктор физико-математических наук, профессор

Усманов Зафар Джураевич

CV
 

Доктор филологических наук, профессор

Искандарова Дилоро Мукаддасовна

CV
Математическое и алгоритмическое обеспечение:   Лингвистическое и информационное обеспечение:

Гращенко Леонид Александрович

 
Фомин Алексей Юрьевич

соискатель Института математики АН РТ,

Гращенко Леонид Александрович

CV
 

соискатель Института математики АН РТ,

Фомин Алексей Юрьевич

CV
 
Исторические предпосылки: Наверх
 
Исторические события XIX – XX веков в Средней Азии и на Среднем Востоке привели к тому, что большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований - Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари – в Афганистане и таджикский - сначала на части территории бывшей Российской Империи, потом СССР, а ныне - суверенного Таджикистана и некоторых областей Узбекистана и Киргизии.
За прошедший исторический период персидский язык проявил относительную устойчивость к внешним воздействиям, в то время как дари подвергся влиянию английского языка, откуда было заимствовано много слов и терминов. Вместе с тем именно эти два языка сохранили одну из главных составляющих своей идентичности – письмо на основе арабской графики.
Сложно и многоэтапно происходило формирование современного таджикского языка. Первый этап определялся вхождением территории Средней Азии, в том числе и населенной таджиками, в состав Российской Империи. На том этапе таджикский народ продолжал говорить на языке полностью схожем с персидским и пользоваться письменностью на арабской графике. Вплоть до конца XIX века таджико-персидский язык был распространен в качестве языка официальной переписки, делопроизводства и судопроизводства в мусульманских княжествах.
Второй этап наступил в 1929 году, когда таджикский язык испытал первое потрясение от перехода к письменности на основе латиницы. Предпринятая реформа не принесла удовлетворительных результатов, однако дала толчок к дальнейшей дивергенции персидских языков.
В 1940 году начался еще один переход на новую письменность, теперь уже на кириллической основе, в определенном смысле объективно обусловленный высокими темпами социалистического строительства, необходимостью расширения сети народного образования, развитием науки, литературы и искусства. Этот этап характеризовался приобщением таджиков к русской культуре, а через нее и к культуре советских народов и мировой цивилизации. Пробуждаясь от многовекового оцепенения, таджикский народ успешно вовлекался в эпоху научно-технического прогресса и одновременно все более и более отрывался от своего великого исторического наследия, попутно изолируясь и от своих персоязычных собратьев. Принципиальное различие письменностей на арабской графике и кириллице привело к тому, что для широких народных масс Ирана и Афганистана стали не доступны ни исторический опыт таджиков, ни их достижения в период пребывания в составе СССР. В свою очередь таджики, в основной массе, лишились возможности воспринимать информация, содержащуюся в печатной продукции упомянутых стран.
По этим причинам представлялись вполне понятными попытки таджикской общественности возродить уникальность своего языка на пути его конвергенции к древнему иранскому языковому древу. Серьезной поддержкой таким начинаниям оказал Закон 1999 г. Верховного совета Республики «О языке», в котором присвоен государственный статус таджикскому языку. Таким образом, четвертый этап эволюции таджикского языка, стартовавший с момента провозглашения независимости Таджикистана в 1991-м году, нацеливается на сближение с языками братских народов Ирана и Афганистана, прежде всего посредством аккуратного реформирования используемой в настоящее время письменности. Памятуя о тяжелых последствиях исторических экспериментов, руководство Республики с особой осторожностью проводит преобразования в этой области. Это, в частности, касается недавних уточнений состава кириллического алфавита, из которого выведены 4 буквы, произношение которых не свойственно таджикскому языку. Предпринимаются попытки замещения некоторых русских терминов собственными национальными или же заимствованными из персидского языка.
Неизбежное в исторической перспективе сближение персоязычных стран будет нуждаться в интенсификации документооборота, обеспечивающего экономическое, культурное и научное сотрудничество, нормативную базу, официальную переписку, научно-технический обмен. С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике может превратиться в серьезный сдерживающий фактор электронной коммуникации между гражданами этих стран, подогревающий популярность идей перехода Таджикистана на персидскую графику, а Ирана, возможно, - к алфавиту на основе латиницы.
 

Цели и задачи проекта: Наверх
 

Цель работы: повышение уровня таджикско-персидского межкультурного взаимодействия за счет внедрения эффективных средств конверсии текстов, а также создание предпосылок для разработки систем персо-таджикско-русских систем машинного перевода.

Научная задача: разработка математического и алгоритмического базиса для создания перспективных автоматизированных систем конверсии текстов с таджикского на персидский язык.

 

Текущие достижения: Наверх
 

К настоящему времени разработан Прототип автоматизированной системы таджикско-персидской конверсии графических систем письма, реализующий 95% точность конвертировании текстов.

Основные функции, реализованные в системе:

  • предварительная коррекция входного текста для согласования с результирующим языком - фарси или дари;
  • автоматическое распознавание имен собственных и аббревиатур;
  • опциональная расшифровка аббревиатур;
  • индикация неуверенно сконвертированных слов;
  • опциональная конверсия цифр и служебных символов;
  • опциональное отображение диакритических символов;
  • анализ и отдельная конверсия заимствований из арабского и европейских языков.

Ниже приведен screenshot разработанной системы:

На screenshot-е показано, что программа выделяет в тексте распознанные слова арабского происхождения (зеленым), европейского (бурым) и неуверенно сконвертированные слова (подчеркнуты красным).

Созданный программный комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан в качестве интеллектуального продукта № 091TJ от 16.03.2009 года.

Свидетельство о регистрации интеллектуального продукта

В целях верификации и доработки продукта, предлагаем всем желающим присылать на наш почтовый ящик тексты на таджикском языке объемом до 10 тысяч печатных знаков, не содержащих таблицы и рисунки. Конверсия Ваших файлов будет произведена бесплатно, в ответ ждем от Вас отчет о выявленных ошибках.

 
  Публикации по теме: Наверх
 

1. Усманов З.Д., Гращенко Л.А., Фомин А.Ю. Информационные основы автоматизированной таджикско-персидской транслитерации // Известия АН РТ - №1(130) – 2008 г. – С. 20-26.
2. Гращенко Л.А. Алгоритм формирования словаря соответствий таджикских и персидских словоформ // Доклады АН РТ – том 51, №5 – 2008 г. – С. 339-345.
3. Гращенко Л.А., Фомин А.Ю. Опыт реализации средств таджикско-персидской конверсии графических систем письма // Доклады АН РТ – том 51, №8 – 2008 г. – С. 580-583.
4. Фомин А.Ю. Система признаков автоматизированного распознавания арабских заимствований в таджикских текстах// Доклады АН РТ - том 52, №1- 2009 г.
5. Гращенко Л.А. Концептуальная модель таджикско-персидской конверсии графических систем письма // Доклады АН РТ – том 52, №2 – 2009 г. – С. 111-115.
6. Фомин А.Ю. Система признаков автоматизированного распознавания русско-интернациональных заимствований в таджикском языке.

Наш проект в СМИ:

  1. 25 ноября, статья в НИАТ "Ховар".
  2. 11 декабря 2008 - статья в газете "Дайджест"
  3. 12 декабря, статья в ИА "Азия-плюс."
  4. 15 декабря - репортаж МТРК "МИР". Ролик можно скачать тут (3.22 MB)
 
  Наши пользователи: Наверх
 
АКН РТ
Агентство по контролю за наркотиками при Президенте Республики Таджикистан
 

Центр переводов "БАЁН"

(г. Душанбе)

 
 

Старт проекта: 06.11.2008 г.

Последнее обновление: 17.04.2013 г.

 
 
 
 
Rambler's Top100 Locations of visitors to this page