Таджикско-Персидский
конвертер графических систем письма |
||||||||||||||||||||||||||||||||||
Доброго времени суток, уважаемые посетители! Вы находитесь на страничке разработчиков проекта таджикско-персидской конверсии графических систем письма. Здесь приведены основные сведения о предпосылках, целях и задачах разработки подобных систем, а также наши текущие достижения и публикации. С вопросами, а также с пожеланиями и предложениями Вы можете писать нам по электронной почте, или оставлять сообщения в гостевой книге. В целях совершенстования и всестороннего испытания продукта предлагаем всем желающим присылать по указанному адресу электронной почты тексты на таджикском языке для конверсии в формате RTF (объемом до 10 тыс. знаков), а также принять участие в обсуждении вопросов конверсии на Лингвофоруме. |
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
|
Исторические предпосылки: | |||||||||||||||||||||||||||||||||
Исторические
события XIX – XX веков в Средней Азии и на Среднем Востоке привели к тому,
что большая группа персоязычных народностей оказалась разделенной рамками
новых государственных образований - Ирана, Афганистана и Таджикистана.
В лингвистическом плане единый персидский язык так же оказался разделенным
на три языка - персидский (фарси) в пределах Ирана, дари – в Афганистане
и таджикский - сначала на части территории бывшей Российской Империи,
потом СССР, а ныне - суверенного Таджикистана и некоторых областей Узбекистана
и Киргизии. За прошедший исторический период персидский язык проявил относительную устойчивость к внешним воздействиям, в то время как дари подвергся влиянию английского языка, откуда было заимствовано много слов и терминов. Вместе с тем именно эти два языка сохранили одну из главных составляющих своей идентичности – письмо на основе арабской графики. Сложно и многоэтапно происходило формирование современного таджикского языка. Первый этап определялся вхождением территории Средней Азии, в том числе и населенной таджиками, в состав Российской Империи. На том этапе таджикский народ продолжал говорить на языке полностью схожем с персидским и пользоваться письменностью на арабской графике. Вплоть до конца XIX века таджико-персидский язык был распространен в качестве языка официальной переписки, делопроизводства и судопроизводства в мусульманских княжествах. Второй этап наступил в 1929 году, когда таджикский язык испытал первое потрясение от перехода к письменности на основе латиницы. Предпринятая реформа не принесла удовлетворительных результатов, однако дала толчок к дальнейшей дивергенции персидских языков. В 1940 году начался еще один переход на новую письменность, теперь уже на кириллической основе, в определенном смысле объективно обусловленный высокими темпами социалистического строительства, необходимостью расширения сети народного образования, развитием науки, литературы и искусства. Этот этап характеризовался приобщением таджиков к русской культуре, а через нее и к культуре советских народов и мировой цивилизации. Пробуждаясь от многовекового оцепенения, таджикский народ успешно вовлекался в эпоху научно-технического прогресса и одновременно все более и более отрывался от своего великого исторического наследия, попутно изолируясь и от своих персоязычных собратьев. Принципиальное различие письменностей на арабской графике и кириллице привело к тому, что для широких народных масс Ирана и Афганистана стали не доступны ни исторический опыт таджиков, ни их достижения в период пребывания в составе СССР. В свою очередь таджики, в основной массе, лишились возможности воспринимать информация, содержащуюся в печатной продукции упомянутых стран. По этим причинам представлялись вполне понятными попытки таджикской общественности возродить уникальность своего языка на пути его конвергенции к древнему иранскому языковому древу. Серьезной поддержкой таким начинаниям оказал Закон 1999 г. Верховного совета Республики «О языке», в котором присвоен государственный статус таджикскому языку. Таким образом, четвертый этап эволюции таджикского языка, стартовавший с момента провозглашения независимости Таджикистана в 1991-м году, нацеливается на сближение с языками братских народов Ирана и Афганистана, прежде всего посредством аккуратного реформирования используемой в настоящее время письменности. Памятуя о тяжелых последствиях исторических экспериментов, руководство Республики с особой осторожностью проводит преобразования в этой области. Это, в частности, касается недавних уточнений состава кириллического алфавита, из которого выведены 4 буквы, произношение которых не свойственно таджикскому языку. Предпринимаются попытки замещения некоторых русских терминов собственными национальными или же заимствованными из персидского языка. Неизбежное в исторической перспективе сближение персоязычных стран будет нуждаться в интенсификации документооборота, обеспечивающего экономическое, культурное и научное сотрудничество, нормативную базу, официальную переписку, научно-технический обмен. С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике может превратиться в серьезный сдерживающий фактор электронной коммуникации между гражданами этих стран, подогревающий популярность идей перехода Таджикистана на персидскую графику, а Ирана, возможно, - к алфавиту на основе латиницы. |
||||||||||||||||||||||||||||||||||
|
Цели и задачи проекта: | |||||||||||||||||||||||||||||||||
Цель работы: повышение уровня таджикско-персидского межкультурного взаимодействия за счет внедрения эффективных средств конверсии текстов, а также создание предпосылок для разработки систем персо-таджикско-русских систем машинного перевода. Научная задача: разработка математического и алгоритмического базиса для создания перспективных автоматизированных систем конверсии текстов с таджикского на персидский язык. |
||||||||||||||||||||||||||||||||||
|
Текущие достижения: | |||||||||||||||||||||||||||||||||
К настоящему времени разработан Прототип автоматизированной системы таджикско-персидской конверсии графических систем письма, реализующий 95% точность конвертировании текстов. Основные функции, реализованные в системе:
Ниже приведен screenshot разработанной системы: На screenshot-е показано, что программа выделяет в тексте распознанные слова арабского происхождения (зеленым), европейского (бурым) и неуверенно сконвертированные слова (подчеркнуты красным). Созданный программный комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан в качестве интеллектуального продукта № 091TJ от 16.03.2009 года. В целях верификации и доработки продукта, предлагаем всем желающим присылать на наш почтовый ящик тексты на таджикском языке объемом до 10 тысяч печатных знаков, не содержащих таблицы и рисунки. Конверсия Ваших файлов будет произведена бесплатно, в ответ ждем от Вас отчет о выявленных ошибках. |
||||||||||||||||||||||||||||||||||
Публикации по теме: | ||||||||||||||||||||||||||||||||||
1. Усманов З.Д., Гращенко
Л.А., Фомин А.Ю. Информационные основы автоматизированной таджикско-персидской
транслитерации // Известия АН РТ - №1(130) – 2008 г. – С. 20-26. Наш проект в СМИ:
|
||||||||||||||||||||||||||||||||||
Наши пользователи: | ||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||
Старт проекта: 06.11.2008 г. Последнее обновление: 17.04.2013 г. |
||||||||||||||||||||||||||||||||||