Текст на татарском: читаем на татарском — Азатлык Радиосы

Текст на татарском: читаем на татарском — Азатлык Радиосы

Содержание

«Аккошлар мәхәббәте» җыры («Любовь лебедей»)

Вы знаете, как много татарских песен про любовь лебедей? Сегодня разберём одну из таких – «Аккошлар мәхәббәте» в исполнении Ришата Тухватуллина. Перевод песни, основная лексика, разбор и интересные каверы!

Песня вышла в 2015 году и сразу стала популярной. В исполнении Ришата Тухватуллина эта песня звучит очень нежно, задевает самые тонкие струны души. У исполнителя очень мягкий, теплый, нежный голос. Проще будет вам ее послушать, потому что одними словами не объяснить всю красоту этой песни:

Текст песни и перевод

Үпкән, кочкан, жилгә очкан,
Яраткан берәү була.
Яратышып кавышканнар,
Пар аккоштай матур итеп
Яшәп гомерләр уза.

Кушымта:
Аккошлар парлап таяна
Суның дулкыннарына.
Шул кошлардай пар була алсаң,
Мәңге тугры яр була алсаң,
Чык минем юлларыма.

Су өсләре каурый-каурый
Пар аккош йөзгән эздә.
Язмыш аккошлар бәхетен,
Шул кошларның мәхәббәтен
Юрасын иде безгә,
Юрасын икебезгә.

Безне кавыштырасың,
Язмышлар ялгышмасын.
Бер аккошка бер аккош, дип
Ходай теләгәне булсаң,
Юллар аймылышмасын.

Аккошлар йөзә суларда
Башларын башка салып.
Илтәсе иде гомерне
Картлыкка яшьлектә биргән
Вәгъдәләрендә калып.

С кем бы в прошлом ни встречался,
Но любовь — она одна.
Если сходятся по любви,
То живут красиво, словно

Пара белых лебедей.

Припев:
Лебеди плывут по волнам
Опираясь на любовь.
Если сможешь быть как лебедь,
И любви сможешь быть верной —
Повстречайся мне в пути.

Гладь воды полна перьев
Там, где лебединый путь.
Пусть судьба нам даст то счастье,
Ту любовь пары лебедей
Пусть нам даст судьба любовь,
Нам двоим дала б любовь.

Нас судьба соединяет,
Пусть она не ошибется.
Если будешь Богом данной,
Что дана лишь для меня –
Пусть пути не разойдутся.

По воде плывут лебеди
Склонив головы друг к другу.

Провести бы жизнь до старости
Оставаясь верным обещаниям,
Что давали в молодости.

Главные слова и фразы
  • үпкән – поцеловал;
  • кочкан – обнял;
  • пар аккоштай – как пара лебедей;
  • матур итеп – красиво;
  • уза = үтә – проходит;
  • дулкын – волна;
  • кошлар – птицы;
  • каурый – перо;
  • язмыш – судьба;
  • бәхет – счастье;
  • мәхәббәт – любовь;
  • кавыштыра – соединяет, сводит;
  • соң
    – поздно;
  • ялгышмасын – пусть не ошибётся;
  • биргән вәгъдә – данное обещание;

БУ ТЕМАГА:

Музыкальный татарский: «Юри генә» җыры («В шутку»)

О песне

Как уже упоминалось выше, эта песня о любви. Она очень известна у татар. Сама по себе композиция сложная для исполнения. В песне немало технически сложных моментов, но Ришат Тухватуллин – талантливый певец. В конце он держит высокую ноту долго на одном дыхании, на крепкой опоре, поэтому звук получается сильным, объемным, плотным (это немножко теории по вокалу).

В песне нет обращения к определенному человеку. Это скорее обращение к будущему спутнику жизни. Но, с другой стороны, возможно какой-то человек и есть. В таком случае в песне есть просьба, чтобы человек, к которому имеются чувства, наконец, ответил тем же.

Об исполнителе Ришат Төхвәтуллин

Ришат Төхвәтуллин (Ришат Тухватуллин) – известный татарский и башкирский певец, обладатель неподражаемого тембра голоса. По причине того, что в его репертуаре есть и народные песни, классические татарские и башкирские произведения, и современные композиции, написанные для него, самого певца и его песни любят представители всех поколений.

Певец родился в селе Карамалы-Губеево Туймазинского района Республики Башкортостан. Окончил Октябрьское музыкальное училище и Уфимский государственный институт искусств имени Загира Исмагилова.

На сегодняшний день он гастролирует со своей группой по разным городам. Он является одним из тех артистов, которые прививают любовь к татарским и башкирским народным песням, традициям, культуре.

Об авторе слов и музыки

Автором слов и музыки является Зифа Нагаева. Она заслуженный работник культуры Республики Башкортостан, певица, поэтесса, композитор, автор музыки и слов более 300 песен. Ее песни широко известны и любимы народом. Родилась в деревне Старый Итикей Аургазинского района Башкортостана. Работает на радио «Башкортостан».

Изданы книги «Зифа Нагаева җырлары», «Гомерем балкышында». К изданию готовится третья книга «Язмышым — җырларымда», в которую включены сто новых песен.

Каверы

Несколько красивых каверов на эту песню:

*****

Как вам наша рубрика «Музыкальный татарский»? Предложить песни для разборов вы можете, написав нам в соцсетях, или же по адресу: eydetat@gmail.

com

Заходите на наш сайт, каждый день вы найдёте там что-то новое и интересное! Также подписывайтесь на наши соцсети: мы есть в Вконтакте, Telegram-е, Facebook-е и Instagram-е. ​

Проект «Әйдә! Online. Изучаем татарский» предлагает качественные и современные курсы и материалы для изучения татарского языка. Онлайн-курсы разговорного татарского, адаптированные литературные тексты, новости с подстрочным переводом, видео- и аудио-материалы, тесты и многое другое!

Скоро – больше! Оставайтесь с нашим проектом, сау булыгыз!​

БУ ТЕМАГА:
Музыкальный татарский: «Серле күзләр» җыры (песня «Загадочные глаза»)

«Теперь любой сможет читать на современном татарском шрифте старые тексты»

Азат Ахунов о том, где можно прочесть журнал «Шура», что говорят надгробные камни и как диджитализация позволяет сохранить наше наследие

«Главная задача — дать возможность всем желающим ознакомиться с этим бесценным культурным достоянием», — указывает известный казанский востоковед Азат Ахунов, рассказывая о проектах Института языка, литературы и искусства им. Ибрагимова АН РТ, направленные на сохранение богатого татарского письменного наследия. Что уже сделано, а над чем еще предстоит работать — об этом в материале постоянного автора «БИЗНЕС Online».

В период 1900–1916 годов только в Казани было издано 5 154 наименования татарских книг общим тиражом около 40 млн экземпляров

В СЛУЧАЕ СО СТАРОТАТАРСКИМ ЯЗЫКОМ НЕВОЗМОЖНО СОЗДАТЬ ЕДИНЫЙ И ЧЕТКИЙ АЛГОРИТМ

Татарский народ обладает богатым письменным наследием. Не перечесть тех рукописных книг, которые вышли из-под пера татарских ученых и писателей. Большинство из них не дошло до наших дней, сгорело в пожарах, истлело от сырости в условиях нашего климата. Но по печатным изданиям уже можно назвать конкретные цифры. Например, в период 1900–1916 годов только в Казани было издано 5 154 наименования татарских книг общим тиражом около 40 млн экземпляров.

В это же время в различных городах Российской империи выходило почти 100 наименований татарских газет и журналов. К сожалению, двойная смена алфавита отрезала нас от всего этого культурного богатства.

В Институте языка, литературы и искусства им. Ибрагимова АН РТ, ведущим научным сотрудником которого я являюсь, началась апробация компьютерной программы, которая поможет ввести в оборот хотя бы часть этого наследия. Ее рабочее название Miras-Tat, она умеет переводить старотатарские печатные источники сначала в арабицу, а потом в кириллицу. Говоря иначе, теперь любой желающий сможет читать на современном татарском шрифте старые, дореволюционные тексты. Если объяснить «на пальцах», то программа работает примерно так. В окно браузера загружается изображение страницы, например из журнала «Шура». Далее нажатием кнопки этот текст сканируется и автоматически переводится в печатный вид на арабице. Следующее действие транслитерирует полученный арабский текст на современную татарскую кириллицу.

Если объяснить «на пальцах», то программа работает примерно так. В окно браузера загружается изображение страницы, например из журнала «Шура». Далее нажатием кнопки этот текст сканируется и автоматически переводится в печатный вид на арабице

Просто? На первый взгляд, да.  Скептики сразу скажут, что в мире, дескать, уже есть подобные программы, что тот же Fine Reader прекрасно читает арабские тексты. Но это только так кажется. Особенность и сложность старотатарских текстов заключается в том, что вплоть до появления латиницы не существовало единого варианта передачи арабицей татарских звуков. Сам по себе арабский алфавит состоит исключительно из согласных звуков, часть из которых выполняет роль гласных. Например, характерный татарский звук «ә» в арабице передается как минимум тремя не похожими друг на друга графемами. Слово, оканчивающиеся на «ң» также может иметь на арабице несколько форм написания.

Говоря иначе, в случае со старотатарским языком невозможно создать единый и четкий алгоритм.

Мозг новой программы состоит из тысяч секторов, в ячейки которых ученые вручную вбивали самые различные вариации прочтения тех или иных звуков, варианты аффиксов и окончаний. На все про все ушло два года работы, и на данном этапе Miras-Tat может распознавать и переводить на кириллицу старотатарские тексты с точностью до 70%. Это неплохой результат, но не идеальный. Программа самообучаема — по мере пополнения ее баз она становится совершеннее день ото дня. Это совместный проект программистов института, языковедов и специалистов по древним текстам. Первостепенная задача — довести точность распознавания на современной татарской кириллице до 100%. В перспективе эту программу можно расширить и доработать и в отношении других тюркских языков. 

Тот, кто не владел арабским письмом, теперь сможет напрямую обращаться к источникам

ЧТО КАСАЕТСЯ ДОРЕВОЛЮЦИОННЫХ ПЕЧАТНЫХ КНИГ, ТО ОНИ ТАКЖЕ ЛЕГКОДОСТУПНЫ ВСЕМ ЖЕЛАЮЩИМ

Что это дает нам в конечном результате? В первую очередь программа облегчает жизнь ученых-текстологов, литературоведов, историков. Тот, кто не владел арабским письмом, теперь сможет напрямую обращаться к источникам. Да и те, кто может читать на старотатарском, получит возможность работать эффективнее, быстрее. Впрочем, это касается не только ученых, но всех желающих. Большие перспективы открываются и в плане переиздания дореволюционных трудов татарских писателей и ученых, материалов периодической печати.

Вся эта работа ведется на базе центра письменного и музыкального наследия ИЯЛИ. Неофициально он называется «Мирасханэ», что в переводе с татарского обозначает «Дом наследия». Здесь находится около 50 тыс. единиц архивных материалов, так или иначе связанных с татарской культурой, с прошлым Татарстана, персональные фонды выдающихся деятелей татарстанской науки и культуры. Кроме того, здесь хранится более 8 тыс. рукописей, свыше 2 тыс. единиц старопечатных книг на арабской графике, шеджере-генеалогии, старые театральные афиши и много другого.

Ценной частью коллекции являются редкие рукописные источники, датируемые XIII–XIX веками. Среди них «Сахих аль-Бухари», рукопись «Нахдж ал-фарадис» Махмуда Булгари, рукописи Шигабутдина Марджани, подлинники рукописей, документов и фотографий классиков татарской литературы Габдуллы Тукая, Фатиха Амирхана, Галимджана Ибрагимова и т. д.

Программа по распознаванию старотатарского текста — это только один из проектов, которым занимается «Мирасханэ». Немало делается в плане оцифровки дореволюционных татарских газет и журналов. Уже сейчас можно не только свободно читать, но и бесплатно скачать в высоком качестве такие крупные и важные татарские издания начала ХХ века, как журнал «Шура», «Аң», газеты «Вакыт», «Йолдыз» и многие другие.

Ценной частью коллекции являются редкие рукописные источники, датируемые XIII–XIX веками

Некоторые старые периодические издания можно уже сейчас прочитать в кириллице, например журнал «Аң» («Сознание»). Для этого надо пройти по ссылке и переключиться с кнопки «Оригинал» на кнопку «Перевод». Когда программа Miras-Tat будет окончательно готова, все это будет происходить автоматически. Но пока транслитерированные тексты на кириллицу подгружаются вручную. Вообще, сама работа по переводу с арабицы на современный татарский шрифт очень тяжела и кропотлива. Она требует знания не только татарского, но и арабского, староосманского и персидского языков. Если взять, к примеру, тот же журнал «Шура» («Совет»), то мы увидим, что почти наполовину он состоит из арабо-персидских заимствований. Ничего не поделаешь, такова была книжная традиция начала ХХ века. Для наших предков чтение прессы не представляло труда, для современного же читателя все это дремучий лес.

Тем не менее журнал «Шура», который издавался в 1908–1918 годы, — это кладезь знаний, богатейший источник информации о культурной, религиозной и повседневной жизни татар в начале ХХ века. Условно его можно сравнить с русской «Нивой», но намного серьезнее по своему содержанию, гораздо основательнее.  На данный момент сотрудниками «Мирасханэ» на кириллицу переведены три годовые подшивки «Шура» (около 100 номеров). В ближайших планах издание этих текстов с комментариями отдельными томами на бумаге. К слову сказать, аналогичная работа ведется и по журналу «Аң» («Сознание»), газете «Йолдыз» («Звезда»).

Что касается дореволюционных печатных книг, то они также легкодоступны всем желающим. Любой может зайти и бесплатно скачать на сайте Miras.info татарские книги и рукописи конца XIX – начала ХХ века. Пока в свободный доступ выложено свыше 150 старопечатных и рукописных книг, но база постоянно пополняется. Вся эта работа также ведется силами небольшого коллектива центра, поэтому рассчитывать на большие объемы не стоит, хотя материала очень и очень много.

Во всем мире каталогизирование и оцифровка книг и рукописей воспринимается как возможность их сохранения для будущих поколений. У нас долгое время существовал тенденциозный подход к источникам на арабской графике. Многие из них дошли до нас в плачевном состоянии. Диджитализация — это один из инструментов сохранения наследия. Но задача «Мирасханэ» заключается не только в консервации, в том числе и электронной, а в предоставлении возможности всем желающим свободно и бесплатно знакомиться с богатым письменным татарским наследием. Понятно, что вся эта работа требует больших финансовых вливаний. Сотрудники центра получают отдельную помощь благодаря различным госпрограммам и грантам, но в основном вся работа ведется за счет текущего, очень скромного финансирования и здорового фанатизма.

В хранилище центра находится самая большая коллекция образцов татарского фольклора. Есть фонограф Эдисона, предназначенный для их воспроизведений, но, к сожалению, он требует ремонта

ЭТО ОГРОМНОЕ БОГАТСТВО, КОТОРОЕ НЕ ДОЛЖНО ЛЕЖАТЬ МЕРТВЫМ ГРУЗОМ

Еще один большой проект, о котором надо сказать отдельно — это работа с татарскими эпиграфическими памятниками. Говоря иначе, это создание базы данных старинных татарских надмогильных камней, разбросанных по территории всей России и сопредельных стран. Только в Татарстане на сегодняшний день насчитывается 2 987 кладбищ, из них более 500 — исторических, на которых встречаются могилы не только XVIII–XIX, но даже XIII–XIV веков. В год сотрудники «Мирасханэ» совершают минимум по две экспедиции — одна по Татарстану, вторая по России — в места компактного проживания татарского населения. Также были проведены работы в Казахстане и Узбекистане. На место выезжает группа в составе 2-3 человек. На месте «прочесываются» подряд почти все кладбища, за исключением новых. Наиболее интересные по внешнему виду и содержанию камни и эпитафии фотографируются с большим разрешением со всех сторон, фиксируются координаты GPS, если надпись плохо читается, делается прорисовка. Позже, все эти данные будут внесены в электронную базу.

Для чего это нужно? Надписи на камнях практически не используются как источник, а информации они несут немало. Если взять эпитафии булгарского периода или времени Казанского ханства, то мы можем узнать много нового не только про конкретного усопшего, но и про исторические события, например о времени возникновения отдельных населенных пунктов. На камнях можно прочесть отрывки из древних поэм и повествований, которые не дошли до наших дней. Встречается немало назиданий, обращенных потомкам, завещаний отдельных людей. Кроме того, изучение эпитафий дает ученым возможность представить повседневную жизнь татар того времени, узнать среднюю продолжительность жизни, причины смерти того или иного человека, найти информацию о болезнях и эпидемиях в те давние времена. Говоря одним словом, это важный, достаточно информативный и достоверный источник, который раньше практически не использовался в научных исследованиях.

Впрочем, экспедиция — это сложная, но не самая трудоемкая часть работы. После возвращения все материалы обрабатываются и вносятся в общую базу данных. Если текст эпитафии на арабском, то он переводится на татарский и русский языки, дается его транскрипция, комментарии. Само изображение можно открыть и посмотреть в высоком разрешении, в том числе и в негативном отображении. Есть рубрикатор по населенным пунктам, по древности памятника, так что все желающие могут что-то найти о своих предках, родных и знакомых. Пока на сайте выложено около 150 описаний, но работа продолжается.

В хранилище центра находится самая большая коллекция образцов татарского фольклора: более 2 тыс. сюжетных и обрядовых песен, частушек, более тысячи текстов мунаджатов — религиозных песнопений, более 6 тыс. народных песен, записанных на магнитные ленты, т. д.

Среди музыкальных источников имеются самодельные металлические пластинки татарского музыкального мастера Гилязутдина Сайфуллина с записями татарских народных мелодий начала ХХ века. Всего их около 300. Он изготавливал звуковые носители сам, методом перфорирования металлических дисков по определенной, только ему известной, системе. Эти диски и сейчас находятся в отличном состоянии, их можно воспроизвести на аппарате «Стелла» или «Мира». Звучание получается бесподобным — по объемности и насыщенности звука эти диски дадут фору любым современным HD-проигрывателям. Неплохо бы было оцифровать эти диски — но это отдельный и дорогостоящий проект.

В «Мирасханэ» имеется еще около 40 восковых валиков с записями татарских мелодий конца XIX века. Возможно, там имеются голоса известных татарских деятелей, но прослушать их невозможно. Есть фонограф Эдисона, предназначенный для их воспроизведений, но, к сожалению, он требует ремонта. 

Это огромное богатство, которое не должно лежать мертвым грузом. Но оно и не лежит. Все, что имеется в фондах, постепенно изучается, обрабатывается, вводится в научный оборот. Главная задача — дать возможность всем желающим ознакомиться с этим бесценным культурным достоянием.

корпусов татарских текстов | Эскизный движок

Татарский — один из многих языков, корпуса текстов которых включены в инструмент Sketch Engine. для изучения того, как работает язык. Sketch Engine предназначен для лингвистов, лексикологов, лексикографы, исследователи, переводчики, терминологи, преподаватели и студенты, работающие с Татарский, чтобы легко обнаруживать типичные и частые в языке и замечать явления, которые остались бы незамеченными без большого образца татарского текста.

В Sketch Engine есть инструменты для определения и анализа словосочетаний, синонимов и антонимов, примеры использовать в контексте, ключевых словах или терминах. Списки частотных слов татарского, состоящих из одного или нескольких слов могут быть созданы выражения различных типов. Даже пользователи без каких-либо технических знаний могут создавать собственные татарские корпуса с помощью интуитивно понятного встроенного инструмента Sketch Engine.

Инструменты для работы с корпусами татарских текстов

Для работы с татарским языком Sketch Engine предлагает следующие инструменты:

Согласие татарское

Конкордансер , включенный в Sketch Engine, можно использовать для отображения списка примеров (называемых соответствием) искомого слова или фразы в татарском языке языковые корпуса текстов. Поиск отобразит ключевое слово с некоторым контекстом справа и контекст слева от ключевого слова (соответствие KWIC). более»

Списки татарских слов

Функция списка слов создаст частотный список всех слов, которые появляются в тексте или корпусе. Можно использовать очень большой корпус для составления списка всех слов, которые существуют в татарском языке или все слова, которые начинаются, содержат или заканчиваются определенными символами. Передовой параметры могут использоваться для создания списков грамматических категорий или частей речи, используемых в корпусе вместе с их частотами. более»

N-грамм на татарском языке

Формирование списка из N-грамм , содержащихся в тексте, позволяет определять и изучать закономерности и замечать явления, связанные с многословными единицами (MWU) в татарском языке которые не могут быть обнаружены другими инструментами. более»

Список доступных татарских корпусов

  • пробная версия – доступна как пробным пользователям, так и платным подписчикам
  • основной – доступен только для платных абонентов
  • по запросу – доступ к корпусу предоставляется на особых условиях, нажмите кнопку название корпуса подробнее
Корпус Политика доступа Размер прописью
Татарский смешанный корпус пробная версия 102 779 803
Татарские новости (2000-2014), версия с лемпос основной 24 927 439
Татарская паутина 2015 образец пробная версия 195 901

для изучающих языки

Курс лексикографии и лексических вычислений

извлечение термина

изучить механизм эскиза

© Copyright — Lexical Computing CZ s. r.o.

    Транслитерация для малоресурсных текстов с переключением кода: создание автоматического преобразователя кириллицы в латиницу для татарского языка

    Тихиро Тагучи, Юсуке Сакаи, Taro Watanabe


    Abstract
    Мы вводим транслитерацию кириллицы в латиницу для татарского языка, основанную на языковой идентификации на уровне подслов. Транслитерация является сложной задачей по следующим двум причинам. Во-первых, поскольку современные татарские тексты часто содержат внутрисловное переключение кода на русский язык, к каждой морфеме необходимо применять различный набор правил транслитерации в зависимости от языка, что требует языковой идентификации на уровне морфем. Во-вторых, тот факт, что татарский язык является малоресурсным, поскольку большая часть текстов написана на кириллице, затрудняет подготовку достаточного набора данных. Учитывая эту ситуацию, мы предложили метод транслитерации, основанный на идентификации языка на уровне подслов. Мы обучили языковой классификатор одноязычным татарскому и русскому текстам и применили различные правила транслитерации в соответствии с идентифицированным языком. Результаты показывают, что предложенный нами метод превосходит другие инструменты транслитерации татарского языка и подразумевает, что он в некоторой степени правильно транскрибирует русские заимствования.

    Anthology ID:
    2021.calcs-1.18
    Volume:
    Proceedings of the Fifth Workshop on Computational Approaches to Linguistic Code-Switching
    Month:
    June
    Year:
    2021
    Address:
    Онлайн
    Места проведения:
    РАСЧЕТЫ | НААКЛ | WS
    SIG:
    Издатель:
    Ассоциация компьютерной лингвистики
    Примечание:
    Страниц:
    133–140
    .
    Ссылка (ACL):
    Тихиро Тагучи, Юсуке Сакаи и Таро Ватанабэ. 2021. Транслитерация для малоресурсных текстов с переключением кода: создание автоматического преобразователя кириллицы в латиницу для татарского языка. In Труды пятого семинара по вычислительным подходам к лингвистическому переключению кода , страницы 133–140, онлайн. Ассоциация компьютерной лингвистики.
    Процитируйте (неофициально):
    Транслитерация для малоресурсных текстов с переключением кода: создание автоматического преобразователя кириллицы в латиницу для татарского языка (Тагучи и др., CALCS 2021)
    Копия цитирования:
    PDF:
    https://aclanthology.org/2021.calcs-1.18.pdf

    PDF Процитировать Поиск


    • BibTeX
    • MODS XML
    • Сноска
    • Предварительно отформатированный
     @inproceedings{taguchi-etal-2021-транслитерация,
        title = "Транслитерация для малоресурсных текстов с переключением кода: создание автоматического конвертера {C}yrillic-to-{L}atin для {T}atar",
        автор = "Тагучи, Тихиро и
          Сакаи, Юсуке и
          Ватанабэ, Таро».
        booktitle = "Материалы пятого семинара по вычислительным подходам к лингвистическому переключению кода",
        месяц = ​​июнь,
        год = "2021",
        адрес = "Онлайн",
        издатель = "Ассоциация вычислительной лингвистики",
        url = "https://aclanthology. org/2021.calcs-1.18",
        doi = "10.18653/v1/2021.calcs-1.18",
        страницы = "133--140",
        abstract = "Мы вводим кириллически-латинский транслитератор для татарского языка, основанный на идентификации языка на уровне подслов. Транслитерация является сложной задачей по следующим двум причинам. Во-первых, потому что современные татарские тексты часто содержат внутрисловный код- при переходе на русский язык к каждой морфеме необходимо применять различный набор правил транслитерации в зависимости от языка, что требует идентификации языка на уровне морфем Во-вторых, тот факт, что татарский является малоресурсным языком, большая часть текстов которого написана кириллицей. , затрудняет подготовку достаточного набора данных.В этой ситуации мы предложили метод транслитерации, основанный на идентификации языка на уровне подслов.Мы обучили языковой классификатор с одноязычными татарскими и русскими текстами и применили различные правила транслитерации в соответствии с идентифицированным языком , Результаты показывают, что предложенный нами метод превосходит другие инструменты татарской транслитерации, и подразумевают, что он правильно транскрибирует В некоторой степени русские заимствования. ",
    }
     
     
    
    <моды>
        <информация о заголовке>
            Транслитерация для малоресурсных текстов с переключением кода: создание автоматического преобразователя кириллицы в латиницу для татарского языка
        
        <название типа="личное">
            Тихиро
            Тагучи
            <роль>
                автор
            
        
        <название типа="личное">
            Юске
            Сакаи
            <роль>
                автор
            
        
        <название типа="личное">
            Таро
            Ватанабэ
            <роль>
                автор
            
        
        <информация о происхождении>
            2021-06
        
        текст
        
            <информация о заголовке>
                Материалы пятого семинара по вычислительным подходам к лингвистическому переключению кода
            
            <информация о происхождении>
                Ассоциация компьютерной лингвистики
                <место>
                    Онлайн
                
            
            публикация конференции
        
        <аннотация>Мы вводим транслитерацию кириллицы в латиницу для татарского языка, основанную на языковой идентификации на уровне подслов.  Транслитерация является сложной задачей по следующим двум причинам. Во-первых, поскольку современные татарские тексты часто содержат внутрисловное переключение кода на русский язык, к каждой морфеме необходимо применять различный набор правил транслитерации в зависимости от языка, что требует языковой идентификации на уровне морфем. Во-вторых, тот факт, что татарский язык является малоресурсным, поскольку большая часть текстов написана на кириллице, затрудняет подготовку достаточного набора данных. Учитывая эту ситуацию, мы предложили метод транслитерации, основанный на идентификации языка на уровне подслов. Мы обучили языковой классификатор одноязычным татарскому и русскому текстам и применили различные правила транслитерации в соответствии с идентифицированным языком. Результаты показывают, что предложенный нами метод превосходит другие инструменты транслитерации татарского языка и подразумевает, что он в некоторой степени правильно транскрибирует русские заимствования.
        taguchi-etal-2021-transliteration
        10. 18653/v1/2021.calcs-1.18
        <местоположение>
            https://aclanthology.org/2021.calcs-1.18
        
        <часть>
            <дата>2021-06
            <единица экстента="страница">
                133
                140
            
        
    
    
     
     %0 Материалы конференции
    Транслитерация %T для малоресурсных текстов с переключением кода: создание автоматического преобразователя кириллицы в латиницу для татарского языка
    %A Тагучи, Тихиро
    %А Сакаи, Юсукэ
    %A Ватанабэ, Таро
    %S Материалы пятого семинара по вычислительным подходам к лингвистическому переключению кода
    %D 2021
    %8 июня
    %I Ассоциация компьютерной лингвистики
    %С онлайн
    %F taguchi-etal-2021-транслитерация
    %X Мы вводим транслитератор кириллицы в латиницу для татарского языка, основанный на идентификации языка на уровне подслов. Транслитерация является сложной задачей по следующим двум причинам. Во-первых, поскольку современные татарские тексты часто содержат внутрисловное переключение кода на русский язык, к каждой морфеме необходимо применять различный набор правил транслитерации в зависимости от языка, что требует языковой идентификации на уровне морфем.  Во-вторых, тот факт, что татарский язык является малоресурсным, поскольку большая часть текстов написана на кириллице, затрудняет подготовку достаточного набора данных. Учитывая эту ситуацию, мы предложили метод транслитерации, основанный на идентификации языка на уровне подслов. Мы обучили языковой классификатор одноязычным татарскому и русскому текстам и применили различные правила транслитерации в соответствии с идентифицированным языком. Результаты показывают, что предложенный нами метод превосходит другие инструменты транслитерации татарского языка и подразумевает, что он в некоторой степени правильно транскрибирует русские заимствования.
    %R 10.18653/v1/2021.вычисления-1.18
    %U https://aclanthology.org/2021.calcs-1.18
    %U https://doi.org/10.18653/v1/2021.calcs-1.18
    %Р 133-140
     
    Markdown (неофициальный)

    [Транслитерация для малоресурсных текстов с переключением кода: создание автоматического преобразователя кириллицы в латиницу для татарского языка] (https://aclanthology.

Комментариев нет

Добавить комментарий