Корпус
даргинского литературного языка



В настоящее время доступна бета-версия корпуса даргинского литературного языка. Большая часть текстов в текущей версии корпуса взята из открытого архива республиканской общественно-политической газеты «Замана» (2010—2023); имеется также подкорпус, содержащий произведения художественной литературы (произведения известного даргинского писателя Ахмедхана Абу-Бакара), а также сказки.

Над корпусом работали: Е. О. Сокур, С. Ю. Толдова, Н. Р. Сумбатова, на ранней стадии также А. С. Токмаков, в обсуждении и тестировании участвовали также Н. Вагизиева, И. Калякин и Г. Сулайбанов. В подготовке текстов для корпуса участвовала П. А. Казимова.

Корпус создается на платформе Tsakorpus (Архангельский 2012; 2021). Тексты в корпусе представлены в даргинской орфографической записи. Тексты отглоссированы и снабжены пословным переводом из даргинско-русского словаря (Юсупов 2017).

Со страницы корпуса доступен также маленький подкорпус со снятой морфологической омонимией (для этого в поле “Язык/слой” нужно выбрать «снятая омонимия»). Снятие омонимии производилось вручную Н. Вагизиевой.

Работа над корпусом продолжается в нескольких направлениях. Во-первых, предполагается исправление ошибок распознавания текста, пополнение массива текстов, во-вторых, продолжается усовершенствование глоссирования.


К поиску


Благодарности

Корпус литературного даргинского языка подготовлен при поддержке Российского научного фонда, грант РНФ №22-28-01648 «Вариативность в дискурсе и словаре».