Устные корпуса


В Лаборатории языковой конвергенции мы создаем устные корпуса — собрания устных текстов, записанных на аудио, расшифрованных и отглоссированных. Доступ к исходным аудиозаписям позволяет исследователям изучать языки на разных уровнях, не полагаясь на чужую транскрипцию. Функция поиска в корпусах возможна благодаря использованию стандартных парсеров, поэтому любое иследование речи по данным разговорных корпусов требует не только обращения к текстам, но и прослушивания всех используемых примеров.

В Лаборатории мы разрабатываем корпуса диалектной, региональной и билингвальной речи, записанной преимущественно в сельской местности.

Важной особенностью устных корпусов Лаборатории является наличие дополнительных социолингвистических метаданных о говорящих, которые включают информацию об их возрасте, поле, образовании, месте жительства и владении другими языками.

Устные корпуса разрабатываются в сотрудничестве с исследователями из других университетов и институтов. Мы открыты сотрудничеству для разработки новых языковых ресурсов, аналогичных уже созданным.

Диалектные корпуса

Донские говоры

Словоупотреблений: 71 600

Говор с. Кеба

Словоупотреблений: 54 535

Хиславичский говор

Словоупотреблений: 260 793

Говоры низовья рек Лух и Теза

Словоупотреблений: 146 350

Лужниковский говор

Словоупотреблений: 68 666

Говор с. Малинино

Словоупотреблений: 138 943

Мантуровский говор

Словоупотреблений: 113 837

Говоры среднего течения Северной Двины

Словоупотреблений: 68 010

Говоры среднего течения Пинеги

Словоупотреблений: 43 270

Говор Средней Пёзы

Словоупотреблений: 79 566

Корпус Михайлова

Словоупотреблений: 47 579

Говор д. Нехочи

Словоупотреблений: 88 965

Опочецкие говоры

Словоупотреблений: 68 741

ПРуД

Словоупотреблений: 1 871

Говор с. Роговатка

Словоупотреблений: 100 047

Говор д. Шетнево и Макеево

Словоупотреблений: 95 335

Говор с. Спиридонова Буда

Словоупотреблений: 70 565

Говор сёл Свишни и Тростное

Словоупотреблений: 24 414

Говор с. Церковное

Словоупотреблений: 39 469

Говор верхней Пинеги и Выи

Словоупотреблений: 70 803

Устьянские говоры

Словоупотреблений: 959 782

Говор д. Веегора

Словоупотреблений: 91 514

Говор г. Звенигород

Словоупотреблений: 68 324

Корпуса билингвального русского

Башкирский русский

Словоупотреблений: 93 127

Бесермянский русский

Словоупотреблений: 97 216

Чувашский русский

Словоупотреблений: 46 307

Дагестанский русский

Словоупотреблений: 376 717

Карельский русский

Словоупотреблений: 578 646

Марийский русский

Словоупотреблений: 69 109

Цыганский русский

Словоупотреблений: 41 767

Якутский русский

Словоупотреблений: 15 139

Корпуса малых языков России

Абазинский язык

Словоупотреблений: 3 636

Адыгейский язык

Словоупотреблений: 9 128

Башкирский язык

Словоупотреблений: ~25 000

Ботлихский корпус

Словоупотреблений: 1 603

Кабардино-черкесский язык

Словоупотреблений: 7 955

Кадарский даргинский язык

Словоупотреблений: 12 654

Хакасский язык

Словоупотреблений: ~58 000

Луговой марийский язык

Словоупотреблений: 11 647

Муиринский даргинский язык

Словоупотреблений: 7 470

Литературный даргинский

Словоупотреблений: 703 988

Тантынский даргинский

Словоупотреблений: 2 683

База данных примеров андийских словарей

Словоупотреблений: 94 302

Цнальский лезгинский

Словоупотреблений: 5 113

д. Пушкино-Михалёвская, Вельский район, Архангельская область
Михаил Даниэль

Словари


Словари созданы на материале аудио и текстовых данных, записанных в нескольких аулах Дагестана. Словарные списки составлены исходя из концепции о едином сравнительном лексиконе языков Дагестана и охватывают списки Сводеша и тезаурус Кибрика и Кодзасова для дагестанских языков.

Даргинские языки

Статей: 7 917

Мегебский язык

Статей: 1 132

Рутульский язык

Статей: 738

Тукитинский язык

Статей: 1 175

с. Кина, Рутульский район, Дагестан
Тимур Майсак

Другие проекты


Помимо словарей и корпусов, в лаборатории создаются базы данных и атласы, содержащие лексические, грамматические и социолингвистические данные языков и аулов Дагестана.

DagSwadesh

Список Сводеша в языках Дагестана

Атлас рутульских диалектов

Диалектное исследование 12 рутульских деревень

DAG < APT

Базаданных заимствований из арабского, персидского и тюркских языков в языки Дагестана

EDGP

Электронный словарь грецизмов и полонизмов XI-XVII вв.

DagLoans

Заимствования в языках Дагестана

MultiDag

Атлас многоязычия в Дагестане

TALD

Типологический атлас языков Дагестана

Окрестности с. Карата, Ахвахский район, Дагестан
Тимофей Мухин