Устные корпуса


В Лаборатории языковой конвергенции мы создаем устные корпуса — собрания устных текстов, записанных на аудио, расшифрованных и отглоссированных. Доступ к исходным аудиозаписям позволяет исследователям изучать языки на разных уровнях, не полагаясь на чужую транскрипцию. Функция поиска в корпусах возможна благодаря использованию стандартных парсеров, поэтому любое иследование речи по данным разговорных корпусов требует не только обращения к текстам, но и прослушивания всех используемых примеров.

В Лаборатории мы разрабатываем корпуса диалектной, региональной и билингвальной речи, записанной преимущественно в сельской местности.

Важной особенностью устных корпусов Лаборатории является наличие дополнительных социолингвистических метаданных о говорящих, которые включают информацию об их возрасте, поле, образовании, месте жительства и владении другими языками.

Устные корпуса разрабатываются в сотрудничестве с исследователями из других университетов и институтов. Мы открыты сотрудничеству для разработки новых языковых ресурсов, аналогичных уже созданным.

Диалектные корпуса

Хиславичский говор

Словоупотреблений: 260 793

Лужниковский корпус

Словоупотреблений: 68 666

Говоры низовья рек Лух и Теза

Словоупотреблений: 146 350

Говор с. Малинино

Словоупотреблений: 138 943

Говор д. Нехочи

Словоупотреблений: 88 965

Опочецкие говоры

Словоупотреблений: 68 741

Говор с. Роговатка

Словоупотреблений: 100 047

Говор с. Спиридонова Буда

Словоупотреблений: 70 565

Устьянские говоры

Словоупотреблений: 959 782

Говор г. Звенигород

Словоупотреблений: 68 324

Корпуса билингвального русского

Башкирский русский

Словоупотреблений: ND

Бесермянский русский

Словоупотреблений: 97 216

Чувашский русский

Словоупотреблений: 46 307

Дагестанский русский

Словоупотреблений: 227 885

Карельский русский

Словоупотреблений: 74 014

Якутский русский

Словоупотреблений: 15 139

Цыганский русский

Словоупотреблений: 41 767

Корпуса малых языков России

Абазинский язык

Словоупотреблений: 3 636

Адыгейский язык

Словоупотреблений: ND

Башкирский язык

Словоупотреблений: ~25 000

Кабардино-черкесский язык

Словоупотреблений: ND

Хакасский язык

Словоупотреблений: ~58 000

Луговой марийский язык

Словоупотреблений: ND

д. Пушкино-Михалёвская, Вельский район, Архангельская область
Михаил Даниэль

Словари


Словари созданы на материале аудио и текстовых данных, записанных в нескольких аулах Дагестана. Словарные списки составлены исходя из концепции о едином сравнительном лексиконе языков Дагестана и охватывают списки Сводеша и тезаурус Кибрика и Кодзасова для дагестанских языков.

Мегебский язык

Статей: 1 132

Рутульский язык

Статей: 738

Тукитинский язык

Статей: 1 175

с. Кина, Рутульский район, Дагестан
Тимур Майсак

Другие проекты


Помимо словарей и корпусов, в лаборатории создаются базы данных и атласы, содержащие лексические, грамматические и социолингвистические данные языков и аулов Дагестана.

DagSwadesh

Список Сводеша в языках Дагестана

DagLoans

Заимствования в языках Дагестана

MultiDag

Атлас многоязычия в Дагестане

TALD

Типологический атлас языков Дагестана

Окрестности с. Карата, Ахвахский район, Дагестан
Тимофей Мухин