Устные корпуса
В Международной лаборатории языковой конвергенции мы создаем устные корпуса — собрания устных текстов, записанных на аудио, расшифрованных и отглоссированных. Доступ к исходным аудиозаписям позволяет исследователям изучать языки на разных уровнях, не полагаясь на чужую транскрипцию. Функция поиска в корпусах возможна благодаря использованию стандартных парсеров, поэтому любое иследование речи по данным разговорных корпусов требует не только обращения к текстам, но и прослушивания всех используемых примеров.
В Лаборатории мы разрабатываем корпуса диалектной, региональной и билингвальной речи, записанной преимущественно в сельской местности.
Важной особенностью устных корпусов Лаборатории является наличие дополнительных социолингвистических метаданных о говорящих, которые включают информацию об их возрасте, поле, образовании, месте жительства и владении другими языками.
Устные корпуса разрабатываются в сотрудничестве с исследователями из других университетов и институтов. Мы открыты сотрудничеству для разработки новых языковых ресурсов, аналогичных уже созданным.
Говор верхней Пинеги и Выи
Словоупотр.: 70 803
Говор г. Звенигород
Словоупотр.: 68 324
Говор д. Веегора
Словоупотр.: 91 514
Говор д. Нехочи
Словоупотр.: 88 965
Говор д. Шетнево и Макеево
Словоупотр.: 95 335
Говор с. Кеба
Словоупотр.: 54 535
Говор с. Малинино
Словоупотр.: 138 943
Говор с. Поповка
Словоупотр.: 36 617
Говор с. Роговатка
Словоупотр.: 100 047
Говор с. Спиридонова Буда
Словоупотр.: 70 565
Говор с. Церковное
Словоупотр.: 39 469
Говор Средней Пёзы
Словоупотр.: 79 566
Говор сёл Свишни и Тростное
Словоупотр.: 24 414
Говоры среднего течения Пинеги
Словоупотр.: 43 270
Говоры Ильменского Поозерья
Словоупотр.: 134 207
Говоры низовья рек Лух и Теза
Словоупотр.: 146 350
Говоры среднего течения Северной Двины
Словоупотр.: 68 010
Донские говоры
Словоупотр.: 69 098
Корпус Михайлова
Словоупотр.: 47 579
Лужниковский говор
Словоупотр.: 68 666
Мантуровский говор
Словоупотр.: 113 837
Опочецкие говоры
Словоупотр.: 68 741
Устьянские говоры
Словоупотр.: 959 782
Хиславичский говор
Словоупотр.: 260 793
Башкирский русский
Словоупотр.: 93 127
Бесермянский русский
Словоупотр.: 97 216
Дагестанский русский
Словоупотр.: 376 717
Карельский русский
Словоупотр.: 578 646
Марийский русский
Словоупотр.: 69 109
Хантыйский русский
Словоупотр.: 40 225
Цыганский русский
Словоупотр.: 41 767
Чувашский русский
Словоупотр.: 46 307
Якутский русский
Словоупотр.: 15 139
Абазинский
Словоупотр.: 3 636
Адыгейский
Словоупотр.: 9 128
Башкирский
Словоупотр.: 28 202
Ботлихский
Словоупотр.: 1 603
Ицаринский даргинский
Словоупотр.: 2 535
Кабардино-черкесский
Словоупотр.: 7 955
Кадарский даргинский
Словоупотр.: 6 366
Литературный даргинский
Словоупотр.: 6 382 427
Луговой марийский
Словоупотр.: 11 647
Муиринский даргинский
Словоупотр.: 6 935
Тантынский даргинский
Словоупотр.: 2 683
Хакасский
Словоупотр.: 57 633
Цнальский диалект лезгинского
Словоупотр.: 5 113
Словари
Словари созданы на материале аудио и текстовых данных, записанных в нескольких аулах Дагестана. Словарные списки составлены исходя из концепции о едином сравнительном лексиконе языков Дагестана и охватывают списки Сводеша и тезаурус Кибрика и Кодзасова для дагестанских языков.
Даргинские языки
Словоупотр.: 7 917
Зиловский диалект андийского языка
Словоупотр.: 738
Кининский диалект рутульского языка
Словоупотр.: 738
Мегебский даргинский
Словоупотр.: 1 132
Тукитинский
Словоупотр.: 1 175
Хваршинский
Словоупотр.: 10 291
Другие проекты
Помимо словарей и корпусов, в лаборатории создаются базы данных и атласы, содержащие лексические, грамматические и социолингвистические данные языков и аулов Дагестана.