RU | EN |
Кабардино-черкесский корпус - это снабжённое системой поиска электронное собрание текстов, призванное в достаточной мере отразить функционирование кабардино-черкесского идиома, который описывается как кабардинский диалект адыгского языка или кабардино-черкесский язык.
Вопрос о противопоставлении языка и диалекта исключительно запутан: как носители языка, так и исследователи могут использовать для выделения языка разные критерии, которые могут давать разные результаты и не работают универсально. Корпус не имеет отношения к решению этой проблемы, и его существование не может восприниматься как аргумент в пользу какого-либо решения. Далее мы намеренно избегаем формулировок, которые бы устанавливали ту или иную характеризацию кабардинского идиома.
Кабардино-черкесский корпус, как и большинство других корпусов, не предназначен для собственно чтения текстов и не предоставляет доступ к текстам целиком. Причина этого кроется в ограничениях, связанных с защитой авторских прав.
Тем не менее корпус может быть полезен не только лингвистам, но и литературоведам, историкам, преподавателям и в целом широкому кругу людей, интересующихся тем, как используются и в каких контекстах встречаются те или иные слова, выражения и конструкции. Например, с помощью корпуса можно исследовать употребление конкретных корней или словоформ или более сложных выражений, уточнять сочетаемость аффиксов, смотреть на реальное использование сложных синтаксических конструкций (если они характеризуются особой морфологией - пусть и располагающейся в разных словах), частотность языковых явлений, но одновременно также и изучать контексты появления в текстах разнообразных понятий. При этом корпус позволяет сравнивать тексты разных авторов, жанров и периодов и дает выход не только на лексические и грамматические исследования, но и на изучение особенностей стиля и жанровой специфики и даже на историю понятий.
Кабардино-черкесский корпус не может и не должен показывать исключительно «правильный язык» или языковую норму. В идеале задача корпуса состоит в отражении реального функционирования языка, которое не сводится к нормативным текстам, учебной, художественной или официальной литературе. В основе идеологии корпусного исследования лежит уважение к разнообразию лексики, стиля и даже грамматических особенностей. В связи с этим пользователь корпуса может встретиться в нём с выражениями, которые ему могут показаться неграмотными или даже неграмматичными. Однако разнообразие само по себе является такой же нормой, как стремление к объединению, и мы надеемся, что пользователь воспримет это именно таким образом.
В корпусе представлены как художественная литература, фольклор, так и нехудожественная литература - в частности, научные, справочные, учебные тексты, тексты религиозной тематики, пресса. При необходимости учитывать только тексты одного автора или ограниченного круга авторов, конкретные произведения, тексты определенного периода или жанра можно задать соответствующие ограничения в разделе “Выбор подкорпуса”.
На данный момент корпус содержит 21165 документов.
В основе Кабардино-черкесского корпуса лежит платформа tsakorpus (автор – Т. А. Архангельский). Та же платформа лежит в основе многих других языков и идиомов, в том числе абхазо-адыгских (ср. Адыгейский корпус, корпуса диалектной адыгской и абазинской речи, параллельный абазино-русский корпус.
Наиболее часто используемой возможностью корпуса является поиск по конкретным формам слов, вставляемых в поле «Поиск»; ср. рис. 1. Для специального символа «палочка» допускается как ввод латинского символа I (большого или маленького), так и ввод принятой в обиходе его замены – символа единицы 1.
Поиск по точному сочетанию словоформ можно осуществить с помощью поля “Полнотекстовый поиск”.
Впрочем, морфологическая сложность слов, а также вариативность в написании требует и более изощренных способов поиска, чем простое задание конкретных форм. Кабардино-черкесский корпус позволяет поиск по словам, содержащим заданные части, то есть некоторые последовательности символов, которые могут представлять собой корни, префиксы, суффиксы и их сочетания. Простейшие инструменты для этого – символы * и ?. Символ * замещает любую последовательность символов (включая пустую, то есть их отсутствие): запрос *къыткIэ* даст примеры со словоформами къыткIэщIодэIухь, зыкъыткIэращIэ и т.д., поскольку во всех них есть последовательность къыткIэ. Символ ? замещает один ненулевой символ. Соответственно, запрос къы?кIэ* покажет среди прочих примеры къыткIэщIодэIухь, къыскIэлъысащ, къыпкIэрех, “вставляя” один символ в последовательности символов къы_кIэ. Специально отметим, что символом является один знак, и буквы-диграфы и триграфы (например, щI, кIу) понимаются как последовательности нескольких символов. Легко также сообразить, что обозначение ?* будет замещать любую ненулевую последовательность символов.
Но корпус позволяет искать не только отдельные слова, но и сочетания слов, в том числе расположенных на расстоянии друг от друга. Для этого в соответствующем разделе нужно указать дистанцию одного слово от другого: например, дистанция от 1 до 1 означает, что речь идёт о следующем слове, дистанция от -1 до -1 – что имеется в виду предыдущее слово, если указывается дистанция 0, подразумевается, что описывается то же слово, что и слово, находящееся от него в нулевой дистанции (это особенно полезно при «отрицательном поиске»; см. ниже). При отсутствии указания на дистанцию между словами производится поиск предложений, в которых присутствуют оба слова. Кроме того, есть возможность указать диапазон положения слова в предложении (здесь положительные числа дают отсчёт с начала предложения, а отрицательные – с конца). Так, на рис. 2 показан запрос, при котором слово, содержащее последовательность символов плъыжь (очевидно, одна из форм слова ‘красный’), занимает последнюю позицию в предложении и ему непосредственно предшествует слово, начинающееся на последовательность символов хуэд.
«Отрицательный поиск» - это возможность искать, указывая признаки, которые должны отсутствовать в слове. Для этого при указании на слово необходимо нажать на соответствующий значок (ср. рис. 3, изображающий запрос предложений, содержащих слово с последовательностью символов плъыжь, но не содержащих слова, начинающиеся на хуэд). Для «ненужного» слова, как и для «нужного», можно указать обычным образом точную форму или задать ограничения на последовательность символов. Кроме того, можно ограничить его расположение в предложении – относительно других слов и относительно границ предложения. Если дистанция «ненужного» слова от «нужного» указана как нулевая, возникает возможность указать одновременно, каким характеристикам слово должно соответствовать и каким оно не должно соответствовать.
Естественно, все эти способы поиска могут совмещаться друг с другом, а кроме того, помимо них существуют и более сложные способы, использующие так называемые регулярные выражения и другие средства ограничения запрашиваемой информации.
По умолчанию при выдаче примеров даётся одно предложение (хотя для каких-то текстов могут быть приняты и другие технические решения). Однако во многих случаях пользователю корпуса может понадобиться контекст выдаваемого высказывания, и возможность увидеть его в корпусе тоже есть.
Тексты корпуса подготовлены по итогам проведения исследования (проект № 18-05-0014) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2019 г. и в рамках государственной поддержки ведущих университетов Российской Федерации «5-100».
Работа по созданию корпуса велась в 2022-2025 годах совместно кабардинским языковым клубом «Джарез» (Мурат Анчеков, Асият Бижоева, Дана Казанова, Астемир Шебзухов) и сотрудниками Международной лаборатории языковой конвергенции и Школы лингвистики НИУ «Высшая школа экономики» (Ксения Дунаева, Светлана Кузнецова, Анна Ландер, Юрий Ландер). Мы также признательны всем тем, кто помогал и продолжает помогать в добавлении текстов в корпус и в их вычитке.
По содержательным вопросам:
Юрий Александрович Ландер: yulander@yandex.ru
Ксения Олеговна Дунаева: ksodunaeva@gmail.com
Если Вы используете данные Корпуса в своём исследовании, воспользуйтесь следующей ссылкой: