Адыгейский корпус

Простой поиск

Корпус — это набор текстов со специальной разметкой, с помощью которого можно выяснить, в каких контекстах, в каких типах текстов и насколько часто употребляется то или иное слово или конструкция. Для этого нужно ввести поисковый запрос в поля, которые Вы видите в левой верхней части поисковой панели. В этой вкладке рассказывается о том, как делать простые запросы, т.е. запросы, позволяющие найти в корпусе одно конкретное слово или класс слов.

Форма запроса для поиска одного слова представляет собой набор полей, в которые пользователь может вводить текст. В частности, имеются следующие поля:

Слово. В это поле можно ввести конкретную словоформу, например, кIон в таком случае найдётся именно она, но не, например, формы макIо или кIуагъэ. Есть несколько режимов поиска словоформ. Первый заключается в том, чтобы просто ввести конкретное слово. Второй режим позволяет использовать символ *, который означает «любое количество любых символов» (в том числе нулевое), и символ ?, который означает «один символ». Например, запрос кIо* найдёт все слова, начинающиеся на кIо: собственно кIо, кIощтыгъ, кIоцI и т. п., запрос кIо? найдёт все слова, начинающиеся на кIо и содержащие ещё один символ: кIон, кIод, кIоу и т. п.; запрос кIо?* найдёт все слова, начинающиеся на кIо и содержащие ещё как минимум один символ. Третья опция заключается в использовании регулярных выражений (если быть точным, той их разновидности, которая используется в Apache Lucene). Наконец, в любом запросе можно использовать знак ~ в качестве отрицания, например, ~корпус найдёт все слова, кроме «корпус».
Лемма. Леммой называется словарная (начальная) форма слова, например, леммой для слова кIощтыгъ будет кIон. Если ввести в это поле какую-либо лемму, Вы найдёте все её формы – но в силу типологических особенностей адыгейского языка и правил обработки словаря в Адыгейском корпусе Вы найдёте также и многие формы, которые традиционно не принято связывать с кIон. Мы не рекомендуем использование этого поля. В целом, правила работы с полем «Лемма» такие же, как и с полем «Слово».
Грамматика и глоссы: см. вкладку Грамматика.
Другие поля. В зависимости от того, какая разметка есть в корпусе, в форме запроса могут быть и другие поля. Все дополнительные поля можно увидеть, нажав на кнопку . Если параметр может принимать произвольные значения, то соответствующее поле работает так же, как поля «Слово» и «Лемма». Если набор значений ограничен коротким списком, их можно выбрать в табличке, нажав на значок в конце поля — так же, как в поле «Грамматика».
С помощью поля Позиция в предложении можно искать слова в определённом месте внутри предложения, например, в начале (позиция 1) или в вакернагелевской позиции (позиция 2). Чтобы считать позиции с конца предложения, можно использовать отрицательные числа: например, -1 означает последнее слово в предложении.

В случае, если заполнены несколько полей, будут найдены все слова, соответствующие всем полям запроса одновременно.

Настройки поиска и отображения

Вкладка в левой части поисковой панели содержит настройки поиска и отображения. Опции для простого поиска включают в себя количество результатов на странице (максимум 100), тип сортировки, выбор транслитерации (в корпусах, допускающих несколько вариантнов транслитерации) и тип выдачи (обычная или глоссированная).

Поиск предложений и слов

В корпусе доступны два разных вида поиска: поиск предложений и поиск отдельных словоформ (а также лемм). В первом случае корпус покажет все предложения, где поисковая платформа нашла хотя бы одно слово или комбинацию слов, запрошенную пользователем. Нажав на зелёную стрелку сбоку от предложения, можно посмотреть на его контекст, т. е. соседние с ним предложения в тексте. (Контекст можно расширять ограниченное количество раз из соображений защиты авторского права.)

Галочка слева от предложения «выключает» его. Чтобы скачать все просмотренные Вами результаты, можно воспользоваться ссылками «скачать как CSV» и «скачать как XLSX» внизу. «Выключенные» предложения не войдут в этот список.

Кнопка «Поиск слов» выдаст список словоформ, подходящих под запрос, без повторов, а также информацию об их частотности во всём корпусе или в подкорпусе, если Вы его ограничили. Такой поиск может ответить на вопросы вроде «Какие глаголы чаще всего употребляются в прошедшем времени?». Каждое из найденных слов можно сразу поискать в корпусе, нажав на кнопку в соответствующей строке таблицы. Кнопка покажет распределение этого слова по разным типам текстов. Поиск лемм работает аналогичным образом, но вместо словоформ показывает списки лемм.

Отрицательные запросы

Чтобы найти предложения, не содержащие каких-либо слов или классов слов, можно включить опцию «Отрицательный запрос», нажав на кнопку . Эта опция работает только при поиске предложений.

История

Историю запросов можно просмотреть, нажав на . Чтобы повторить запрос, нажмите на стрелочки в конце соответствующей строки.

Загрузка результатов

Найденные предложения можно загрузить в простых форматах CSV или XSLX, нажав на кнопку или внизу страницы. Внимание! Будут загружены только те результаты, которые Вы уже просмотрели в браузере. Например, если Вы открывали страницы 1, 2 и 8, в файле окажутся предложения только с этих трёх страниц. Загрузить все результаты сразу невозможно. Это не баг, а сознательное решение: попытка загрузить слишком много результатов сразу может надолго подвесить сервер.

Грамматические тэги

Грамматика

В корпусе с морфологической разметкой каждой словоформе приписывается ряд тэгов — сокращённых обозначений, которые говорят о том, какие грамматические (или любые другие) значения выражены в этой словоформе. Например, словоформе сэкIо могут быть приписаны тэги V (глагол), intr (непереходный глагол), dyn (динамический глагол), 1.abs (подлежащее 1 лица) и т.д. Пользователи, знакомые с набором тэгов, используемым в конкретном корпусе, могут вручную вписывать эти тэги в поле Грамматика, при необходимости объединяя их логическими функциями: & или , (запятая) для конъюнкции (И), | для дизъюнкции (ИЛИ) и ~ для отрицания. Части запроса могут быть сгруппированы с помощью скобок. Например, запрос (sg|apl),~obl будет означать «слово должно стоять в форме единственного числа или в форме ассоциативной множественности (суффикс -тхэ), но не в косвенном/эргативном падеже». Пользователи, не знакомые с набором тэгов или предпочитающие графический интерфейс для выбора, могут открыть окошко выбора тэгов из списка, нажав на небольшую кнопку в конце текстового поля. В этом окошке тэги сгруппированы по категориям. Если выбрать несколько тэгов из одной категории, корпус проинтерпретирует это как дизъюнкцию (ИЛИ); тэги из разных категорий объединяются с помощью конъюнкции (И). Соответствующий запрос в текстовом виде будет показан в голубом поле сверху.

Глоссы

В глоссированном корпусе можно искать по глоссам. Такой поиск очень похож на поиск по грамматическим тэгам и во многом дублирует его, но имеет несколько отличий. Во-первых, в поиске по глоссам можно указать взаимное расположение нескольких аффиксов или найти слова, в которых некоторая глосса встречается несколько раз, тогда как в грамматическом поиске набор тэгов интерпретируется как неупорядоченный мешок значений без повторов. Во-вторых, при поиске по глоссам можно указывать не только глоссу, но и саму морфему, что может быть полезно, когда одно и то же значение в разных случаях выражается разными алломорфами. В-третьих, в корпусе предусмотрены обобщённые обозначения для классов глосс, например, «CASE» для всех падежных показателей. Наконец, соответствие между морфемами/глоссами и грамматическими значениями не всегда взаимно-однозначно, т. к. в одной морфеме могут кумулироваться несколько значений, а одно значение, наоборот, может выражаться одновременно несколькими морфемами или явно не выражаться вообще.

Пользователи, знакомые с используемой в корпусе системой глоссирования, могут печатать в поле «Глоссы» поисковые запросы, используя эти глоссы. Несколько глосс, разделённых дефисом, означают, эти глоссы должны встретиться в слове ровно так, как они введены. Например, выражение COORD-INS будет означать «найти все слова, в которых глосса INS непосредственно следует за глоссой COORD, но не наоборот». В фигурных скобках после глоссы можно указать конкретную морфему: по выражению PST-PL{х} найдутся только те слова, в которых глосса PL следует за PST и при этом морфема, глоссированная как PL, выглядит как х (а не как полный вариант хэ). Внутри фигурных скобок можно использовать регулярные выражения. Вместо одной глоссы можно задать множество глосс, используя скобки и оператор | (ИЛИ), например, (FUT|PST)-PL. Кроме того, вместо глосс можно использовать символ * со значением «любое количество любых морфем», + со значением «любое положительное количество любых морфем» и ? со значением «одна любая морфема». Наконец, знак #, расположенный в начале или конце выражения, означает границу слова. Несколько подобных выражений можно объединять с помощью логических функций и скобок.

Как найти несколько слов внутри одного предложения

Чтобы найти конструкцию или просто несколько слов внутри одного предложения, количество слов в запросе можно увеличить, нажав на кнопку нужное количество раз. По умолчанию считается, что в запросе с несколькими словами эти слова ищутся на любом расстоянии друг от друга внутри одного предложения.

Поиск по предложениям в таком случае выдаст все предложения, в которых каждое из запрошенных слов встретилось хотя бы один раз. В параллельном корпусе у разных слов можно выставить разные языки. Такой многоязычный запрос будет означать «найти все выровненные параллельные сегменты, где предложения на указанных языках содержат соответствующие слова».

Поиск слов работает аналогичным образом, но вместо предложений он выдаёт список слов, которые в этих предложениях оказались на месте слова №1 из запроса. Такой поиск может быть полезным, например, если Вы хотите узнать, какие слова чаще всего употребляются слева или справа от послелога дэжь (во втором случае этот предлог должен быть словом №2 в запросе, но расстояние до слова №1 должно быть отрицательным). Поскольку для поиска слов необходимо перебрать и обработать все предложения, подходящие под запрос, такой поиск может быть медленным. Если во время поиска истечёт лимит времени, отведённый для запроса, Вы увидите результат обработки некоторой случайной выборки предложений вместо полного результата.

Расстояния

Нажав на кнопку , можно указать минимальное и максимальное расстояние между словами в запросе. Например, можно указать, что слово №2 должно находиться в диапазоне от 1 до 2 слов от слова №1. Допускаются отрицательные расстояния, означающие, что данное слово должно находиться слева от того, до которого указывается расстояние. Независимо от введённых расстояний, поиск нескольких слов всегда ограничен одним предложением; искать в одном запросе слова, находящиеся в разных предложениях, невозможно.

Если Ваш запрос относительно простой, то больше ничего делать не нужно. Однако в случае очень сложного запроса Вы получите в том числе примеры, которые соответствуют ему только частично. Такие примеры будут «выключены» (они будут полупрозрачными), но они будут учитываться в общем числе вхождений. «Очень сложным» считается запрос, в котором нет ни одного слова, которое участвовало бы во всех ограничениях на расстояния. Кроме того, даже в случае простых запросов можно специально включить в результаты такие примеры, где есть все нужные слова, но не соблюдаются ограничения на расстояния, в выключенном виде. Для этого во вкладке с настройками необходимо снять флажок «Расстояния между словами только как в запросе».

В любом случае стоит помнить о том, что запросы на несколько слов, особенно с указанием расстояний, могут быть тяжёлыми, так что их выполнение может занять много времени.

Как выбрать подкорпус

Поиск можно ограничить, выбрав подкорпус, то есть подмножество текстов, в которых Вы хотите что-либо найти. Для этого нажмите на кнопку «Выбрать подкорпус». В открывшемся окошке можно либо ограничить подкорпус, заполнив поисковые поля, либо выбрав (или убрав) конкретные тексты в списке (эти два способа можно комбинировать). Если Вы выбрали подкорпус, все Ваши запросы будут искаться только в текстах подкорпуса.

Г. А. Мороз. Как пользоваться адыгейским корпусом

Ю. А. Ландер. Введение. Что такое корпус и как им пользоваться

Ю. А. Ландер. Как искать по конкретным словам и сочетаниям букв

Ю. А. Ландер. Как искать по грамматическим признакам

Ю. А. Ландер. Как искать по глоссам - по грамматическим морфемам и их сочетаниям

Ю. А. Ландер. Как искать по нескольким словам и словосочетаниям

Ю. А. Ландер. Как искать по тому, чего в примере не должно быть

— Что такое корпус?

Корпусом языка называется коллекция текстов на этом языке, снабжённая дополнительной лингвистической информацией (разметкой, или аннотацией) и поисковым механизмом. Краткое введение в языковые корпуса и корпусную лингвистику можно посмотреть в интервью академика В. А. Плунгяна на ПостНауке .

— Кому нужны корпуса?

В первую очередь, корпуса нужны лингвистам — исследователям, изучающим конкретные языки или язык в целом. Поисковая система и разметка корпусов сконструированы таким образом, чтобы в них можно было задавать лингвистические запросы вроде «найти все существительные в именительном падеже» или «найти все формы слова цӏыф перед глаголами». Кроме того, корпуса могут пригодиться преподавателям языка (в корпусах, например, можно находить примеры для упражнений), а также изучающим язык и самим носителям языка.

— Можно ли использовать корпус как библиотеку?

Нет, корпус для этого не предназначен. Работа с корпусом состоит в том, что пользователь задаёт запрос — ищет какое-либо слово, фразу или конструкцию, — а корпус выдаёт в ответ все предложения, в которых встречаются искомые слова. По умолчанию предложения выдаются в перемешанном порядке. При желании у каждого предложения можно расширить контекст, т. е. показать соседние с ним предложения. Однако для каждого предложения эту операцию можно совершить ограниченное число раз. Таким образом, пользователь не может увидеть текст целиком. Это необходимо, в частности, для защиты авторских прав.

— Можно ли использовать корпус как словарь?

У каждого адыгейского слова в корпусе есть перевод на русский. Однако это всего лишь вспомогательная информация для тех, кто недостаточно хорошо владеет адыгейским языком. Переводы слов в корпусе специально укорочены, не отражают всех оттенков значения и не содержат примеров употреблений. Если Вы хотите узнать перевод слова, намного лучше будет воспользоваться для этого специализированным словарём.

— Что такое морфологическая разметка и как она сделана?

В представленном здесь корпусе имеется лемматизация и морфологическая разметка. Лемматизация означает, что при каждой словоформе указана её лемма, то есть начальная форма. Морфологическая разметка означает, что для каждой словоформы указаны её грамматические характеристики: часть речи, число, падеж, время и т. п. Поскольку этот корпус слишком большой, чтобы размечать его вручную, разметка делалась автоматически при помощи специальной программы — морфологического анализатора. Анализатор, в свою очередь, использует составленный вручную грамматический словарь и формализованное описание адыгейского словоизменения. Использование автоматической разметки, к сожалению, означает, что, во-первых, отсутствующие в словаре слова останутся неразобранными, а во-вторых, что в некоторых случаях возникнет омонимия — ситуация, когда одно слово можно разобрать несколькими способами, и программа не знает, какой из вариантов является правильным в данном контексте.

Как пользоваться корпусом

Справка