В корпусе реализовано два метода поиска по грамматической информации – поиск по глоссам и поиск по грамматическим тэгам. Эти методы поиска можно комбинировать.
В Адыгейском корпусе используется типологически ориентированная концепция грамматики адыгейского языка. Она разработана для удобства сравнительного изучения и описания языков. Эта концепция основывается на работах исследователей из Российского государственного гуманитарного университета и НИУ “Высшая школа экономики”. Положения этой концепции, важные для использования корпуса, изложены в (Ландер и др. 2019). Более детальное описание концепции можно найти в (Аркадьев и др. 2009). Следует учитывать, что некоторые её положения и многие обозначения уже устарели и не используются в корпусе.
Мы также постарались учесть и традиционные трактовки адыгейской грамматики – в первую очередь в условных обозначениях, которые можно использовать при поиске по грамматическим тэгам (подробнее об этом в разделе Грамматические тэги).
Словоформы разбиваются на морфемы, каждой морфеме приписывается краткое условное обозначение – глосса.
В отличие от поиска по грамматическим тэгам, поиск по глоссам позволяет учитывать порядок следования глосс и находить слова, содержащие одну и ту же морфему несколько раз. Список морфем и соответствующих им глосс представлен ниже. Некоторые морфемы (аппликативы, модально-временные показатели, личные префиксы) объединены в группы – название группы можно использовать для обозначения любой глоссы из конкретной группы.
В корпусе не учитываются многие непродуктивные морфемы – в том числе такие, которые выделяются этимологически, но не используются в современном языке.
| глосса | описание |
|---|---|
| 1PL.ABS | абсолютивный префикс 1 л. мн. ч. |
| 1PL.ERG | эргативный префикс 1 л. мн. ч. |
| 1PL.IO | косвеннообъектный префикс 1 л. мн. ч. |
| 1PL.P | посессивный префикс 1 л. мн. ч. |
| 1PL.PO | |
| 1SG.ABS | абсолютивный префикс 1 л. ед. ч. |
| 1SG.ERG | эргативный префикс 1 л. ед. ч. |
| 1SG.IO | косвеннообъектный префикс 1 л. ед. ч. |
| 1SG.P | посессивный префикс 1 л. ед. ч. |
| 1SG.PO | |
| 2PL.ABS | абсолютивный префикс 2 л. мн. ч. |
| 2PL.ERG | эргативный префикс 2 л. мн. ч. |
| 2PL.IO | косвеннообъектный префикс 2 л. мн. ч. |
| 2PL.P | посессивный префикс 2 л. мн. ч. |
| 2PL.PO | |
| 2SG.ABS | абсолютивный префикс 2 л. ед. ч. |
| 2SG.ERG | эргативный префикс 2 л. ед. ч. |
| 2SG.IO | косвеннообъектный префикс 2 л. ед. ч. |
| 2SG.P | посессивный префикс 2 л. ед. ч. |
| 2SG.PO | |
| 3PL.ERG | эргативный префикс 3 л. мн. ч. |
| 3PL.IO | косвеннообъектный префикс 3 л. мн. ч. |
| 3PL.P | посессивный префикс 3 л. мн. ч. |
| 3PL.PO | |
| 3SG.ERG | эргативный префикс 3 л. ед. ч. |
| 3SG.P | посессивный префикс 3 л. ед. ч. |
| 3SG.PO | |
| ABS | абсолютив (именительный падеж) |
| ABSTR | суффикс абстрактных имён (-гъэ) |
| ADD | аддитив (-и/-ри) |
| ADJ | атрибутив (-рэ) |
| ADV | адвербиалис |
| APL | ассоциативное множественное число (-тхэ) |
| APPR | аппрехенсив 'как бы не' (-къо) |
| ASRT | ассертив (-пэ) |
| AUG | аугментатив ‘большой’ (-шхо) |
| AUX | инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.) |
| BEN | бенефактивный аппликатив (фэ-) |
| CAR | каритив (-нчъэ) |
| CAUS | каузатив |
| COM | комитативный аппликатив / совместность (дэ-) |
| COND | кондиционал / условное наклонение (-мэ) |
| CONT | инкорпорированный глагольный корень -лӏэ- |
| COORD | сочинительная клитика -рэ |
| CS | консекутив ‘так что’ (-ти) |
| CS2 | консекутив ‘так что’ (-шъ) |
| DAT | префикс дативной (косвеннообъектной) деривации |
| DIFICIL | дифицилитив 'сложно' |
| DIR | префикс директива (къэ-) |
| DOWN | инкорпорированный глагольный корень -хы- 'вниз' |
| DYN | динамический префикс или суффикс |
| EL | инкорпорированный глагольный корень -кӏы- |
| EMP | эмфатическая клитика -ба |
| EXC1 | интенсификатор -щэ |
| EXC2 | интенсификатор -ӏо |
| FACIL | фацилитив 'легко' |
| FUT | будущее время |
| GENLOC | общий локативный аппликатив (щы-) |
| ILL | инкорпорированный глагольный корень -хьэ- |
| IMP2 | императив на орэ- |
| INADV | инадвертивный аппликатив / ненамеренность (ӏэкӏэ-) |
| INC | инцептив |
| INCH | инхоатив (-жьэ) |
| INS | инструменталис (творительный падеж) |
| INT1 | интенсификатор -кӏэе |
| INT2 | интенсификатор -бзэ |
| INT3 | интенсификатор -е |
| LIM | лимитатив ("пока") |
| LNK | соединительная морфема при присоединении числительных |
| LOC | специальный локативный аппликатив-преверб (кроме щы-) |
| MAL | малефактивный аппликатив (шӏо-) |
| MOD | модальный суффикс / масдар (-н) |
| MULT | мультипликативный суффикс числительных |
| NEG | отрицательный префикс или суффикс |
| NMLZ.AG | агентивная номинализация (-кӏо) |
| NMLZ.LOC | номинализация со значением места (-пӏэ) |
| NMLZ.MNR | номинализация со значением способа действия (-кӏэ) |
| NMLZ.TIME | номинализация со значением времени (-гъо) |
| OBL | косвенный падеж (эргатив) |
| OBL.PL | суффикс косвенного падежа (эргатива) множественного числа (-мэ) |
| OPT | оптатив (желательное наклонение) |
| ORD | порядковое числительное |
| PITY | глагольный суффикс -гущэ 'жаль' |
| PL | суффикс множественного числа |
| POSS | посессивный префикс при отторжимой принадлежности |
| POT | потенциалис (-шъу) |
| PRED | предикативная форма местоимений (-ры) |
| PST | прошедшее время |
| PURP | именной суффикс -хьа |
| Q | вопросительная частица (-а) |
| RE | суффикс реверсива/рефактива ‘назад, снова’ (-жьы) |
| REC.ERG | реципрокальный (взаимно-возвратный) префикс эргатива |
| REC.IO | реципрокальный (взаимно-возвратный) косвеннообъектный префикс |
| REC.P | реципрокальный (взаимно-возвратный) посессивный префикс |
| REL.ERG | относительный префикс эргатива |
| REL.IO | относительный косвеннообъектный префикс |
| REL.P | относительный посессивный префикс |
| REL.SUB | относительный префикс факта / образа действия (зэрэ-) |
| REL.TMP | относительный префикс времени |
| RFL.ABS | рефлексивный (возвратный) абсолютивный префикс |
| RFL.IO | рефлексивный (возвратный) косвеннообъектный префикс |
| SEEM | глагольный корень 'казаться' |
| SIM | суффикс одновременности (-зэ) |
| TRANS | транслативный ‘через’ / инструментальный аппликатив (ры-) |
| UP | инкорпорированный глагольный корень -е- 'вверх |
| обозначение группы | глоссы, входящие в группу |
|---|---|
| case | OBL, OBL.PL, ABS, ERG, INS, ADV |
| oblx | OBL, OBL.PL |
| app | DAT, BEN, MAL, LOC, GENLOC, COM, INSTR, INADV |
| pers | 1SG.ABS, 1SG.ERG, 1SG.IO, 2SG.ABS, 2SG.ERG, 2SG.IO, 3SG.ABS, 3SG.ERG, 3SG.IO, 1PL.ABS, 1PL.ERG, 1PL.IO, 2PL.ABS, 2PL.ERG, 2PL.IO, 3PL.ABS, 3PL.ERG, 3PL.IO, REL.ABS, REL.ERG, REL.IO, REC.ABS, REC.ERG, REC.IO, RFL.ABS, RFL.ERG, RFL.IO |
| pers.abs | 1SG.ABS, 2SG.ABS, 3SG.ABS, 1PL.ABS, 2PL.ABS, 3PL.ABS, REL.ABS, REC.ABS, RFL.ABS |
| pers.erg | 1SG.ERG, 2SG.ERG, 3SG.ERG, 1PL.ERG, 2PL.ERG, 3PL.ERG, REL.ERG, REC.ERG, RFL.ERG |
| pers.io | 1SG.IO, 2SG.IO, 3SG.IO, 1PL.IO, 2PL.IO, 3PL.IO, REL.IO, REC.IO, RFL.IO |
| pers.p | 1SG.P, 2SG.P, 3SG.P, 1PL.P, 2PL.P, 3PL.P, REL.P, REC.P |
| tense | PST, PST2, FUT |
| sfx | RE, ILL, EL, CONT |
| int | INT1, INT2, INT3 |
| exc | EXC1, EXC2 |
Каждому слову приписывается набор специальных помет — грамматических тэгов, которые обозначают его часть речи, грамматические категории, отображают наличие аффиксов и т.д. Тэги, использующиеся в корпусе, перечислены ниже.
Большинство тэгов имеет два воплощения – вариант в латинице и кириллический вариант. В отдельных случаях для поиска также можно использовать конкретный аффикс. Например, найти слова, содержащие бенефактивный аппликатив, можно тремя способами – использовав тэги "ben", "бен" или "фэ". Во всех трёх случаях результат будет одинаков. Вне зависимости от выбранного варианта тэга, вводить его нужно в поле "Грамматика".
Информация в глоссах и тэгах частично дублируется, но не полностью совпадает. Например, если префиксы выражают одновременно лицо и число субъекта, то им приписывается одна глосса (например, 1SG.ABS). Но слову с такими префиксами приписывается два грамматических тэга - один для лица (1.abs) и один для числа (1.sg).
Грамматические тэги характеризуют всю словоформу. Таким образом, при поиске по тэгам не учитывается порядок следования морфем, а некоторые тэги вовсе не соответствуют никакой морфеме (например, частеречные тэги, тэги, обозначающие переходность глагола или наличие чередования).
| тэг | кириллический вариант | описание |
|---|---|---|
| A | прил | прилагательное |
| AD | нар | наречие |
| APRO | мприл | местоимение-прилагательное |
| CONJ | союз | союз |
| FORMULA | форм | речевая формула |
| N | сущ | существительное |
| NPRO | мсущ | местоимение-существительное |
| NUM | числ | числительное |
| POST | посл | послелог |
| PRO | другое местоимение | |
| V | гл | глагол |
| NtoV | сущгл | собственно глагольная морфология на основе существительного или прилагательного |
| тэг | кириллический вариант | описание |
|---|---|---|
| 1.abs | 1.им | 1-е лицо абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения) |
| 1.erg | 1.эрг | 1-е лицо эргативного аргумента (= переходного подлежащего) |
| 1.io | 1.косв | 1-е лицо косвенного объекта |
| 2.abs | 2.им | 2-е лицо абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения) |
| 2.erg | 2.эрг | 2-е лицо эргативного аргумента (= переходного подлежащего) |
| 2.io | 2.косв | 2-е лицо косвенного объекта |
| 3.erg | 3.эрг | 3-е лицо эргативного аргумента (= переходного подлежащего) |
| 3.io | 3.косв | 3-е лицо косвенного объекта |
| sg.abs | ед.им | единственное число абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения) |
| sg.erg | ед.эрг | единственное число эргативного аргумента (= переходного подлежащего) |
| sg.io | ед.косв | единственное число косвенного объекта |
| pl.abs | мн.им | множественное число абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения) |
| pl.erg | мн.эрг | множественное число эргативного аргумента (= переходного подлежащего) |
| pl.io | мн.косв | множественное число косвенного объекта |
| rfl.abs | возвр.им | рефлексивный (возвратный) абсолютивный аргумент |
| rfl.io | возвр.косв | рефлексивный (возвратный) косвенный объект |
| rec.erg | взаим.эрг | реципрокальные (взаимно-возвратные) эргативные аргументы |
| rec.io | взаим.косв | реципрокальные (взаимно-возвратные) косвенные объекты |
| rel.erg | отн.эрг | относительный эргативный аргумент |
| rel.io | отн.косв | относительный косвенный объект |
| тэг | кириллический вариант | морфема | описание |
|---|---|---|---|
| ben | бен | фэ | бенефактивный аппликатив (= бенефактивная объектная версия / префиксальный потенциалис фэ-) |
| caus | кауз | каузатив (гъэ-) | |
| com | совм | комитативный аппликатив / совместность (дэ-) | |
| dat | дат | дативная (косвеннообъектная) деривация | |
| dir | напр | къэ | директив / направительный преверб (къэ-) |
| dyn | дин | динамичность | |
| genloc | щы | общий локативный аппликатив (щы-) | |
| inadv | инадв | IэкIэ | инадвертивный аппликатив / ненамеренность |
| loc | лок | один из специальных локативных аппликативов | |
| mal | мал | шIу | малефактивный аппликатив |
| opt | опт | оптатив | |
| p.1pl | п.1мн | 1 л. мн. ч. обладателя | |
| p.1sg | п.1ед | 1 л. ед. ч. обладателя | |
| p.2pl | п.2мн | 2 л. мн. ч. обладателя | |
| p.2sg | п.2ед | 2 л. ед. ч. обладателя | |
| p.3pl | п.3мн | 3 л. мн. ч. обладателя | |
| p.3sg | п.3ед | 3 л. ед. ч. обладателя | |
| p.rec | п.взаим | реципрокальные (взаимно-возвратные) обладатели | |
| p.rel | п.отн | относительный обладатель | |
| poss | посс | отторжимая посессивность | |
| rel.sub | отн.подч | относительный префикс факта / образа действия (зэрэ-) | |
| rel.tmp | отн.врем | относительный префикс времени | |
| trans | транс | ры | транслативный ‘через’ / инструментальный аппликатив |
| тэг | кириллический вариант | морфема | описание |
|---|---|---|---|
| abs | им | р | абсолютив (именительный падеж; -р) |
| abstr | абстр | суффикс абстрактных имён (-гъэ) | |
| add | и | аддитивная клитика (усилительная/соединительная частица -и) | |
| adj | отнприл | суффикс «относительных прилагательных» (-рэ) | |
| adv | обст | эу | адвербиалис (-эу) |
| apl | асс | тхэ | ассоциативное множественное число (-тхэ, -дыхэ) |
| appr | аппрехенсив 'как бы не' (-къо) | ||
| asrt | ассертив (-пэ) | ||
| aug | ауг | шхо | аугментатив ‘большой’ (-шхо) |
| aux | вспом | щты | инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.) |
| car | каритив (-нчъэ) | ||
| cond | усл | кондиционал / условное наклонение (-мэ) | |
| cont | инкорпорированный глагольный корень -лӏэ- | ||
| coord | соч | сочинительная клитика (-рэ) | |
| cs | конс1 | ти | консекутив ‘так что’ (-ти) |
| cs2 | конс2 | шъ | консекутив ‘так что’ (-шъ) |
| dificil | дифицилитив 'сложно' | ||
| down | инкорпорированный глагольный корень -хы- 'вниз' | ||
| el | кIы | инкорпорированный глагольный корень -кӏы- | |
| emp | усил | ба | эмфатическая клитика (-ба) |
| exc1 | экскл1 | интенсификатор -щэ | |
| exc2 | экскл2 | интенсификатор -ӏо | |
| facil | фацилитив 'легко' | ||
| fut | буд | будущее время (-щт) | |
| ill | хьэ | инкорпорированный глагольный корень -хьэ- | |
| imp2 | императив на орэ- | ||
| inc | инцептив (-хэ) | ||
| inch | инхоатив (-жьэ) | ||
| incorp | инкорпорированное односложное существительное или прилагательное | ||
| ins | тв | кӏэ | инструменталис |
| int1 | инт1 | интенсификатор -кӏэе | |
| int2 | инт2 | интенсификатор -бзэ | |
| int3 | инт3 | интенсификатор -е | |
| lim | лим | лимитатив ("пока") | |
| mod | мод | н | модальный суффикс / масдар |
| mult | крат | мультипликатив (у числительных) | |
| neg | отр | отрицательная форма | |
| neg_ep | эп | суффиксальное отрицание (-эп) | |
| nmlz.ag | нмз.аг | агентивная номинализация (-кӏо) | |
| nmlz.loc | нмз.лок | локативная номинализация (-пӏэ) | |
| nmlz.mnr | нмз.спос | номинализация способа (-кӏэ) | |
| nmlz.time | нмз.врем | темпоральная номинализация (-гъо) | |
| obl | эрг | косвенный падеж (эргатив) | |
| ord | пчисл | порядковое числительное | |
| pity | глагольный суффикс -гущэ часто представляется как отдельное слово 'жаль' | ||
| pl | мн | множественное число | |
| pot | пот | шъу | потенциалис |
| pred | пред | предикативная форма местоимения | |
| pst | прош | прошедшее время | |
| pst2 | дпрош | давнопрошедшее время | |
| purp | именной суффикс -хьа | ||
| q | вопр | вопросительная частица | |
| re | ре | жьы | реверсив/рефактив ‘назад, снова’ |
| seem | глагольный корень 'казаться' | ||
| sg | ед | единственное число | |
| sim | одновр | одновременность | |
| up | инкорпорированный глагольный корень -е- 'вверх' |
| тэг | кириллический вариант | описание |
|---|---|---|
| abbr | аббревиатура | |
| alt_stem | чередование (а/э) в корне или префиксе | |
| alt_stem1 | чередование (а/э) в первом слоге от конца корня | |
| alt_stem2 | чередование (а/э) во втором слоге от конца корня | |
| dat_v | глагол, требующий дативной деривации | |
| dial | диалектная форма | |
| famn | фамилия | |
| geo | топоним | |
| inal | неотторжимая принадлежность | |
| intr | нпрх | непереходный глагол |
| patrn | отчество | |
| persn | личное имя | |
| rus | rus | русское заимствование |
| stat | стат | стативный глагол |
| tr | прх | переходный глагол |
Адыгейский корпус не содержит синтаксической разметки. Тем не менее, мы рекомендуем использовать возможности корпуса в отношении сочетаний слов.
Например, инструменты корпуса позволяют искать по последовательности из нескольких графических слов (слов, разделенные пробелом). Слова могут идти подряд или располагаться на некотором расстоянии друг от друга (подробнее в справке). Также полезной функцией может оказаться поиск с учётом позиции слова в предложении (подробнее в справке).
ЧастьКоран, Библия, произведения А. М. Шаззо, А. К. Матыжевой, а также тексты с сайта gshra.ru; тексты с переводом составляют 4,6% объёма всего корпуса адыгейских текстов сопровождаются русским переводом. Как правило, разработчики корпуса брали уже имеющийся перевод, хотя в ряде случаев, мы были вынужнены его отредактироватьпо большей части, редактура была связана с особенностями отображения текстов в корпусе и с форматом оригинальных текстов; разработчики не вносили в тексты содержательных изменений. В связи с этим, данный подкорпус нельзя считать параллельным корпусом в строгом смысле.
Важно, что не во всех случаях нам известно, какой из текстов – адыгейский или русский – является оригиналом, а какой – переводом. Об ошибках в подкорпусе с переводом см. раздел Ошибки в выравнивании текста и русского перевода.
Все тексты в корпусе сопровождаются метаданными – информацией об источнике и создателях этого текста. Для большинства текстов набор метаданных следующий:
В случае газет также указывается дата выпуска, а в качестве имени автора указывается название издания.
Для фольклорных текстов дополнительно указываются:
Часть текстов были получены в результате сканирования и последующего распознания с помощью программы FineReader – такие тексты имеют специальную пометку OCR.
Автоматическое распознавание может выдавать неправильные тексты – с другими последовательностями символов по сравнению с оригиналом. Хотя по большей части такие ошибки были устранены вручную, вероятность их по-прежнему велика, поэтому мы призываем пользователя обращаться с подобными текстами с повышенной аккуратностью.
Мы ищем волонтёров-носителей адыгейского языка, готовых вычитывать автоматически распознанные тексты и устранять ошибки.
Нередко адыгейское слово может иметь несколько вариантов морфологического анализа. Для конкретного словоупотребления правильным обычно является лишь один вариант разбора. Тем не менее, поскольку морфологический анализ осуществляется автоматически, в корпусе остаются все возможные варианты.
Неправильный разбор может иметь две причины.
Во-первых, может быть неправильно подобрана лемма (словарная единица, используемая для анализа).
Во-вторых, морфологический анализ – разбор на аффиксы и корень – может быть проведён неверно. Ошибочный морфологический анализ может быть либо теоретически допустимым, либо вовсе не допустимым, отражающим ошибки в программе-анализаторе. Если вы обнаружили недопустимый анализ, мы просим сообщить об этом разработчикам.
Мы ищем волонтёров-носителей адыгейского языка, готовых снимать грамматическую омонимию – устранять заведомо неправильные варианты разбора.
Частеречная характеристика частично проставлялась автоматически – на основании русского перевода. Соответственно, не исключается неправильное присвоение части речи адыгейской словоформе
При переводе текста переводчики нередко откланяются от оригинала – иногда значительно. Ошибки, связанные с вольностью перевода, устранялись вручную и лишь частично.
Сопоставление адыгейского и русского текстов производится автоматически. Перед загрузкой в корпус тексты проверяются и корректируются, однако ошибки по-прежнему возможны. При обнаружении в текстах несоответствий, не связанных вольностью перевода, мы просим сообщать о них разработчикам.
Во многих случаях датировка текста является условной – из-за недостатка информации мы вынуждены исходить из года используемой нами публикации.