Разметка корпуса

Грамматическая информация

В корпусе реализовано два метода поиска по грамматической информации – поиск по глоссам и поиск по грамматическим тэгам. Эти методы поиска можно комбинировать.

В Адыгейском корпусе используется типологически ориентированная концепция грамматики адыгейского языка. Она разработана для удобства сравнительного изучения и описания языков. Эта концепция основывается на работах исследователей из Российского государственного гуманитарного университета и НИУ “Высшая школа экономики”. Положения этой концепции, важные для использования корпуса, изложены в (Ландер и др. 2019). Более детальное описание концепции можно найти в (Аркадьев и др. 2009). Следует учитывать, что некоторые её положения и многие обозначения уже устарели и не используются в корпусе.

Мы также постарались учесть и традиционные трактовки адыгейской грамматики – в первую очередь в условных обозначениях, которые можно использовать при поиске по грамматическим тэгам (подробнее об этом в разделе Грамматические тэги).

Глоссирование

Словоформы разбиваются на морфемы, каждой морфеме приписывается краткое условное обозначение – глосса.

В отличие от поиска по грамматическим тэгам, поиск по глоссам позволяет учитывать порядок следования глосс и находить слова, содержащие одну и ту же морфему несколько раз. Список морфем и соответствующих им глосс представлен ниже. Некоторые морфемы (аппликативы, модально-временные показатели, личные префиксы) объединены в группы – название группы можно использовать для обозначения любой глоссы из конкретной группы.

В корпусе не учитываются многие непродуктивные морфемы – в том числе такие, которые выделяются этимологически, но не используются в современном языке.

глосса описание
1PL.ABS абсолютивный префикс 1 л. мн. ч.
1PL.ERG эргативный префикс 1 л. мн. ч.
1PL.IO косвеннообъектный префикс 1 л. мн. ч.
1PL.P посессивный префикс 1 л. мн. ч.
1PL.PO
1SG.ABS абсолютивный префикс 1 л. ед. ч.
1SG.ERG эргативный префикс 1 л. ед. ч.
1SG.IO косвеннообъектный префикс 1 л. ед. ч.
1SG.P посессивный префикс 1 л. ед. ч.
1SG.PO
2PL.ABS абсолютивный префикс 2 л. мн. ч.
2PL.ERG эргативный префикс 2 л. мн. ч.
2PL.IO косвеннообъектный префикс 2 л. мн. ч.
2PL.P посессивный префикс 2 л. мн. ч.
2PL.PO
2SG.ABS абсолютивный префикс 2 л. ед. ч.
2SG.ERG эргативный префикс 2 л. ед. ч.
2SG.IO косвеннообъектный префикс 2 л. ед. ч.
2SG.P посессивный префикс 2 л. ед. ч.
2SG.PO
3PL.ERG эргативный префикс 3 л. мн. ч.
3PL.IO косвеннообъектный префикс 3 л. мн. ч.
3PL.P посессивный префикс 3 л. мн. ч.
3PL.PO
3SG.ERG эргативный префикс 3 л. ед. ч.
3SG.P посессивный префикс 3 л. ед. ч.
3SG.PO
ABS абсолютив (именительный падеж)
ABSTR суффикс абстрактных имён (-гъэ)
ADD аддитив (-и/-ри)
ADJ атрибутив (-рэ)
ADV адвербиалис
APL ассоциативное множественное число (-тхэ)
APPR аппрехенсив 'как бы не' (-къо)
ASRT ассертив (-пэ)
AUG аугментатив ‘большой’ (-шхо)
AUX инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.)
BEN бенефактивный аппликатив (фэ-)
CAR каритив (-нчъэ)
CAUS каузатив
COM комитативный аппликатив / совместность (дэ-)
COND кондиционал / условное наклонение (-мэ)
CONT инкорпорированный глагольный корень -лӏэ-
COORD сочинительная клитика -рэ
CS консекутив ‘так что’ (-ти)
CS2 консекутив ‘так что’ (-шъ)
DAT префикс дативной (косвеннообъектной) деривации
DIFICIL дифицилитив 'сложно'
DIR префикс директива (къэ-)
DOWN инкорпорированный глагольный корень -хы- 'вниз'
DYN динамический префикс или суффикс
EL инкорпорированный глагольный корень -кӏы-
EMP эмфатическая клитика -ба
EXC1 интенсификатор -щэ
EXC2 интенсификатор -ӏо
FACIL фацилитив 'легко'
FUT будущее время
GENLOC общий локативный аппликатив (щы-)
ILL инкорпорированный глагольный корень -хьэ-
IMP2 императив на орэ-
INADV инадвертивный аппликатив / ненамеренность (ӏэкӏэ-)
INC инцептив
INCH инхоатив (-жьэ)
INS инструменталис (творительный падеж)
INT1 интенсификатор -кӏэе
INT2 интенсификатор -бзэ
INT3 интенсификатор -е
LIM лимитатив ("пока")
LNK соединительная морфема при присоединении числительных
LOC специальный локативный аппликатив-преверб (кроме щы-)
MAL малефактивный аппликатив (шӏо-)
MOD модальный суффикс / масдар (-н)
MULT мультипликативный суффикс числительных
NEG отрицательный префикс или суффикс
NMLZ.AG агентивная номинализация (-кӏо)
NMLZ.LOC номинализация со значением места (-пӏэ)
NMLZ.MNR номинализация со значением способа действия (-кӏэ)
NMLZ.TIME номинализация со значением времени (-гъо)
OBL косвенный падеж (эргатив)
OBL.PL суффикс косвенного падежа (эргатива) множественного числа (-мэ)
OPT оптатив (желательное наклонение)
ORD порядковое числительное
PITY глагольный суффикс -гущэ 'жаль'
PL суффикс множественного числа
POSS посессивный префикс при отторжимой принадлежности
POT потенциалис (-шъу)
PRED предикативная форма местоимений (-ры)
PST прошедшее время
PURP именной суффикс -хьа
Q вопросительная частица (-а)
RE суффикс реверсива/рефактива ‘назад, снова’ (-жьы)
REC.ERG реципрокальный (взаимно-возвратный) префикс эргатива
REC.IO реципрокальный (взаимно-возвратный) косвеннообъектный префикс
REC.P реципрокальный (взаимно-возвратный) посессивный префикс
REL.ERG относительный префикс эргатива
REL.IO относительный косвеннообъектный префикс
REL.P относительный посессивный префикс
REL.SUB относительный префикс факта / образа действия (зэрэ-)
REL.TMP относительный префикс времени
RFL.ABS рефлексивный (возвратный) абсолютивный префикс
RFL.IO рефлексивный (возвратный) косвеннообъектный префикс
SEEM глагольный корень 'казаться'
SIM суффикс одновременности (-зэ)
TRANS транслативный ‘через’ / инструментальный аппликатив (ры-)
UP инкорпорированный глагольный корень -е- 'вверх
обозначение группы глоссы, входящие в группу
case OBL, OBL.PL, ABS, ERG, INS, ADV
oblx OBL, OBL.PL
app DAT, BEN, MAL, LOC, GENLOC, COM, INSTR, INADV
pers 1SG.ABS, 1SG.ERG, 1SG.IO, 2SG.ABS, 2SG.ERG, 2SG.IO, 3SG.ABS, 3SG.ERG, 3SG.IO, 1PL.ABS, 1PL.ERG, 1PL.IO, 2PL.ABS, 2PL.ERG, 2PL.IO, 3PL.ABS, 3PL.ERG, 3PL.IO, REL.ABS, REL.ERG, REL.IO, REC.ABS, REC.ERG, REC.IO, RFL.ABS, RFL.ERG, RFL.IO
pers.abs 1SG.ABS, 2SG.ABS, 3SG.ABS, 1PL.ABS, 2PL.ABS, 3PL.ABS, REL.ABS, REC.ABS, RFL.ABS
pers.erg 1SG.ERG, 2SG.ERG, 3SG.ERG, 1PL.ERG, 2PL.ERG, 3PL.ERG, REL.ERG, REC.ERG, RFL.ERG
pers.io 1SG.IO, 2SG.IO, 3SG.IO, 1PL.IO, 2PL.IO, 3PL.IO, REL.IO, REC.IO, RFL.IO
pers.p 1SG.P, 2SG.P, 3SG.P, 1PL.P, 2PL.P, 3PL.P, REL.P, REC.P
tense PST, PST2, FUT
sfx RE, ILL, EL, CONT
int INT1, INT2, INT3
exc EXC1, EXC2
Грамматические тэги

Каждому слову приписывается набор специальных помет — грамматических тэгов, которые обозначают его часть речи, грамматические категории, отображают наличие аффиксов и т.д. Тэги, использующиеся в корпусе, перечислены ниже.

Большинство тэгов имеет два воплощения – вариант в латинице и кириллический вариант. В отдельных случаях для поиска также можно использовать конкретный аффикс. Например, найти слова, содержащие бенефактивный аппликатив, можно тремя способами – использовав тэги "ben", "бен" или "фэ". Во всех трёх случаях результат будет одинаков. Вне зависимости от выбранного варианта тэга, вводить его нужно в поле "Грамматика".

Информация в глоссах и тэгах частично дублируется, но не полностью совпадает. Например, если префиксы выражают одновременно лицо и число субъекта, то им приписывается одна глосса (например, 1SG.ABS). Но слову с такими префиксами приписывается два грамматических тэга - один для лица (1.abs) и один для числа (1.sg).

Грамматические тэги характеризуют всю словоформу. Таким образом, при поиске по тэгам не учитывается порядок следования морфем, а некоторые тэги вовсе не соответствуют никакой морфеме (например, частеречные тэги, тэги, обозначающие переходность глагола или наличие чередования).

тэг кириллический вариант описание
A прил прилагательное
AD нар наречие
APRO мприл местоимение-прилагательное
CONJ союз союз
FORMULA форм речевая формула
N сущ существительное
NPRO мсущ местоимение-существительное
NUM числ числительное
POST посл послелог
PRO другое местоимение
V гл глагол
NtoV сущгл собственно глагольная морфология на основе существительного или прилагательного
тэг кириллический вариант описание
1.abs 1.им 1-е лицо абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
1.erg 1.эрг 1-е лицо эргативного аргумента (= переходного подлежащего)
1.io 1.косв 1-е лицо косвенного объекта
2.abs 2.им 2-е лицо абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
2.erg 2.эрг 2-е лицо эргативного аргумента (= переходного подлежащего)
2.io 2.косв 2-е лицо косвенного объекта
3.erg 3.эрг 3-е лицо эргативного аргумента (= переходного подлежащего)
3.io 3.косв 3-е лицо косвенного объекта
sg.abs ед.им единственное число абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
sg.erg ед.эрг единственное число эргативного аргумента (= переходного подлежащего)
sg.io ед.косв единственное число косвенного объекта
pl.abs мн.им множественное число абсолютивного аргумента (= непереходного подлежащего / переходного прямого дополнения)
pl.erg мн.эрг множественное число эргативного аргумента (= переходного подлежащего)
pl.io мн.косв множественное число косвенного объекта
rfl.abs возвр.им рефлексивный (возвратный) абсолютивный аргумент
rfl.io возвр.косв рефлексивный (возвратный) косвенный объект
rec.erg взаим.эрг реципрокальные (взаимно-возвратные) эргативные аргументы
rec.io взаим.косв реципрокальные (взаимно-возвратные) косвенные объекты
rel.erg отн.эрг относительный эргативный аргумент
rel.io отн.косв относительный косвенный объект
тэг кириллический вариант морфема описание
ben бен фэ бенефактивный аппликатив (= бенефактивная объектная версия / префиксальный потенциалис фэ-)
caus кауз каузатив (гъэ-)
com совм комитативный аппликатив / совместность (дэ-)
dat дат дативная (косвеннообъектная) деривация
dir напр къэ директив / направительный преверб (къэ-)
dyn дин динамичность
genloc щы общий локативный аппликатив (щы-)
inadv инадв IэкIэ инадвертивный аппликатив / ненамеренность
loc лок один из специальных локативных аппликативов
mal мал шIу малефактивный аппликатив
opt опт оптатив
p.1pl п.1мн 1 л. мн. ч. обладателя
p.1sg п.1ед 1 л. ед. ч. обладателя
p.2pl п.2мн 2 л. мн. ч. обладателя
p.2sg п.2ед 2 л. ед. ч. обладателя
p.3pl п.3мн 3 л. мн. ч. обладателя
p.3sg п.3ед 3 л. ед. ч. обладателя
p.rec п.взаим реципрокальные (взаимно-возвратные) обладатели
p.rel п.отн относительный обладатель
poss посс отторжимая посессивность
rel.sub отн.подч относительный префикс факта / образа действия (зэрэ-)
rel.tmp отн.врем относительный префикс времени
trans транс ры транслативный ‘через’ / инструментальный аппликатив
тэг кириллический вариант морфема описание
abs им р абсолютив (именительный падеж; -р)
abstr абстр суффикс абстрактных имён (-гъэ)
add и аддитивная клитика (усилительная/соединительная частица -и)
adj отнприл суффикс «относительных прилагательных» (-рэ)
adv обст эу адвербиалис (-эу)
apl асс тхэ ассоциативное множественное число (-тхэ, -дыхэ)
appr аппрехенсив 'как бы не' (-къо)
asrt ассертив (-пэ)
aug ауг шхо аугментатив ‘большой’ (-шхо)
aux вспом щты инкорпорированный вспомогательный глагол (-щты- в сочетаниях щты-гъэ, щты-н и т.д.)
car каритив (-нчъэ)
cond усл кондиционал / условное наклонение (-мэ)
cont инкорпорированный глагольный корень -лӏэ-
coord соч сочинительная клитика (-рэ)
cs конс1 ти консекутив ‘так что’ (-ти)
cs2 конс2 шъ консекутив ‘так что’ (-шъ)
dificil дифицилитив 'сложно'
down инкорпорированный глагольный корень -хы- 'вниз'
el кIы инкорпорированный глагольный корень -кӏы-
emp усил ба эмфатическая клитика (-ба)
exc1 экскл1 интенсификатор -щэ
exc2 экскл2 интенсификатор -ӏо
facil фацилитив 'легко'
fut буд будущее время (-щт)
ill хьэ инкорпорированный глагольный корень -хьэ-
imp2 императив на орэ-
inc инцептив (-хэ)
inch инхоатив (-жьэ)
incorp инкорпорированное односложное существительное или прилагательное
ins тв кӏэ инструменталис
int1 инт1 интенсификатор -кӏэе
int2 инт2 интенсификатор -бзэ
int3 инт3 интенсификатор -е
lim лим лимитатив ("пока")
mod мод н модальный суффикс / масдар
mult крат мультипликатив (у числительных)
neg отр отрицательная форма
neg_ep эп суффиксальное отрицание (-эп)
nmlz.ag нмз.аг агентивная номинализация (-кӏо)
nmlz.loc нмз.лок локативная номинализация (-пӏэ)
nmlz.mnr нмз.спос номинализация способа (-кӏэ)
nmlz.time нмз.врем темпоральная номинализация (-гъо)
obl эрг косвенный падеж (эргатив)
ord пчисл порядковое числительное
pity глагольный суффикс -гущэ часто представляется как отдельное слово 'жаль'
pl мн множественное число
pot пот шъу потенциалис
pred пред предикативная форма местоимения
pst прош прошедшее время
pst2 дпрош давнопрошедшее время
purp именной суффикс -хьа
q вопр вопросительная частица
re ре жьы реверсив/рефактив ‘назад, снова’
seem глагольный корень 'казаться'
sg ед единственное число
sim одновр одновременность
up инкорпорированный глагольный корень -е- 'вверх'
тэг кириллический вариант описание
abbr аббревиатура
alt_stem чередование (а/э) в корне или префиксе
alt_stem1 чередование (а/э) в первом слоге от конца корня
alt_stem2 чередование (а/э) во втором слоге от конца корня
dat_v глагол, требующий дативной деривации
dial диалектная форма
famn фамилия
geo топоним
inal неотторжимая принадлежность
intr нпрх непереходный глагол
patrn отчество
persn личное имя
rus rus русское заимствование
stat стат стативный глагол
tr прх переходный глагол

Синтаксическая информация

Адыгейский корпус не содержит синтаксической разметки. Тем не менее, мы рекомендуем использовать возможности корпуса в отношении сочетаний слов.

Например, инструменты корпуса позволяют искать по последовательности из нескольких графических слов (слов, разделенные пробелом). Слова могут идти подряд или располагаться на некотором расстоянии друг от друга (подробнее в справке). Также полезной функцией может оказаться поиск с учётом позиции слова в предложении (подробнее в справке).

Перевод на русский язык

ЧастьКоран, Библия, произведения А. М. Шаззо, А. К. Матыжевой, а также тексты с сайта gshra.ru; тексты с переводом составляют 4,6% объёма всего корпуса адыгейских текстов сопровождаются русским переводом. Как правило, разработчики корпуса брали уже имеющийся перевод, хотя в ряде случаев, мы были вынужнены его отредактироватьпо большей части, редактура была связана с особенностями отображения текстов в корпусе и с форматом оригинальных текстов; разработчики не вносили в тексты содержательных изменений. В связи с этим, данный подкорпус нельзя считать параллельным корпусом в строгом смысле.

Важно, что не во всех случаях нам известно, какой из текстов – адыгейский или русский – является оригиналом, а какой – переводом. Об ошибках в подкорпусе с переводом см. раздел Ошибки в выравнивании текста и русского перевода.

Прочая информация

Все тексты в корпусе сопровождаются метаданными – информацией об источнике и создателях этого текста. Для большинства текстов набор метаданных следующий:

  • название текста на русском и адыгейском
  • имя автора на русском и адыгейском
  • год рождения автора
  • место рождения автора
  • диалект автора
  • год создания текстав случае, если точный год создания не известен, при помощи параметров "год: от" и "год: до" указывается предположительный временной диапазон, в который текст был создан.
  • жанрдля классификации текстов по жанрам используются три параметра: "жанр: область", "жанр: форма" и собственно "жанр"; "жанр: область" разделяет религиозные, художественные и фольклорные произведения, прессу и тексты Википедии; "жанр: форма" – прозу, поэзию, песни и пьесы; все остальные жанровые деления указываются в параметре "жанр".
  • наличие перевода на русский язык
  • особенности источниканекоторые тексты были получены при помощи программы распознавания текста FineReader, такие тексты могут содержать ошибки, поэтому на них стоит пометка OCR
  • дата добавления текста в корпус

В случае газет также указывается дата выпуска, а в качестве имени автора указывается название издания.

Для фольклорных текстов дополнительно указываются:

  • место записи текста на русском и адыгейском
  • имя собирателя на русском и адыгейском
  • дата записи

Возможные ошибки

Ошибки в тексте

Часть текстов были получены в результате сканирования и последующего распознания с помощью программы FineReader – такие тексты имеют специальную пометку OCR.

Автоматическое распознавание может выдавать неправильные тексты – с другими последовательностями символов по сравнению с оригиналом. Хотя по большей части такие ошибки были устранены вручную, вероятность их по-прежнему велика, поэтому мы призываем пользователя обращаться с подобными текстами с повышенной аккуратностью.

Мы ищем волонтёров-носителей адыгейского языка, готовых вычитывать автоматически распознанные тексты и устранять ошибки.

Ошибки в морфологическом анализе

Нередко адыгейское слово может иметь несколько вариантов морфологического анализа. Для конкретного словоупотребления правильным обычно является лишь один вариант разбора. Тем не менее, поскольку морфологический анализ осуществляется автоматически, в корпусе остаются все возможные варианты.

Неправильный разбор может иметь две причины.

Во-первых, может быть неправильно подобрана лемма (словарная единица, используемая для анализа).

Во-вторых, морфологический анализ – разбор на аффиксы и корень – может быть проведён неверно. Ошибочный морфологический анализ может быть либо теоретически допустимым, либо вовсе не допустимым, отражающим ошибки в программе-анализаторе. Если вы обнаружили недопустимый анализ, мы просим сообщить об этом разработчикам.

Мы ищем волонтёров-носителей адыгейского языка, готовых снимать грамматическую омонимию – устранять заведомо неправильные варианты разбора.

Ошибки в частеречной характеристике

Частеречная характеристика частично проставлялась автоматически – на основании русского перевода. Соответственно, не исключается неправильное присвоение части речи адыгейской словоформе

Ошибки в выравнивании текста и русского перевода

При переводе текста переводчики нередко откланяются от оригинала – иногда значительно. Ошибки, связанные с вольностью перевода, устранялись вручную и лишь частично.

Сопоставление адыгейского и русского текстов производится автоматически. Перед загрузкой в корпус тексты проверяются и корректируются, однако ошибки по-прежнему возможны. При обнаружении в текстах несоответствий, не связанных вольностью перевода, мы просим сообщать о них разработчикам.

Ошибки в датировке текста

Во многих случаях датировка текста является условной – из-за недостатка информации мы вынуждены исходить из года используемой нами публикации.