Устный корпус диалектов хакасского языка

Устный корпус диалектов
хакасского языка

Устный корпус диалектов хакасского языка содержит расшифрованные и аннотированные записи текстов, синхронизированные со звуком. Тексты записаны в XXI веке от информантов 1916-1985 гг. рождения в рамках лингвистических экспедиций из Москвы в республику Хакасия. Все тексты пофразово переведены на русский язык. Тексты были автоматически отглоссированны, после чего с помощью программы ELAN была проведена ручная коррекция глоссирования и синхронизация транскрипции текста со звуком.

Данный корпус является частью проекта по документации хакасского языка, к которому относится также «Электронный корпус хакасского языка». На сайте «Электронного корпуса хакасского языка» можно более подробно ознакомиться с целями и принципами этого проекта.

К поиску

Транскрипция

Тексты записаны в кириллице с использованием букв хакасского алфавита. Это решение обусловлено тем, что автоматический парсер, который мы использовали для анализа текстов, ориентирован на работу с литературным хакасским языком. Фонетические черты диалектов слабо отражаются в данной транскрипции, однако их морфологические и морфонологические особенности мы постарались сохранить.

Морфонология

В записи словоформ в данном корпусе в строке разбиения на морфемы лексические основы представлены в фонологической форме (т.е. в кириллической транскрипции / орфографии), а аффиксы – в морфонологической форме, объединяющей их алломорфы с регулярными чередованиями. Например, словоформа туралар ‘дома́’ в строке разбиения на морфемы имеет вид тура-ЛАр. Показатель множественного числа в хакасском языке имеет алломорфы -лар, -лер, -нар, -нер, -тар, -тер, в строке глоссирования они представлены в виде единой морфемы -ЛАр. Морфонемы, имеющие позиционные варианты, записываются заглавными буквами (в примере выше это Л и А). Прочие морфонемы записываются теми же символами, что и соответствующие фонемы (в данном примере – р).

Подробности о правилах морфонологической записи, используемой в корпусе, изложены в статье: А. В. Дыбо, Ф. С. Крылов, В. С. Мальцева, А. В. Шеймович. Сегментные правила в автоматическом парсере Корпуса хакасского языка. // Урало-алтайские исследования. № 1 (32), 2019. Стр. 48-69.

Морфонемы и фонемы

Согласные морфонемы	Гласные морфонемы
П: б/п/м	А: е/а
К: ғ/г/х/к	Ы: i/ы
Г: ғ/г/х/к/Ø	О: о/ö
Т: т/д
Д: т/д/н
С: с/з
Л: л/н/т
L: л/н
Н: н/т
Ч: ч/ҷ

Как пользоваться корпусом

Этот Корпус относится к группе корпусов, использующих поисковую платформу tsakorpus. Инструкция с описанием общих технических возможностей поиска в корпусах этого типа содержится в разделе «Справка» (кнопка с вопросительным знаком в правом верхнем углу страницы поиска). Здесь же описываются правила, специфические для данного корпуса.

Поиск точных форм («Слово»)

В этом поле можно ввести словоформы, вхождения которых вы хотите найти.

Например: ибде ‘в доме’, килген ‘(он) пришёл’.

Поиск лексем («Лемма»)

Это поле следует использовать для поиска всех форм одного слова (лексемы, леммы).

Например, если в это поле вбить слово иб ‘дом’, то в поисковой выдаче окажутся все вхождения этого существительного во всех его формах, как то: иб ‘дом’, ибні [иб-НЫ дом-Acc] ‘(вижу) дом’, ибінде [иб-(з)Ы-(н)ТА дом-3pos-Loc] ‘в его доме’ и т.д.

Леммы следует вводить в поле поиска в начальной форме, т.е. в той же форме, которая используется в хакасских словарях. Для имен (существительных, прилагательных, наречий, местоимений и числительных) начальная форма совпадает с основой (например, иб ‘дом’, сіліг ‘красивый’, ам ‘сейчас’, син ‘ты’, ікі ‘два’). Для глаголов используется форма инфинитива на -Ар-ГА, например, тоғынарға ‘работать’, килерге ‘приходить’.

Для всех форм местоимений ол ‘тот’ и пу ‘этот’ используются леммы ол и пу, хотя в словаре формы косвенных падежей (от соответствующих косвенных основ ан- ‘тот’ и мын- ‘этот’) записаны в виде отдельных лексем. Исключение составляют субстантивированные формы с показателем 3 лица посессива ан(ы)зы ‘тот (человек)’, мын(ы)зы, пунызы ‘этот (человек)’, которые мы считаем отдельными лексемами. Все формы личных местоимений одного лица и числа также относятся к одной лемме: мин ‘я’ (1sg), син ‘ты’ (2sg), олар ‘они’ (3pl) и пр.

Грамматика

Поле «Грамматика» позволяет осуществлять поиск по частям речи и грамматическим категориям. Для того, чтобы воспользоваться этим поиском, необходимо нажать на кнопку в правой части поля «Грамматика» — появится окно-подсказка, в котором можно выбрать необходимые грамматические пометы. Чтобы выбрать помету, нужно щелкнуть по ней мышкой, она станет выделенной. Чтобы отменить выбор пометы, нужно также щелкнуть по выделенной помете мышкой, и выделение уберется.

Система частей речи, используемая в Корпусе, расшифровывается в следующей таблице.

Части речи

v – глагол (в т.ч. причастие и деепричастие), полная парадигма словоизменения.

n – имя (существительное, прилагательное, местоимение, числительное, послелог), не изменяется по временам, видам и наклонениям.

Часть имен не изменяется по падежам, но спрягается (напр. осхас ‘похожий’). Сейчас эти имена не выделены нами в отдельную категорию, однако возможно, что в дальнейшем это решение изменится.

i1 – неизменяемое, к которому могут крепиться эндоклитики (в частности, частица -ох/-ӧх/-ӧк, поглощающая последнюю гласную основы). Напр., піди ‘так’. В эту категорию попадают большинство наречий, в т.ч. застывшие формы деепричастий.

i – неизменямое, к которому эндоклитики не присоединяются (частица, междометие, союз)

Показатели

Как в разделе «Грамматика», так и в разделе «Глоссы», можно искать только формы с выраженными (ненулевыми) показателями. Исключение составляет глагольная форма повелительного наклонения (единственного числа), представляющая собой чистую основу глагола. Можно найти ее, выбрав в разделе «Грамматика» значения imp и 2sg.

Показатели с цифрой 1 или 2 на конце (за исключением dur1) занимают более близкую к корню позицию, чем те же показатели без цифр, и выполняют скорее словообразовательную, а не словоизменительную функцию.

Число

Pl	ЛАр	множественное число непредиката (в т.ч. причастия в нефинитной позиции)	ирлер ‘мужчины’, парғаннарына ‘тем (из них), кто ушел’
PredPl	ЛАр	множественное число предиката	парғаннар ‘(они) ушли’

Внутренние падежи

Gen1	НЫң, ДЫң	генитив	пістіңнер ‘наши’ (субстантивированная форма)
Loc1	ТА	локатив	аалдағылар ‘те, кто (живет) в селе’

All1 и Abl1 встречаются очень редко, обычно в застывших формах в сочетании с другими падежами.

Сочетание аффиксов Gen1 и 3pos представляет собой на синхронном уровне единый кумулятивный показатель -ни (диалектный вариант -Ди), поэтому мы разделяем их не дефисом, а точкой. Пример: сілерни / сілерди ‘то, что принадлежит вам’.

Падежи

Варианты падежей с морфонемой н в скобках – это алломорфы, используемые в сочетании с показателями принадлежности единственного числа. При 1 и 2 лица посессора н опускается, при 3 лице не опускается. Показатель аккузатива при наличии посессора 3 лица использует алломорф н.

У многих падежей есть диалектные варианты. Показатели исходного и творительного падежей в некоторых из представленных говоров совпадают.

Ниже в таблице первым указывается алломорф, используемый в литературном языке в непосессивных контекстах, затем диалектные непосессивные алломорфы (если есть), затем посессивные алломорфы, начиная с литературного варианта. Примеры даны в том же порядке.

Acc	НЫ, ДЫ, н	аккузатив (винительный)	суғны / суғды ‘реку’, суғын ‘его реку’
Gen	НЫң, ДЫң, нЫң	генитив (родительный)	азахтың ‘(размер) ног/ноги’, азағының ‘(размер) его ног/ноги’
Dat	ГА, (н)А	датив (дательный)	ирге ‘мужчине’, иріме ‘моему мужу’
Loc	ТА, (н)ТА	локатив (местный)	ибде ‘в доме’, ибінде ‘в его доме’
All	САр, СА, САрЫ, (н)САр, (н)СА, (н)САрЫ	аллатив (направительный)	ибзер/ ибзері / ибзе ‘к дому’, ибінзер /ибінзері / ибінзе ‘к его дому’
Abl	ДАң, нАң	аблатив (исходный)	аалдаң / аалнаң ‘из деревни’, аалынаң ‘из его деревни’
Instr	нАң, ДАң, БАң, мАң, (н)мАң	инструменталис (творительный)	малтынаң / малтыдаң / малтыбаң / малтымаң ‘топором’, абамнаң / абаммаң ‘с моим отцом’, абазынаң / абазынмаң ‘с его отцом’
Prol	ЧА, (н)ЧА	пролатив / экватив (продольный / сравнительный)	чолӌа ‘по дороге’, соонӌа ‘следом за ним’, харысча ‘(размером) с пядь’
Delib	нАңАр, нАңАрЫ, ДАңАр, ДАңАр(Ы)	делибератив (причинный)	аннаңар ‘поэтому’, кибірлердеңері ‘об обычаях’

Показатели посессивности

Морфонема в скобках, стоящая в начале морфа, опускается после согласной (если это согласная) или после гласной (если это гласная). Морфонема в скобках, стоящая в конце морфа, опускается опционально, как правило, при сочетании показателя времени с личными окончаниями (всеми или некоторыми) в ряде говоров.

1pos.sg	(Ы)м	посессор 1 лица единственного числа (‘я’)	хызым ‘моя дочь’
1pos.pl	(Ы)ПЫс	посессор 1 лица множественного числа (‘мы’)	хызыбыс ‘наша дочь’
2pos.sg	(Ы)ң	посессор 2 лица единственного числа (‘ты’)	абаң ‘твой отец’
2pos.pl	(Ы)ңАр	посессор 2 лица множественного числа (‘вы’)	іӌеңер ‘ваша мать’
3pos	(з)Ы	посессор 3 лица (‘он’, ‘она’, ‘оно’, ‘они’)	аал пазы ‘начало деревни’
3pos1	(з)Ы	посессор 3 лица во внутренней позиции	аал пазындағылар ‘те, кто (живет) в начале деревни’

Вид

В хакасском языке значения вида и времени часто совмещены в одной морфеме. Здесь в категорию вида выделены те морфемы, после которых может следовать другая морфема с временным или видо-временным значением (к которым мы относим также деепричастные показатели).

Perf	(Ы)бЫс	перфектив	парыбысхан ‘ушел’
Perf0	(Ы)с	перфектив в сочетании с частицей	чоохтаныпласчам ‘заговариваю то и дело’
Prosp.dial	АК, иК	проспектив (диалектная форма)	парахча ‘собирается уходить’
Dur	чАт	дуратив	полчатсын ‘пусть он будет’
Dur1	А(р), и(р), ит	дуратив / настоящее время для глаголов парарға ‘идти’, килерге ‘приходить’	кили ‘идет сюда (сейчас)’
Iter	АдЫр, идЫр	итератив / настоящее время	тидірлер ‘поговаривают’, чидірген ‘поедал’

Время/наклонение

RPast	ТЫ	недавно прошедшее время	килді ‘пришел (недавно)’
Pres	чА	настоящее время	узупча ‘спит’
Indir	ТЫр	эвиденциалис (заглазное действие)	партыр ‘он шел (говорят)’
Evid	осхас	заглазное действие (аналитическая форма)	тіпчен осхас ‘говорит (при пересказе слов того, кого говорящий не слышал)’
Affirm	ЧЫК	аффирматив, сослагательное наклонение и др.значения	парарӌых ‘пошёл бы’
Imp		императив; имеет собственную парадигму личных окончаний	ат ‘стреляй’, парим ‘пусть я пойду’
Cond	СА	кондиционалис (условное наклонение)	чатса ‘если лежит’
Opt	ГАй	оптатив (желательное наклонение)	халғай ‘пусть останется’
Simul	(А)АчЫК	симулятив (притворяться совершающим действие); данный аффикс превращает глагол в имя, которое не может употребляться самостоятельно в позиции предиката	талаачых ‘притворяющийся теряющим сознание’

Причастия

Мы не проводим разграничения между причастной и финитной формой с одинаковыми показателями, как это часто делают в описаниях тюркских языков. Т.е., например, словоформа одырған употребляется и в финитных контекстах (‘сидел’), и в нефинитных (‘сидевший’). Мы выделяем в ней единый показатель прошедшего времени -ған, однако многие исследователи видят в этом омонимию финитной формы прошедшего времени и формы причастия прошедшего времени.

Past	ГАн	прошедшее время	одырған ‘сидел’
PresPt	чАн	причастие настоящего времени (диалектная форма)	хомай чуртапчан кізілер ‘плохо живущие люди’
PresPt1	ин	причастие настоящего времени для глаголов пар ‘идти’ и кил ‘прийти’ (диалектная форма)	сӱр парин остар ‘гонят (как сейчас)’
Fut	А(р), и(р)	будущее время	килер ‘придёт’
Neg.Fut	ПАс	отрицательное будущее	килбес ‘не придёт’
Hab	ЧА(ң)	хабитуалис (обычное действие в прошедшем (финитное употребление) или настоящем (причастное употребление) времени)	тоғынӌаң ‘работал (обычно)’
Assum	ГАдАГ	ассумптив («похоже, что…»)	хайтпаадағ ‘не случится (скорее всего)’
Cunc	ГАлАК	кунктатив («еще не…»)	пысхалах ‘еще не созрел’

Деепричастие

ConvP	(Ы)п	деепричастие последовательного действия	алып алып, парыбысхан ‘купив, уехал’
ConvA	А, и	деепричастия одновременного действия	чара парарға ‘отделяясь, уходить’
Neg.Conv	Пи(н), ПААн	отрицательное деепричастие	хурғатпин тартырарға ‘не высушивая молоть’

Личные окончания

1sg	(Ы)м, СЫм, ПЫн, им	1 лицо единственного числа	парам ‘я пойду’
1pl	ПЫс, иБЫс	1 лицо множественного числа	парарбыс ‘мы пойдём’
2sg	(Ы)ң, СЫң	2 лицо единственного числа	парғаң ‘ты пошёл’
2pl	ңар, САр, (Ы)ңАр	2 лицо множественного числа	парғазар ‘вы пошли’
3	Ø, СЫн	3 лицо (маркированная форма только в императиве, нуль невозможно отличить автоматически от отсутствия категории в словоформе)	ползын ‘пусть (он) будет’
1.incl	Аң	императив инклюзивный единственного числа («я и ты»)	параң ‘пойдём!’
1pl.incl	АңАр, АлАр	императив инклюзивный множественного числа («я и вы»)	параңар / паралар ‘пойдёмте’

Отрицание

Neg

ПА

отрицание

парба ‘не уходи’

Прочее

Distr	(К)лА	дистрибутив	тастағлаабыс ‘мы бросали (много чего)’
NF	Ø / (Ы)п	основообразующий показатель на основе деепричастия ConvP, присутствующий в ряде синтетических и аналитических форм	пар-Ø-ча ‘идет’, сана-п-ча ‘считает’
NF.Neg	Пи(н), ПААн	основообразующий показатель на основе отрицательного деепричастия, присутствующий в ряде синтетических и аналитических форм	парбинча / парбиӌа / парбаанча ‘не идет’
Compl	тіп	комлементайзер (аналитическая конструкция)	парғам чаблах одалирға тіп ‘я пошла (,чтобы) картошку копать’

Словообразование

Мы не отделяем словообразовательные показатели от основы дефисом (а отделяем точкой в строке глоссирования), поэтому их можно найти только поиском по разделу «Грамматика».

Именное словообразование

Attr	КЫ	аттрибутивизатор (именных локативных и временных форм)	аалдағы ‘находящийся в деревне’, пурунғы ‘прежний’
Adv	Ли	адъективизатор	полосали ‘полосами’
Comit	ЛЫГ	комитатив («вместе с…», «имея…»)	тадылығ ‘вкусный’, аттығ ‘конный, на коне’
Dimin	(Ы)ӌАК	диминутив	хызыӌах ‘девочка’

Словообразование числительных

Coll	ОлАң, АлАң	собирательное числительное	ікӧлең / ікелең ‘вдвоём’
Distr	Ар	разделительное числительное	пизер ‘по пять’

Словообразование глагола (залоги)

Caus	т, тЫр	каузатив (также используется как пассив)	пастыртхан ‘пустить шагом (коня)’
Pass	(Ы)л	пассив	салылған ‘положенный (куда-то)’
Refl	(Ы)н	рефлексив	кӧрінче ‘виднеется’
Rec	(Ы)с	реципрок	ылғазып ‘плача вместе’

Частицы

Большинство частиц-эндоклитик считаются в хакасской традиции отдельными лексемами, хотя многие из них имеют позиционные варианты, распределенные по тем же морфонологическим правилам, что и аффиксы. Некоторые из этих частиц употребляются также в качестве энклитик, вставляясь внутрь словоформы в местах диахронических склеек (во-первых, после бывшего показателя деепричастия, во-вторых, перед личными окончаниями – последние грамматикализовались из конструкций с личными местоимениями в древнетюркском языке).

Q	па, пе, ма, ме, ба, бе	частица общего вопроса	парған ма? ‘пришел?’
qpart	чи	вопросительное слово	а тігілер чи? ‘а те что?’
Foc	ТЫр	фокусная частица	адың кемдір? ‘как твое имя?’
Emph	за, зе, нооза, нізе и др.	эмфатическая частица	ылғапча нізе ‘плачет ведь’
Confpart	ізе	частица подтверждения	ізе тіпче ‘«да», говорит’
Indef	ТА, тА	частица, образующая неопределенные местоимения	хайдағ-да / хайдағ-та ‘какой-то’
Ass	ОК	ассоциатив («тоже», «же» и т.п.)	парохтар ‘тоже имеются’
Cont	LA	континуатив («только и делает, что…»)	хырарлача ‘так и краснеет’
Add	ТАА	аддитивная частица («даже», «и… и…» / «ни… ни…» и т.п.)	мин дее ‘даже я’
Prec	ТАК	прекативная частица (в некоторых диалектах – вежливая просьба)	пирдек ‘дай-ка; дай, пожалуйста’
Magn	редупликация первого слога (CV / V) + -п	большая степень признака прилагательных и наречий	тап-тадылығ ‘очень вкусный’

Глоссы

Поиск по глоссам позволяет создавать запросы, касающиеся морфемной структуры словоформ. В целом этот способ поиска открывает примерно те же возможности, что и поиск по грамматике. В частности, во всплывающем окне, вызываемом кнопкой рядом с полем «глоссы», приводится почти тот же список показателей, что и при поиске по грамматике.

Общие принципы работы поиска по глоссам и основные отличия такого поиска от поиска по грамматике приводятся в разделе «Справка» (кнопка с вопросительным знаком в правом верхнем углу страницы поиска). Здесь дополнительно перечисляются особенности поиска по глоссам, специфические для данного корпуса.

Все диалектные показатели помечены пометой .dial. Это касается как вариантов морфем (Acc.dial), так и показателей, отсутствующих в литературном языке (Prosp.dial).

При поиске по глоссам не находятся такие словоформы, при глоссировании которых релевантные части словоформ не членятся на морфемы. Например, словоформа дательного падежа местоимения син ‘ты’ выглядит как сегее / сағаа / сее, не членится на морфемы и глоссируется целиком как “ты.Dat”. Эта словоформа попадает в выдачу по грамматическому запросу «dat», но при поиске по глоссам она не попадает в выдачу по запросу «STEM-DAT».

При записи формул строения словоформ можно воспользоваться такими элементами, как CASE, CASE1, POSS, PRTCP, CONV, PERSON. Каждый из них соответствует не конкретной морфеме, а группе морфем. CASE — любой показатель падежа, CASE1 — любой показатель падежа во внутренней позиции, POSS — любой притяжательный показатель, PRTCP — любой показатель причастия, CONV — любой показатель деепричастия, PERSON — любой личный показатель.

Состав корпуса

На данный момент в корпусе представлены:

- 23 текста на аскизском говоре сагайского диалекта, собранные в с. Казановка в 2001-2002 гг. в рамках экспедиции Российского государственного гуманитарного университета под руководством Нины Романовны Сумбатовой. Объем корпуса – 13 тыс. слов, длительность записи 2 ч. 18 мин.

- 27 текстов на бельтырском диалекте, собранные в 2011 г. в сс. Бутрахты, Чиланы, Карагай Э.В. Султрековой (Кыржинаковой) и А.В. Дыбо. Объем корпуса 45 тыс. слов, длительность 9 ч. 22 мин.

Корпус будет пополняться текстами на других диалектах хакасского языка (качинском, кызыльском, шорском).

Создатели

Тексты были подготовлены к публикации в виде корпуса в 2017 г. Исполнитель проекта – Вера Сергеевна Мальцева.

Проект Устного корпуса диалектов хакасского языка поддерживается Международной лабораторией языковой конвергенции Высшей Школы Экономики. Корпус создан в рамках Программы фундаментальных исследований Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) и с использованием средств субсидии в рамках государственной поддержки ведущих университетов Российской Федерации «5-100».

Этот проект является частью более общего проекта по описанию хакасского языка http://khakas.altaica.ru. В нем принимают участие:

Анна Владимировна Дыбо – руководство проектом, создание автоматического парсера (содержательная часть)
Эльвира Валериевна Султрекова (Кыржинакова) – расшифровка и перевод большинства текстов (тексты из дер. Казановка 2001-2002 гг. в основном расшифрованы и переведены участниками экспедиций РГГУ при помощи жителей деревни)
Александра Валерьевна Шеймович – словарь (создание электронного словаря хакасского языка в системе Starling на основе Хакасского-русского словаря под ред. О.В. Субраковой (Новосибирск, 2006, ок. 22 тыс. слов))
Филипп Сергеевич Крылов – создание автоматического парсера (техническая часть)
Вера Сергеевна Мальцева – создание автоматического парсера (содержательная часть), обработка текстов в программе ELAN (разметка звука, коррекция глоссировки после автоматического парсирования)
Елена Валерьевна Тенькова – написание и поддержка макроса для записи результатов автоматического парсирования текстов в программу ELAN

Контакты

По содержательным вопросам:
Вера Сергеевна Мальцева: malt.wh@gmail.com

По техническим вопросам:
Елена Олеговна Сокур: elena.o.sokur@gmail.com

Как процитировать корпус

Если Вы используете данные Корпуса в своём исследовании, воспользуйтесь следующей ссылкой:

Вера Мальцева, Елена Сокур. Устный корпус диалектов хакасского языка. М.: ИЯз РАН; М.: Международная лаборатория языковой конвергенции, НИУ ВШЭ. (Доступно онлайн по адресу: https://lingconlab.ru/spoken_khakas/, дата обращения .)