Устный корпус диалектов хакасского языка содержит расшифрованные и аннотированные записи текстов, синхронизированные со звуком. Тексты записаны в XXI веке от информантов 1916-1985 гг. рождения в рамках лингвистических экспедиций из Москвы в республику Хакасия. Все тексты пофразово переведены на русский язык. Тексты были автоматически отглоссированны, после чего с помощью программы ELAN была проведена ручная коррекция глоссирования и синхронизация транскрипции текста со звуком.
Данный корпус является частью проекта по документации хакасского языка, к которому относится также «Электронный корпус хакасского языка». На сайте «Электронного корпуса хакасского языка» можно более подробно ознакомиться с целями и принципами этого проекта.
Тексты записаны в кириллице с использованием букв хакасского алфавита. Это решение обусловлено тем, что автоматический парсер, который мы использовали для анализа текстов, ориентирован на работу с литературным хакасским языком. Фонетические черты диалектов слабо отражаются в данной транскрипции, однако их морфологические и морфонологические особенности мы постарались сохранить.
В записи словоформ в данном корпусе в строке разбиения на морфемы лексические основы представлены в фонологической форме (т.е. в кириллической транскрипции / орфографии), а аффиксы – в морфонологической форме, объединяющей их алломорфы с регулярными чередованиями. Например, словоформа туралар ‘дома́’ в строке разбиения на морфемы имеет вид тура-ЛАр. Показатель множественного числа в хакасском языке имеет алломорфы -лар, -лер, -нар, -нер, -тар, -тер, в строке глоссирования они представлены в виде единой морфемы -ЛАр. Морфонемы, имеющие позиционные варианты, записываются заглавными буквами (в примере выше это Л и А). Прочие морфонемы записываются теми же символами, что и соответствующие фонемы (в данном примере – р).
Подробности о правилах морфонологической записи, используемой в корпусе, изложены в статье: А. В. Дыбо, Ф. С. Крылов, В. С. Мальцева, А. В. Шеймович. Сегментные правила в автоматическом парсере Корпуса хакасского языка. // Урало-алтайские исследования. № 1 (32), 2019. Стр. 48-69.
Согласные морфонемы | Гласные морфонемы |
П: б/п/м | А: е/а |
К: ғ/г/х/к | Ы: i/ы |
Г: ғ/г/х/к/Ø | О: о/ö |
Т: т/д | |
Д: т/д/н | |
С: с/з | |
Л: л/н/т | |
L: л/н | |
Н: н/т | |
Ч: ч/ҷ |
Этот Корпус относится к группе корпусов, использующих поисковую платформу tsakorpus. Инструкция с описанием общих технических возможностей поиска в корпусах этого типа содержится в разделе «Справка» (кнопка с вопросительным знаком в правом верхнем углу страницы поиска). Здесь же описываются правила, специфические для данного корпуса.
В этом поле можно ввести словоформы, вхождения которых вы хотите найти.
Например: ибде ‘в доме’, килген ‘(он) пришёл’.
Это поле следует использовать для поиска всех форм одного слова (лексемы, леммы).
Например, если в это поле вбить слово иб ‘дом’, то в поисковой выдаче окажутся все вхождения этого существительного во всех его формах, как то: иб ‘дом’, ибні [иб-НЫ дом-Acc] ‘(вижу) дом’, ибінде [иб-(з)Ы-(н)ТА дом-3pos-Loc] ‘в его доме’ и т.д.
Леммы следует вводить в поле поиска в начальной форме, т.е. в той же форме, которая используется в хакасских словарях. Для имен (существительных, прилагательных, наречий, местоимений и числительных) начальная форма совпадает с основой (например, иб ‘дом’, сіліг ‘красивый’, ам ‘сейчас’, син ‘ты’, ікі ‘два’). Для глаголов используется форма инфинитива на -Ар-ГА, например, тоғынарға ‘работать’, килерге ‘приходить’.
Для всех форм местоимений ол ‘тот’ и пу ‘этот’ используются леммы ол и пу, хотя в словаре формы косвенных падежей (от соответствующих косвенных основ ан- ‘тот’ и мын- ‘этот’) записаны в виде отдельных лексем. Исключение составляют субстантивированные формы с показателем 3 лица посессива ан(ы)зы ‘тот (человек)’, мын(ы)зы, пунызы ‘этот (человек)’, которые мы считаем отдельными лексемами. Все формы личных местоимений одного лица и числа также относятся к одной лемме: мин ‘я’ (1sg), син ‘ты’ (2sg), олар ‘они’ (3pl) и пр.
Поле «Грамматика» позволяет осуществлять поиск по частям речи и грамматическим категориям. Для того, чтобы воспользоваться этим поиском, необходимо нажать на кнопку в правой части поля «Грамматика» — появится окно-подсказка, в котором можно выбрать необходимые грамматические пометы. Чтобы выбрать помету, нужно щелкнуть по ней мышкой, она станет выделенной. Чтобы отменить выбор пометы, нужно также щелкнуть по выделенной помете мышкой, и выделение уберется.
Система частей речи, используемая в Корпусе, расшифровывается в следующей таблице.
v – глагол (в т.ч. причастие и деепричастие), полная парадигма словоизменения.
n – имя (существительное, прилагательное, местоимение, числительное, послелог), не изменяется по временам, видам и наклонениям.
Часть имен не изменяется по падежам, но спрягается (напр. осхас ‘похожий’). Сейчас эти имена не выделены нами в отдельную категорию, однако возможно, что в дальнейшем это решение изменится.
i1 – неизменяемое, к которому могут крепиться эндоклитики (в частности, частица -ох/-ӧх/-ӧк, поглощающая последнюю гласную основы). Напр., піди ‘так’. В эту категорию попадают большинство наречий, в т.ч. застывшие формы деепричастий.
i – неизменямое, к которому эндоклитики не присоединяются (частица, междометие, союз)
Как в разделе «Грамматика», так и в разделе «Глоссы», можно искать только формы с выраженными (ненулевыми) показателями. Исключение составляет глагольная форма повелительного наклонения (единственного числа), представляющая собой чистую основу глагола. Можно найти ее, выбрав в разделе «Грамматика» значения imp и 2sg.
Показатели с цифрой 1 или 2 на конце (за исключением dur1) занимают более близкую к корню позицию, чем те же показатели без цифр, и выполняют скорее словообразовательную, а не словоизменительную функцию.
Pl | ЛАр | множественное число непредиката (в т.ч. причастия в нефинитной позиции) | ирлер ‘мужчины’, парғаннарына ‘тем (из них), кто ушел’ |
PredPl | ЛАр | множественное число предиката | парғаннар ‘(они) ушли’ |
Gen1 | НЫң, ДЫң | генитив | пістіңнер ‘наши’ (субстантивированная форма) |
Loc1 | ТА | локатив | аалдағылар ‘те, кто (живет) в селе’ |
All1 и Abl1 встречаются очень редко, обычно в застывших формах в сочетании с другими падежами.
Сочетание аффиксов Gen1 и 3pos представляет собой на синхронном уровне единый кумулятивный показатель -ни (диалектный вариант -Ди), поэтому мы разделяем их не дефисом, а точкой. Пример: сілерни / сілерди ‘то, что принадлежит вам’.
Варианты падежей с морфонемой н в скобках – это алломорфы, используемые в сочетании с показателями принадлежности единственного числа. При 1 и 2 лица посессора н опускается, при 3 лице не опускается. Показатель аккузатива при наличии посессора 3 лица использует алломорф н.
У многих падежей есть диалектные варианты. Показатели исходного и творительного падежей в некоторых из представленных говоров совпадают.
Ниже в таблице первым указывается алломорф, используемый в литературном языке в непосессивных контекстах, затем диалектные непосессивные алломорфы (если есть), затем посессивные алломорфы, начиная с литературного варианта. Примеры даны в том же порядке.
Acc | НЫ, ДЫ, н | аккузатив (винительный) | суғны / суғды ‘реку’, суғын ‘его реку’ |
Gen | НЫң, ДЫң, нЫң | генитив (родительный) | азахтың ‘(размер) ног/ноги’, азағының ‘(размер) его ног/ноги’ |
Dat | ГА, (н)А | датив (дательный) | ирге ‘мужчине’, иріме ‘моему мужу’ |
Loc | ТА, (н)ТА | локатив (местный) | ибде ‘в доме’, ибінде ‘в его доме’ |
All | САр, СА, САрЫ, (н)САр, (н)СА, (н)САрЫ | аллатив (направительный) | ибзер/ ибзері / ибзе ‘к дому’, ибінзер /ибінзері / ибінзе ‘к его дому’ |
Abl | ДАң, нАң | аблатив (исходный) | аалдаң / аалнаң ‘из деревни’, аалынаң ‘из его деревни’ |
Instr | нАң, ДАң, БАң, мАң, (н)мАң | инструменталис (творительный) | малтынаң / малтыдаң / малтыбаң / малтымаң ‘топором’, абамнаң / абаммаң ‘с моим отцом’, абазынаң / абазынмаң ‘с его отцом’ |
Prol | ЧА, (н)ЧА | пролатив / экватив (продольный / сравнительный) | чолӌа ‘по дороге’, соонӌа ‘следом за ним’, харысча ‘(размером) с пядь’ |
Delib | нАңАр, нАңАрЫ, ДАңАр, ДАңАр(Ы) | делибератив (причинный) | аннаңар ‘поэтому’, кибірлердеңері ‘об обычаях’ |
Морфонема в скобках, стоящая в начале морфа, опускается после согласной (если это согласная) или после гласной (если это гласная). Морфонема в скобках, стоящая в конце морфа, опускается опционально, как правило, при сочетании показателя времени с личными окончаниями (всеми или некоторыми) в ряде говоров.
1pos.sg | (Ы)м | посессор 1 лица единственного числа (‘я’) | хызым ‘моя дочь’ |
1pos.pl | (Ы)ПЫс | посессор 1 лица множественного числа (‘мы’) | хызыбыс ‘наша дочь’ |
2pos.sg | (Ы)ң | посессор 2 лица единственного числа (‘ты’) | абаң ‘твой отец’ |
2pos.pl | (Ы)ңАр | посессор 2 лица множественного числа (‘вы’) | іӌеңер ‘ваша мать’ |
3pos | (з)Ы | посессор 3 лица (‘он’, ‘она’, ‘оно’, ‘они’) | аал пазы ‘начало деревни’ |
3pos1 | (з)Ы | посессор 3 лица во внутренней позиции | аал пазындағылар ‘те, кто (живет) в начале деревни’ |
В хакасском языке значения вида и времени часто совмещены в одной морфеме. Здесь в категорию вида выделены те морфемы, после которых может следовать другая морфема с временным или видо-временным значением (к которым мы относим также деепричастные показатели).
Perf | (Ы)бЫс | перфектив | парыбысхан ‘ушел’ |
Perf0 | (Ы)с | перфектив в сочетании с частицей | чоохтаныпласчам ‘заговариваю то и дело’ |
Prosp.dial | АК, иК | проспектив (диалектная форма) | парахча ‘собирается уходить’ |
Dur | чАт | дуратив | полчатсын ‘пусть он будет’ |
Dur1 | А(р), и(р), ит | дуратив / настоящее время для глаголов парарға ‘идти’, килерге ‘приходить’ | кили ‘идет сюда (сейчас)’ |
Iter | АдЫр, идЫр | итератив / настоящее время | тидірлер ‘поговаривают’, чидірген ‘поедал’ |
RPast | ТЫ | недавно прошедшее время | килді ‘пришел (недавно)’ |
Pres | чА | настоящее время | узупча ‘спит’ |
Indir | ТЫр | эвиденциалис (заглазное действие) | партыр ‘он шел (говорят)’ |
Evid | осхас | заглазное действие (аналитическая форма) | тіпчен осхас ‘говорит (при пересказе слов того, кого говорящий не слышал)’ |
Affirm | ЧЫК | аффирматив, сослагательное наклонение и др.значения | парарӌых ‘пошёл бы’ |
Imp | императив; имеет собственную парадигму личных окончаний | ат ‘стреляй’, парим ‘пусть я пойду’ | |
Cond | СА | кондиционалис (условное наклонение) | чатса ‘если лежит’ |
Opt | ГАй | оптатив (желательное наклонение) | халғай ‘пусть останется’ |
Simul | (А)АчЫК | симулятив (притворяться совершающим действие); данный аффикс превращает глагол в имя, которое не может употребляться самостоятельно в позиции предиката | талаачых ‘притворяющийся теряющим сознание’ |
Мы не проводим разграничения между причастной и финитной формой с одинаковыми показателями, как это часто делают в описаниях тюркских языков. Т.е., например, словоформа одырған употребляется и в финитных контекстах (‘сидел’), и в нефинитных (‘сидевший’). Мы выделяем в ней единый показатель прошедшего времени -ған, однако многие исследователи видят в этом омонимию финитной формы прошедшего времени и формы причастия прошедшего времени.
Past | ГАн | прошедшее время | одырған ‘сидел’ |
PresPt | чАн | причастие настоящего времени (диалектная форма) | хомай чуртапчан кізілер ‘плохо живущие люди’ |
PresPt1 | ин | причастие настоящего времени для глаголов пар ‘идти’ и кил ‘прийти’ (диалектная форма) | сӱр парин остар ‘гонят (как сейчас)’ |
Fut | А(р), и(р) | будущее время | килер ‘придёт’ |
Neg.Fut | ПАс | отрицательное будущее | килбес ‘не придёт’ |
Hab | ЧА(ң) | хабитуалис (обычное действие в прошедшем (финитное употребление) или настоящем (причастное употребление) времени) | тоғынӌаң ‘работал (обычно)’ |
Assum | ГАдАГ | ассумптив («похоже, что…») | хайтпаадағ ‘не случится (скорее всего)’ |
Cunc | ГАлАК | кунктатив («еще не…») | пысхалах ‘еще не созрел’ |
ConvP | (Ы)п | деепричастие последовательного действия | алып алып, парыбысхан ‘купив, уехал’ |
ConvA | А, и | деепричастия одновременного действия | чара парарға ‘отделяясь, уходить’ |
Neg.Conv | Пи(н), ПААн | отрицательное деепричастие | хурғатпин тартырарға ‘не высушивая молоть’ |
1sg | (Ы)м, СЫм, ПЫн, им | 1 лицо единственного числа | парам ‘я пойду’ |
1pl | ПЫс, иБЫс | 1 лицо множественного числа | парарбыс ‘мы пойдём’ |
2sg | (Ы)ң, СЫң | 2 лицо единственного числа | парғаң ‘ты пошёл’ |
2pl | ңар, САр, (Ы)ңАр | 2 лицо множественного числа | парғазар ‘вы пошли’ |
3 | Ø, СЫн | 3 лицо (маркированная форма только в императиве, нуль невозможно отличить автоматически от отсутствия категории в словоформе) | ползын ‘пусть (он) будет’ |
1.incl | Аң | императив инклюзивный единственного числа («я и ты») | параң ‘пойдём!’ |
1pl.incl | АңАр, АлАр | императив инклюзивный множественного числа («я и вы») | параңар / паралар ‘пойдёмте’ |
Neg | ПА | отрицание | парба ‘не уходи’ |
Distr | (К)лА | дистрибутив | тастағлаабыс ‘мы бросали (много чего)’ |
NF | Ø / (Ы)п | основообразующий показатель на основе деепричастия ConvP, присутствующий в ряде синтетических и аналитических форм | пар-Ø-ча ‘идет’, сана-п-ча ‘считает’ |
NF.Neg | Пи(н), ПААн | основообразующий показатель на основе отрицательного деепричастия, присутствующий в ряде синтетических и аналитических форм | парбинча / парбиӌа / парбаанча ‘не идет’ |
Compl | тіп | комлементайзер (аналитическая конструкция) | парғам чаблах одалирға тіп ‘я пошла (,чтобы) картошку копать’ |
Мы не отделяем словообразовательные показатели от основы дефисом (а отделяем точкой в строке глоссирования), поэтому их можно найти только поиском по разделу «Грамматика».
Attr | КЫ | аттрибутивизатор (именных локативных и временных форм) | аалдағы ‘находящийся в деревне’, пурунғы ‘прежний’ |
Adv | Ли | адъективизатор | полосали ‘полосами’ |
Comit | ЛЫГ | комитатив («вместе с…», «имея…») | тадылығ ‘вкусный’, аттығ ‘конный, на коне’ |
Dimin | (Ы)ӌАК | диминутив | хызыӌах ‘девочка’ |
Coll | ОлАң, АлАң | собирательное числительное | ікӧлең / ікелең ‘вдвоём’ |
Distr | Ар | разделительное числительное | пизер ‘по пять’ |
Caus | т, тЫр | каузатив (также используется как пассив) | пастыртхан ‘пустить шагом (коня)’ |
Pass | (Ы)л | пассив | салылған ‘положенный (куда-то)’ |
Refl | (Ы)н | рефлексив | кӧрінче ‘виднеется’ |
Rec | (Ы)с | реципрок | ылғазып ‘плача вместе’ |
Большинство частиц-эндоклитик считаются в хакасской традиции отдельными лексемами, хотя многие из них имеют позиционные варианты, распределенные по тем же морфонологическим правилам, что и аффиксы. Некоторые из этих частиц употребляются также в качестве энклитик, вставляясь внутрь словоформы в местах диахронических склеек (во-первых, после бывшего показателя деепричастия, во-вторых, перед личными окончаниями – последние грамматикализовались из конструкций с личными местоимениями в древнетюркском языке).
Q | па, пе, ма, ме, ба, бе | частица общего вопроса | парған ма? ‘пришел?’ |
qpart | чи | вопросительное слово | а тігілер чи? ‘а те что?’ |
Foc | ТЫр | фокусная частица | адың кемдір? ‘как твое имя?’ |
Emph | за, зе, нооза, нізе и др. | эмфатическая частица | ылғапча нізе ‘плачет ведь’ |
Confpart | ізе | частица подтверждения | ізе тіпче ‘«да», говорит’ |
Indef | ТА, тА | частица, образующая неопределенные местоимения | хайдағ-да / хайдағ-та ‘какой-то’ |
Ass | ОК | ассоциатив («тоже», «же» и т.п.) | парохтар ‘тоже имеются’ |
Cont | LA | континуатив («только и делает, что…») | хырарлача ‘так и краснеет’ |
Add | ТАА | аддитивная частица («даже», «и… и…» / «ни… ни…» и т.п.) | мин дее ‘даже я’ |
Prec | ТАК | прекативная частица (в некоторых диалектах – вежливая просьба) | пирдек ‘дай-ка; дай, пожалуйста’ |
Magn | редупликация первого слога (CV / V) + -п | большая степень признака прилагательных и наречий | тап-тадылығ ‘очень вкусный’ |
Поиск по глоссам позволяет создавать запросы, касающиеся морфемной структуры словоформ. В целом этот способ поиска открывает примерно те же возможности, что и поиск по грамматике. В частности, во всплывающем окне, вызываемом кнопкой рядом с полем «глоссы», приводится почти тот же список показателей, что и при поиске по грамматике.
Общие принципы работы поиска по глоссам и основные отличия такого поиска от поиска по грамматике приводятся в разделе «Справка» (кнопка с вопросительным знаком в правом верхнем углу страницы поиска). Здесь дополнительно перечисляются особенности поиска по глоссам, специфические для данного корпуса.
Все диалектные показатели помечены пометой .dial. Это касается как вариантов морфем (Acc.dial), так и показателей, отсутствующих в литературном языке (Prosp.dial).
При поиске по глоссам не находятся такие словоформы, при глоссировании которых релевантные части словоформ не членятся на морфемы. Например, словоформа дательного падежа местоимения син ‘ты’ выглядит как сегее / сағаа / сее, не членится на морфемы и глоссируется целиком как “ты.Dat”. Эта словоформа попадает в выдачу по грамматическому запросу «dat», но при поиске по глоссам она не попадает в выдачу по запросу «STEM-DAT».
При записи формул строения словоформ можно воспользоваться такими элементами, как CASE, CASE1, POSS, PRTCP, CONV, PERSON. Каждый из них соответствует не конкретной морфеме, а группе морфем. CASE — любой показатель падежа, CASE1 — любой показатель падежа во внутренней позиции, POSS — любой притяжательный показатель, PRTCP — любой показатель причастия, CONV — любой показатель деепричастия, PERSON — любой личный показатель.
На данный момент в корпусе представлены:
- 23 текста на аскизском говоре сагайского диалекта, собранные в с. Казановка в 2001-2002 гг. в рамках экспедиции Российского государственного гуманитарного университета под руководством Нины Романовны Сумбатовой. Объем корпуса – 13 тыс. слов, длительность записи 2 ч. 18 мин.
- 27 текстов на бельтырском диалекте, собранные в 2011 г. в сс. Бутрахты, Чиланы, Карагай Э.В. Султрековой (Кыржинаковой) и А.В. Дыбо. Объем корпуса 45 тыс. слов, длительность 9 ч. 22 мин.
Корпус будет пополняться текстами на других диалектах хакасского языка (качинском, кызыльском, шорском).
Тексты были подготовлены к публикации в виде корпуса в 2017 г. Исполнитель проекта – Вера Сергеевна Мальцева.
Проект Устного корпуса диалектов хакасского языка поддерживается Международной лабораторией языковой конвергенции Высшей Школы Экономики. Корпус создан в рамках Программы фундаментальных исследований Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) и с использованием средств субсидии в рамках государственной поддержки ведущих университетов Российской Федерации «5-100».
Этот проект является частью более общего проекта по описанию хакасского языка http://khakas.altaica.ru. В нем принимают участие:
Анна Владимировна Дыбо – руководство проектом, создание автоматического парсера (содержательная часть)
Эльвира Валериевна Султрекова (Кыржинакова) – расшифровка и перевод большинства текстов (тексты из дер. Казановка 2001-2002 гг. в основном расшифрованы и переведены участниками экспедиций РГГУ при помощи жителей деревни)
Александра Валерьевна Шеймович – словарь (создание электронного словаря хакасского языка в системе Starling на основе Хакасского-русского словаря под ред. О.В. Субраковой (Новосибирск, 2006, ок. 22 тыс. слов))
Филипп Сергеевич Крылов – создание автоматического парсера (техническая часть)
Вера Сергеевна Мальцева – создание автоматического парсера (содержательная часть), обработка текстов в программе ELAN (разметка звука, коррекция глоссировки после автоматического парсирования)
Елена Валерьевна Тенькова – написание и поддержка макроса для записи результатов автоматического парсирования текстов в программу ELAN
По содержательным вопросам:
Вера Сергеевна Мальцева: malt.wh@gmail.com
По техническим вопросам:
Елена Олеговна Сокур: elena.o.sokur@gmail.com
Если Вы используете данные Корпуса в своём исследовании, воспользуйтесь следующей ссылкой: