RU  |  EN  | 

Устный корпус башкирского языка
дер. Рахметово и с. Баимово



Корпус содержит устные тексты на башкирском языке. Тексты были записаны в 2011–2017 гг. в дер. Рахметово и с. Баимово Абзелиловского р-на респ. Башкортостан. Эти населенные пункты относятся к зоне распространения кубалякского говора башкирского языка, принадлежащего к юго-восточной группе восточных говоров башкирского языка (с некоторыми чертами южных говоров). В целом тексты корпуса близки к литературному башкирскому языку, но имеют некоторые диалектные черты на уровне фонетики и морфонологии.


К поиску


Транслитерация

Тексты Устного корпуса башкирского языка записаны расширенной латиницей. Используемая система сочетает черты транслитерации (то есть ориентирована на башкирскую кириллическую орфографию) и транскрипции. Соответствия между башкирской орфографией и используемой системой записи представлены в таблице.

ОрфографияТранслитерацияКомментарий Пример
аaағас = aɣas ‘дерево’
бbбай = baj ‘rich’
вw или vw в исконных словах и арабских заимствованиях, v в русских заимствованиях (в соответствии с произношением)ваҡыт = waqət ‘время’; вагон = vagon ‘вагон’
гgиген = igen ‘зерно’
ғɣағас = aɣas ‘дерево’
дdдуҫ = duθ ‘друг’
ҙðҙур = ður ‘большой’
еe или jee в большинстве случаев; je в начале слова (также в редких случаях в русских заимствованиях после гласной)ете = jete ‘семь’
ёyoтолько в русских заимствованиях (y обозначается мягкость согласного)самолёт = samolyot ‘самолёт’
жžхужа = xuža ‘хозяин’
зzзыян = zəjan ‘ущерб’
иiинеү = inew ‘входить’
йjйомортҡа = jomortqa ‘яйцо’
кkкеше = keše ‘человек’
ҡqҡала = qala ‘город’
лlләкин = läkin ‘но’
мmмай = maj ‘масло’
нnнисек = nisek ‘как’
ңŋтыңлау = təŋlaw ‘слушать’
оoоҙон = oðon ‘длинный’
ңŋтыңлау = təŋlaw ‘слушать’
өöөй = öj ‘дом’
пpҡапыл = qapəl ‘вдруг’
рrриза = riza ‘согласен’
сsсығыу = səɣəw ‘выходить’
ҫθүҫеү = üθew ‘расти’
тtтороу = torow ‘стоять’
уu или ww после гласных, u в остальных случаяхҡунаҡ = qunaq ‘гость’; баҫыу = baθəw ‘поле’; ауыл = awəl ‘деревня’
үü или ww после гласных, ü в остальных случаяхүҫеү = üθew ‘расти’
фfкартуф = kartuf ‘картошка’
хxхәҙер = xäðer ‘сейчас’
һhһыу = həw ‘вода’
цcв русских заимствованияхнация = nacija ‘нация’
чčУчалы = Učalə ‘Учалы’
шšйәш = jäš ‘возраст’
щščв русских заимствованияхучилище = učilišče ‘училище’
ъ()имеет разделительную функциюдонъя = donja ‘мир’
ыəNB: не путать с буквой башкирского алфавита (ә)быяла = bəjala ‘стекло’
ьʔ или yʔ в башкирских словах, где ь обозначает гортанную смычку; y в русских заимствованиях, где ь обозначает мягкость предшествующего согласногоҠөрьән = Qörʔän ‘Коран’; февраль = fevraly ‘февраль’
эeтолько в начале словаэсеү = esew ‘пить’
әäбүләк = büläk ‘подарок’
юju или jüju или jü в соответствии с произношением (слова переднего или заднего ряда сингармонизма); теоретически должно быть yu в тех русских заимствованиях, где ю обозначает мягкость предшествующего согласных (в текстах не зафиксировано)юл = jul ‘дорога’; юкә = jükä ‘липа’
яja или yaобычно ja; ya только в тех русских заимствованиях, где я обозначает мягкость предшествующего согласногояпраҡ = japraq ‘лист’; сентябрь = sentyabry ‘сентябрь’

Фрагменты записанных текстов, в которых произносятся русские слова без каких-либо признаков фонетической или грамматической адаптации, трактовались как случаи переключения кода и отображались в текстах корпуса при помощи кириллицы. В ряде случаев переключение происходит внутри единого высказывания, ср. Məna šulaj itep jäšänek... труд... труд кормил... труд кормил... məna šulaj buldə. ‘Вот так вот мы жили... труд... труд кормил... труд кормил... вот так было’.


Как пользоваться корпусом

В этом разделе описываются инструкции по поиску в Устном корпусе башкирского языка дер. Рахметово и с. Баимово (далее Корпус). Этот Корпус относится к группе корпусов, использующих поисковую платформу tsakorpus. Инструкция с описанием общих технических возможностей поиска в корпусах этого типа содержится в разделе «Справка» (кнопка с вопросительным знаком в правом верхнем углу страницы поиска). Здесь же описываются правила, специфические для данного Корпуса.

На основной странице поиска появляется форма с полями «Слово», «Лемма», «Грамматика» и «Глоссы».


Основные возможности поиска

Поиск точных форм («Слово»)

В этом поле можно ввести словоформы, вхождения которых вы хотите найти. Следует помнить, что башкирские тексты записаны в корпусе в транслитерации. Например, для поиска всех вхождений формы местного падежа мәктәптә ‘в школе’ существительного мәктәп ‘школа’ нужно задать в поле «Слово» словоформу mäktäptä.

Особым образом записаны формы императива (повелительного наклонения): в них после основы (но до личного показателя 2-го лица множественного числа) использован символ Ø, как в следующих примерах:

Запись в корпусеОрфографическая записьЗапись с разбиением на морфемыГлоссыПеревод
qaraØҡараqara-Øwatch-IMP‘смотри’
səɣØəɣəðсығығыҙsəɣ-Ø-əɣəðgo.out-IMP-2PL‘выходите’

Об использовании регулярных выражений и других возможностях поиска по слову см. раздел Справка.


Поиск лексем («Лемма»)

Это поле следует использовать для поиска всех форм одного слова (лексемы, леммы). Например, если в это поле вбить слово mäktäp (мәктәп в орфографической записи, ‘школа’), то в поисковой выдаче окажутся все вхождения этого существительного во всех его формах, например, mäktäp ‘школа’, mäktäpte [mäktäp-te, школа-ACC] ‘школу’, mäktäb-e-ndä [mäktäbendä, школа-P.3-LOC] ‘в его школе’ и т.д.

Леммы следует вводить в поле поиска в начальной форме, т.е. в той же форме, которая обычно используется в башкирских словарях. Для существительных, прилагательных, наречий, местоимений и числительных выбор начальной формы не вызывает сложностей (например, öj ‘дом’, bäläkäj ‘маленький’, xäðer ‘сейчас’, hin ‘ты’, ike ‘два’). Для глаголов в соответствии с традицией используется форма номинализации на –w, например, ešläw ‘работать’, aləw ‘брать’ и т.д.

В Корпусе не проводится различие между словоизменением и словообразованием. В частности, формы, построенные по регулярным словообразовательным моделям, воспринимаются Корпусом как формы производящих лемм. Например, глагол, который в словарях трактуется как лексема eserew ‘поить’, для Корпуса является формой каузатива от глагола esew ‘пить’. Как следствие, по запросу eserew в поле «Лемма» Корпус не выдаст результатов, а по запросу esew будут показаны как формы без показателя каузатива (например, esä ‘пьет’), так и формы с показателем каузатива (например, eserergä ‘чтобы напоить’ и т.д.). Чтобы получить только каузативные формы, можно сузить запрос, воспользовавшись полями «Грамматика» или «Глоссы». Аналогичные решения приняты и для многих других словообразовательных процессов (см. раздел «Грамматика»).

Для записываемых в виде отдельного слова энклитик («частиц»), имеющих алломорфы, определяемые морфонологическими правилами, в качестве основных принимаются варианты la (‘же’; по этому запросу будут найдены и все остальные варианты – da, ða, ta, lä и т.д.) и ɣəna (‘только’; по этому запросу будут получены и варианты genä, qəna и kenä).

Для нерегулярных глагольных форм ine, ikän и ihä (грамматикализованные формы глагола ‘быть’) единая лемма не постулируется.


Грамматика

Поле «Грамматика» позволяет осуществлять поиск по частям речи и грамматическим категориям. Для того, чтобы воспользоваться этим поиском, необходимо нажать на кнопку в правой части поля «Грамматика» — появится окно-подсказка, в котором можно выбрать необходимые грамматические пометы.

Система частей речи, используемая в Корпусе, расшифровывается в следующей таблице.

Условное обозначениеРасшифровкаКомментарий
nсуществительное
vглаголВключая bar ‘имеется’.
adjприлагательноеСюда помещены многие слова, которые в зависимости от контекста могут интерпретироваться как прилагательные или как наречия, например šəm ‘тихий’ или ‘тихо’.
advнаречиеВ основном сюда причислены слова, которые не могут использоваться как прилагательные, например qapəl ‘вдруг’.
numчислительное
pronместоимение
postпослелогКак собственно послелоги Корпус воспринимает только неизменяемые послелоги типа menän ‘с’, həmaq ‘как’. Отыменные послелоги, имеющие в своем составе падежные показатели, анализируются как косвенные формы существительных (например, ald-ə-nda [передняя.часть-P.3-LOC] ‘перед’).
conjсоюзКак собственно союзы Корпус воспринимает только неизменяемые союзы типа läkin ‘но’. Отглагольные союзы tip и tigän воспринимаются как формы глагола tiew ‘говорить’.
partчастицаВ эту категорию попадают те энклитики, которые в башкирской орфографии записываются как отдельные слова: ɣəna ‘только’, la ‘же’, laha ‘ведь’, uq ‘же, самый’.
interjмеждометиеТак интерпретируются две единицы, ej и nu.
wordдругое и неклассифицируемоеНеструктурированный класс незнаменательных единиц: äje ‘да’, məna ‘это самое’ (слово-заместитель), äjðä ‘айда, давайте’ и т.д.

В разметке Корпуса частеречные пометы (тэги) ассоциируются с первой морфемой в составе словоформы, то есть с корнем. Как следствие, словоформа целиком идентифицируется Корпусом как относящаяся к той части речи, к которой отнесен ее корень. Наличие в словоформе аффиксов, меняющих частеречные свойства, не учитываются. Например, словоформа jäšäw [жить-NMLZ] ‘жизнь’ может быть получена по запросу глагол (v), а не существительное (n), хотя по своим синтаксическим свойствам она ведет себя как существительное.

Система грамматических признаков, используемых в Корпусе, представлена в следующей таблице.

Условное обозначениеРасшифровкаОсновной (-ые) алломорф(ы) Примеры и комментарии
Число
plмножественное числоlarqəððar ‘девочки’, kitälär ‘пошли’
Падеж
unmarkedначальная форма (имени)Это немаркированная по падежу форма имен; она используется в позиции подлежащего (в функции номинатива), а также в других случаях: немаркированный объект, нереферентное определение и т.д.
accвинительныйmalajðə ‘мальчика’, ajaɣən ‘его ногу’, mine ‘меня’
genродительныйnəŋajaqtarənəŋ ‘их ног’, unəŋ ‘его’
ablисходныйnanurmandan ‘из леса’
datдательныйɣahandəqqa ‘в сундук’, uɣa ‘ему’, hatərɣa ‘(чтоб) продать’
locместныйlaqajala ‘на скале’, beððä ‘у нас’
Притяжательность
p.1sgпосессор 1л. ед.ч.mäsäjemde ‘мою маму’
p.1plпосессор 1л. мн.ч.bəðxužabəð ‘наш хозяин’
p.2sgпосессор 2л. ед.ч.ŋbaqsaŋda ‘в твоем саду’
p.2plпосессор 2л. мн.ч.ɣəðkartufəɣəððə ‘вашу картошку’
p.3посессор 3л.əaɣahə ‘его старший брат’
Наклонение
impимперативØkilØ ‘приходи’, birØegeð ‘дайте’
imp.emphэмфатический императивalØsə ‘возьми же’
hortгортативajqarajəq ‘посмотрим-ка’, äjtäjem ‘скажу-ка’
jussюссивhənithen ‘пусть сделает’
condусловное наклонениеhaeshäŋ ‘если выпьешь’
Время и финитность
pstпрошедшееaldə ‘взял’, inem ‘я был(а)’; в грамматиках «прошедшее определенное»
plpfплюсквамперфектɣajnəbarɣajnəm ‘я пошла’
pc.pstпричастие прошедшего времени ɣanonotqanmən ‘я забыл’, kilgän ‘пришедший’; в грамматиках описывается как личная форма «прошедшего неопределенного» и как причастие / номинализация
ipfvимперфективa, ješläjheŋ ‘ты работаешь’, jəja ‘собирает, собирая’; финитные и нефинитные употребления формы ipfv в грамматиках трактуются как две омонимичные формы: финитная форма настоящего времени и деепричастие на –a/-j
futбудущееasaqsəɣasaq ‘выйдет’, kiläsäkkä ‘на будущее’; может использоваться и финитно (в грамматиках «будущее определенное»), и в качестве номинализации
potпотенциалисrbarərbəð ‘мы пойдем’, ešlärgä ‘(чтоб) делать’; в грамматиках описывается как личная форма «неопределенного будущего» и как номинализация
neg.potотрицательная форма потенциалисаmaθujanmaθqa ‘(чтоб) не проснуться’; морфологически нерегулярная отрицательная форма потенциалиса
ptcp.futпричастие будущего времениahəülähe ‘который должен умереть’
cvосновное деепричастиеphaləp ‘положив’
cv.antдеепричастие предшествованияɣaskergäs ‘войдя’
cv.termпредельное деепричастиеɣansəbötkänse ‘пока не закончил’
neg.cv.attотрицательная деепричастная формаmajənsahalmajənsa ‘не добавляя’
desidдезидеративmaqsəqərqətmaqsə ‘(хотели) напугать’
Личные предикативные показатели
1sgличная форма 1л.ед.ч.mən, mitermen ‘сделаю’ buldəm ‘я был(а)’
1plличная форма 1л.мн.ч.bəð, qjabənabəð ‘надеваем’, hattəq ‘мы продавали’
2sgличная форма 2л.ед.ч.həŋ, ŋašajhəŋ ‘ты ешь’, səqtəŋmə ‘ты вышла?’
2plличная форма 2л.мн.ч.həɣəð, ɣəðhawməhəɣəð ‘здравствуйте’, birðegeð ‘вы сдали’
Отрицание
negотрицаниеmaonotmajðar ‘не забывают’
Иллокутивные маркеры
qвопросительная частицаbeläŋme ‘ты знаешь?’
Деривация существительныхэсеү = esew ‘пить’
agимя деятеляhunarsə ‘охотник’
nmlzноминализацияw, ləq, ɣəuqəw ‘учение’, jaqšələq ‘добро’, joqlaɣə (kilmäj) ‘(не хочется) спать’
poss.substбезвершинный генитивnəqəuqəwsənəqə ‘у ученика’, Räxmättekelär ‘рахметовские’
Деривация прилагательных и наречий
carкаритивhəðisemhəð ‘безымянный’
cmprсравнительная степеньraqtiðeräk ‘(по)быстрее’
similприблизительностьlajjəldaj ‘около года’
intensинтенсивностьчастичная редупликацияhap-haw ‘здоровый-прездоровый’
Деривация числительных
approxприблизительное количествоlaɣanutəðlaɣan ‘примерно 30’
collсобирательностьlapkümäkläp ‘все вместе’
distrдистрибутивarberär ‘по одному’
num.substбезвершинное числительноеawdürtäwe ‘четверо’
ordпорядковое числительноеnsəikense ‘другой, второй’
Глагольная деривация
causкаузативt, dər, r, kər, qaðjörötä ‘носит’, kilterðe ‘вернула’
passпассивl, natala ‘называется’
reflрефлексивnkejenä ‘одевается’
recpреципрокšhöjläšälär ‘разговаривают’

Примечание. По техническим причинам поиск по «грамматике» не позволяет найти слова со следующими аффиксами:

Условное обозначениеРасшифровкаОсновные алломорфы Примеры
maybeчастица неопределенностиdərbulmaɣandər ‘видимо, не было’, kemder ‘кто-то’
adjадъективаторlə, ɣəaldaɣə ‘предстоящий’, belemle ‘знающий’
advадвербиализаторsabašqortsa ‘по-башкирски’

Для того чтобы найти словоформы с этим аффиксами, можно воспользоваться поискам по глоссам.


Глоссы

Поиск по глоссам позволяет создавать запросы, касающиеся морфемной структуры словоформ. В целом этот способ поиска открывает примерно те же возможности, что и поиск по грамматике. В частности, во всплывающем окне, вызываемом кнопкой рядом с полем «глоссы», приводится почти тот же список показателей, что и при поиске по грамматике.

Общие принципы работы поиска по глоссам и основные отличия такого поиска от поиска по грамматике приводятся в разделе «Справка» (кнопка с вопросительным знаком в правом верхнем углу страницы поиска). Здесь дополнительно перечисляются особенности поиска по глоссам, специфические для данного Корпуса.

1) Используя поиск по глоссам, можно найти словоформы, содержащие некоторые морфемы, которые не позволяет искать поиск по грамматике:

Условное обозначениеРасшифровкаОсновные алломорфы Примеры
maybeчастица неопределенностиdərbulmaɣandər ‘видимо, не было’, kemder ‘кто-то’
adjадъективаторlə, ɣəaldaɣə ‘предстоящий’, belemle ‘знающий’
advадвербиализаторsabašqortsa ‘по-башкирски’

2) При поиске по глоссам не находятся такие словоформы, при глоссировании которых релевантные части словоформ не членятся на морфемы. Например, словоформа дательного падежа местоимения hin ‘ты’ выглядит как hiŋä, не членится на морфемы и глоссируется целиком как ты.DAT. Эта словоформа попадает в выдачу по грамматическому запросу «dat», но при поиске по глоссам она не попадает в выдачу по запросу «STEM-DAT».

3) При записи формул строения словоформ можно воспользоваться такими элементами, как CASE, POSS и FINIT. Каждый из них соответствует не конкретной морфеме, а группе морфем. CASE — любой показатель падежа, POSS — любой притяжательный показатель, FINIT — любой показатель финитности или нефинитности на глаголе (POT, IPFV, PC.PST, CV и т.д.). Например, по запросу STEM-PL-POSS можно найти все словоформы, где к основе присоединяется сначала показатель множественного числа, а потом какой-то показатель притяжательности (например, bala-lar-ə [ребенок-PL-P.3] ‘их дети / их ребенок / его дети / ее дети’), а по запросу STEM-POSS-PL можно найти словоформы, где показатели притяжательности и числа идут в обратном порядке (например, ataj-əm-dar [отец-P.1SG-PL] ‘мои родители’).


Перевод

При помощи этих полей возможен поиск словоформ в соответствие с русским / английским переводом соответствующих лемм. Например, по запросу «уходить» в поле «Перевод (ru)» выдаются все употребления глагола kitew, корень которого глоссируется в корпусе как «уходить». Поиск по переводу не позволяет искать русские или английские словоформы, использованные в переводах башкирских предложений. Например, при помощи этой функции нельзя найти все предложения, в переводах которых используется словоформа «ушли». Чтобы найти такие предложения, необходимо воспользоваться полнотекстовым поиском.


Дополнительные возможности поиска

Параметры поиска, связанные с говорящим, с которым записан текст, устроены по принципу выпадающих окон, в которых перечислены все встретившиеся в Корпусе значения параметров. Например, в поле «Место рождения» перечислены все места, в которых родились те говорящие, с которыми записаны тексты Корпуса.

Все остальные параметры поиска (полнотекстовый поиск, поиск предложений / слов / лексем, выбор подкорпуса, одновременное использование нескольких полей, использование поиска по нескольким словоформам и т.д.) не имеют особенностей, характерных только для башкирского Корпуса.


Состав корпуса

Общие сведения. В корпусе содержится 92 текста общей продолжительностью чуть более 5 часов, объем корпуса около 25000 слов.

Социолингвистические характеристики. Тексты корпуса были записаны от 37 носителей разных поколений, от 1928 до 2005 г.р. Распределение текстов по годам рождения носителей показано в таблице.

Год рожденияКоличество носителейПродолжительность текстов
1928–1940529
1941–1950593
1951–1960872
1961–1970842
1971–1980434
1981–190017
1991–2000413
2001–2005211

Жанровый состав. В основном в корпус входят полуспонтанные монологические тексты, незначительную долю составляют диалоги. В таблице ниже отражен жанрово-тематический состав текстов в минутах записей.

ЖанрПродолжительность текстов
Описания ритуалов, рецепты, инструкции79
(Авто)биографии72
Истории из жизни55
Легенды и сказки48
Размышления и другие ненарративные монологи29
Пересказы фильмов18
Диалоги7

Создатели

Тексты были подготовлены к публикации в виде корпуса в 2017 г. В этом гранте принимали участие:

Екатерина Сергеевна Аплонова
Мария Александровна Овсянникова
Сергей Сергеевич Сай
Анна Сергеевна Сметина

Проект Устного корпуса башкирского языка дер. Рахметово и с. Баимово поддерживается Международной лабораторией языковой конвергенции Высшей Школы Экономики. Корпус создан в рамках Программы фундаментальных исследований Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ) и с использованием средств субсидии в рамках государственной поддержки ведущих университетов Российской Федерации «5-100».

Значительная часть текстов, вошедших в корпус, были записаны и расшифрованы в 2011–2016 гг. участниками экспедиций в дер. Рахметово и с. Баимово. Эти экспедиции были организованы сотрудниками кафедры общего языкознания СПбГУ и Института лингвистических исследований РАН при поддержке Института истории, языка и литературы Уфимского научного центра РАН. Вклад в пополнение и обработку текстов корпуса внесли следующие участники экспедиций: М. А. Овсянникова, С. С. Сай, Е. С. Аплонова, А. С. Сметина, С. А. Оскольская, В. А. Генералова, А. В. Выдрина, Е. Н. Сергеева, Д. Ф. Мищенко, О. В. Кузнецова, А. А. Горлова, М. Л. Федотов, Е. В. Перехвальская, М. Д. Балтайс, Е. А. Ромицына, С. А. Павлова, К. А. Байда (Иванова), Р. В. Ронько, А. М. Севастьянова (Шестакова), М. А. Горшкова, И. К. Учитель, Е. В. Востокова.

Помощь в расшифровке текстов оказали жители дер. Рахметово и с. Баимово, прежде всего Г. Р. Гирфанова, Р. С. Магасумова, М. Ф. Сафиуллина, З. Х. Валиева, М. Т. Сунагатова, Р. Р. Гирфанова, Д. Ф. Ахметова, И. М. Галимова, И. М. Галимова, М. М. Ахмадеева, Р. Х. Ахмадеева, Н. К. Гайсина.

Создание Корпуса было бы невозможным без участия сотрудников Отдела языкознания Института истории, языка и литературы Уфимского центра РАН, прежде всего Ф. Г. Хисамитдиновой, Р. А. Сулеймановой, Р. Т. Муратовой, Л. К. Ишкильдиной, Г. Р. Каримовой и Р. Н. Каримовой, которые оказывали постоянную организационную поддержку участникам экспедиций, помогали им в расшифровке текстов и консультировали по вопросам башкирской грамматики и диалектологии.



Контакты

По содержательным вопросам:
Мария Александровна Овсянникова: masha.ovsjannikova@gmail.com
Сергей Сергеевич Сай: serjozhka@yahoo.com

По техническим вопросам:
Елена Олеговна Сокур: elena.o.sokur@gmail.com


Как процитировать корпус

Если Вы используете данные Корпуса в своём исследовании, воспользуйтесь следующей ссылкой:

Мария Овсянникова, Сергей Сай, Екатерина Аплонова, Анна Сметина, Елена Сокур. Устный корпус башкирского языка дер. Рахметова и с. Баимово. 2017. СПб.: ИЛИ РАН; М.: Международная лаборатория языковой конвергенции, НИУ ВШЭ. (Доступно онлайн по адресу: https://lingconlab.ru/spoken_bashkir/, дата обращения .)