Адыгейский корпус

Адыгейский корпус – собрание текстов на адыгейском языке, оснащенное грамматической разметкой и инструментами поиска. Корпус даёт возможность поиска по последовательностям букв, морфемам и их сочетаниям, по грамматической информации и русским переводам. Также корпус позволяет учитывать позицию слова в предложении, искать в подкорпусе, сохранять результаты выдачи. Доступ к полным текстам не предоставляется.

Грамматический анализ выполнен автоматически и не выверен вручную; создатели корпуса не несут ответственности за правильность всех разборов. В таблице ниже кратко представлены основные характеристики корпуса. Более подробно о составе корпуса и используемых грамматических обозначениях можно прочитать в разделе Разметка.

Объём 10,86 миллионов словоупотреблений
Тексты
  • современная пресса — 65%
  • художественная литература — 20,6%
  • фольклор — 6%
  • религиозные тексты — 3,9%
  • другие тексты — 4,5%
Разметка
  • автоматическая морфологическая разметка (лемма, часть речи, грамматические признаки), 83,5% словоформ имеют хотя бы один разборучитываются слова, не содержащие цифр и латинских символов
  • омонимия не снята
  • глоссирование
  • переводы лемм на русский язык
  • некоторые тексты тексты с переводом составляют 4,6% объёма всего корпуса сопровождаются переводом на русский язык
Метаданные
  • название текста
  • автор или название издания
  • год рождения автора
  • место рождения автора
  • диалект автора
  • год создания
  • жанр
  • дата выпуска (в случае газет)
для фольклорных текстов дополнительно указываются:
  • место записи текста
  • имя собирателя
  • дата записи

Новости корпуса

Обновлена стартовая страница сайта корпуса

6 апреля 2025