Автор Тема: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык  (Прочитано 5699 раз)

1 Пользователь и 0 Гостей просматривают эту тему.

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Шё̄шӄуй шэ̄, чӯмӭльӄут шэ, чумыт шэ, сӱсӱгуй сэ и мн.др. – язык южных селькупов, коренных жителей Томской области - Среднего Приобья. В настоящее время носители есть в Каргасокском, Парабельском, Колпашевском, Верхнекетском и, предположительно, Александровском районе Томской области. Число носителей: до 70-80 человек. Большинство южных селькупов, а их около 1200 человек, языка не знают. В Молчановском районе (на нижнем Чулыме) у селькупов сохраняется самоназвание, тогда как местный говор вымер 50 лет назад.
Язык давно и интенсивно изучается томскими учёными, начиная с А.П. Дульзона, однако состояние языка от этого не очень-то улучшается. На кафедре языков Сибири ТГПУ хранится 80 томов южноселькупских полевых сборов, каждый по 1000 страниц, в т.ч. записи начала 50-х годов ныне вымерших крайне южных говоров.
Материалы:
http://www.twirpx.com/file/1348997/ самый полный южноселькупский словарь +диалекты Турухана и Елогуя
http://www.twirpx.com/file/1128138/ небольшой словарь, но в нём есть некоторые слова, которых нет в предыдущем словаре
http://www.twirpx.com/file/1958443/ первая часть южноселькупской морфологии (есть и вторая в томских библиотеках)
http://www.twirpx.com/file/1378871/ разговорник с грамматическим очерком
http://www.twirpx.com/file/1084188/ фольклорные тексты с построчным переводом на говорах шёшкупов и чумылькупов
http://www.twirpx.com/file/1971244/ учебник диалекта шёшкуп
http://www.twirpx.com/file/2011025/ Шё̄шӄуй букварь
http://www.twirpx.com/file/1735137/ словарь кетского диалекта
ну и ещё на том сайте можно найти

Кратко о языке (в дальнейшем всё опишу подробнее):
Обычный порядок слов SOV. Агглютинация (самодийский же). Глагол имеет субъектное и объектное спряжение. Парадигма существительных - 11-15 падежей в зависимости от локального говора. Есть (по кр.мере были) аналитические конструкции. В фонологии: есть долгие гласные (смыслоразличительная функция слабая), главная фишка консонантизма - звонкая аффриката /дж/ /җ/. Количество алфавитов языка равно количеству изданий на нём. Состояние сохранности - плохое, но на данный момент есть ~3 языковых активиста.
Ну и для начала: текст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm


P.S. Это первый пост в самодийском разделе в этом году и первая самодийская тема за год, с чем всех и поздравляю!

Оффлайн Teodor

  • Сообщений: 21
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Цитировать
текст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm
Тексты (по ссылке) очень хорошо проработаны - есть частеречная разметка (POS) селькупского оригинала и параллельный перевод, при этом 416 словоупотреблений, но написано, что можно запросить полный текст. Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему, например, в ANNIS http://corpus-tools.org/annis/.
Если имеется параллельный перевод, это позволит объективно изучить количество употреблений слов по разной тематике, перевод разнообразных конструкций. Также можно будет оценивать, в каких тематических/грамматических областях недостаёт нужной информации, запрашивать её (анкетами, почтой) и добавлять в корпус.

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
В Молчановском районе (на нижнем Чулыме) у селькупов сохраняется самоназвание, тогда как местный говор вымер 50 лет назад.
:fp: конечно же, самосознание. Чумуль ӄуланан онҗ нэп ӄадӭ сомбласару пот кве̄ссэ, най шэ̄дыт. Самоназвание чулымских селькупов тюйкум вымерло 50 лет назад вместе с языком, а вот самосознание (мы - остяки, селькупы) и отд. элементы культуры (орудия, приметы) сохраняются. Селькупы вроде остались и в Бакчарском районе (глухие лесо-болотные места в верховьях неэтимологизированных левых притоков Оби), только там никакой общественной активности нет.
Районы в википедии:
(wiki/ru) Каргасокский_район
(wiki/ru) Верхнекетский_район
(wiki/ru) Парабельский_район
(wiki/ru) Колпашевский_район
(wiki/ru) Молчановский_район
(wiki/ru) Бакчарский_район

Оффлайн Nevik Xukxo

  • Сообщений: 46638
  • Пол: Мужской
  • Унылая жизнь уныла
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Селькупский язык как группа языков? :)

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему
Сейчас я обдумываю похожий проект: неким способом собрать все ныне существующие словари и разговорники (с 19 в. до позднейших изысканий) в сводную таблицу, где каждое слово/выражение будет сцеплено со своим переводом и словарными пометами. В итоге предполагаю открыть сайт, подобный этому: http://www.speech.nw.ru/NenNgan/Dictionary/dictionary.html
где будет поле ввода, и по запросу будут показываться все возможные переводы. Проблемы здесь такие:

1. Нечёткость распознавания: ю̈̄ӭӧӱӓи̇ӭ̄ӧ̄ӱ̄ӓ̄и̇̄э̄о̄ӯа̄ӣе̄ё̄ю̄я̄ы̄ӄӈӷҗҙю̈ә Ю̈̄ӬӦӰӒИ̇Ӭ̄Ӧ̄Ӱ̄Ӓ̄И̇̄Э̄О̄ӮА̄ӢЕ̄Ё̄Ю̄Я̄Ы̄ӃӇӶҖҘЮ̈ - и что прикажете мне с этим делать?
2. Сколько изданий - столько и алфавитов. Там, где надо, как-то заменить дж на җ, ҙ на дз, ә на ӭ и т.п., чтобы унифицировать письменность.
3. отделить перевод от словарных помет и примеров употребления, чтобы на "пайдугу" находилось "вилять (хвостом)" и ничего лишнего.
4. поставить на каждый перевод помету, из какого словаря/разговорника/пособия взято
5. собственно написать такой код для сайта
Для создания такого сводного словаря в табличном и поисковом виде придётся закопаться в книжки по программированию, но я доведу эту идею до ума.

Цитировать
текст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm
Тексты (по ссылке) очень хорошо проработаны - есть частеречная разметка (POS) селькупского оригинала и параллельный перевод, при этом 416 словоупотреблений, но написано, что можно запросить полный текст. Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему, например, в ANNIS http://corpus-tools.org/annis/.
Если имеется параллельный перевод, это позволит объективно изучить количество употреблений слов по разной тематике, перевод разнообразных конструкций.
Мысль хорошая, тоже пригодится в деле возрождения языка :eat: По сути, принцип создания сводного корпуса и его возможности схожи со сводным глоссарием. Как можно убедиться, на сайте ТГПУ есть только 1 южноселькупский текст, и тот неполный. Онлайн тексты есть ещё здесь:
http://www.twirpx.com/file/1084188/ Быконя В.В. Сказки нарымских селькупов: книга для чтения на селькупском языке с переводом на русский язык
И здесь:
http://www.twirpx.com/file/2011025/ Быконя В.В., Ким А.А., Купер Ш.Ц. Шё̄шӄуй букварь для 1-го класса селькупских школ
Но с букварём есть одна загвоздка: тексты-те в нём есть, но без перевода. Есть ещё брошюра Быкони В.В. с методическими указаниями с построчным переводом каждого текста, вот где жемчуг! На неделе всенепременно возьму эту книгу в томской библиотеке и выложу на твирпкс.

Также можно будет оценивать, в каких тематических/грамматических областях недостаёт нужной информации, запрашивать её (анкетами, почтой) и добавлять в корпус.
С "запрашивать" интересная ситуация сложилась, но об этом как-нибудь потом, надо собраться с мыслями  :)

Селькупский язык как группа языков? :)
Обращаюсь ко всем: лучше не читайте статью в википедии о селькупском языке. Не воспринимайте за 100% истину хотя бы.
Единый селькупский язык распался лет 400 назад, когда козаченьки вместе с сургутскими хантами в авангарде после многих неудачных попыток разогнали местный территориально-родовой союз, вследствие чего все жители Таёжного Приобья были объясачены и чуть ли не половина селькупов ушла на север, в совр. ЯНАО, верховья Таза и Пура, места настолько глухие, что русская власть там окончательно закрепилась только к 1930-м годам, ещё небольшая группа осела на Турухане и Елогуе. Так и не стало ни языковой, ни территориальной общности селькупов. Больше они никогда не контактировали, языки разошлись далеко, северноселькупский и южноселькупский невзаимопонятны вообще, что-то распознать можно только в записанных текстах, а на слух вообще никак. Поэтому, когда вам начинают рассказывать о селькупском языке, первый вопрос: о каком? Если обо всех сразу, то вам загоняют сравнительный анализ. Даже в современном южноселькупском тьма диалектов и говоров, а 500 лет назад, пока не подпёрли тюрки с юга, существовали ещё 2 больших наречия (континуума говоров), от которых сейчас осталось маленько топонимов и всё!

Оффлайн Bhudh

  • Сообщений: 57445
  • Пол: Мужской
  • aka 蝎
    • Просмотр профиля
    • Сайты по языкознанию
    • Личное сообщение (Оффлайн)
Там, где надо, как-то заменить дж на җ, ҙ на дз
И получится хрен редьки не слаще? :what: Тут лучше делать выбор для читателя: делать текст с диграфами или с диакритиками. А в базе хранить архиграфемы.

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Там, где надо, как-то заменить дж на җ, ҙ на дз
И получится хрен редьки не слаще? :what: Тут лучше делать выбор для читателя: делать текст с диграфами или с диакритиками. А в базе хранить архиграфемы.
1. Просто җ хотя бы известна селькупам и они её хоть иногда употребляют на письме, тогда как ҙ встречается в одном словаре и для самих селькупов едва ли понятна.
2. Сама аффриката Җ ну очень частотна в языке, Ҙ, напротив, очень редка.
3. Выбор для читателя дж/җ и т.п.  - мысль хорошая, но это ещё один технический наворот, дай бог с этим всем разобраться  :eat:

Оффлайн Цитатель

  • Сообщений: 2183
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
Как можно убедиться, на сайте ТГПУ есть только 1 южноселькупский текст, и тот неполный. Онлайн тексты есть ещё здесь:

вот тут файл с полными текстами

https://www.academia.edu/3473592/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2010._V-1._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2010._Том-1

на южноселькупском там полсотни страниц аннотированных текстов.

там же еще три тома текстов, в каждом на селькупские тексты по несколько десятков страниц отведено

https://www.academia.edu/3473582/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._Tomsk._2012._V-2._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._Томск._2012._Том-2
https://www.academia.edu/8572404/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2013._V-3._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2013._Том-3
https://www.academia.edu/19866593/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2015._V-4._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2015._Том-4

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Цитатель, спасибо огромное за такую наводку!  := Есть теперь, над чем поработать! К тому же теперь ясно какой объём южноселькупских текстов из тех 80 томов обработан и оцифрован. В первом томе целиком приводится Пе̄ге кут таремба и сказка Нення ай темня, что-то подобное опубликовано в "сказках нарымских селькупов".

Перезалил 4 тома аннотированных текстов обско-енисейского языкового ареала на твирпѯ:
http://www.twirpx.com/file/2073179/ - том 1
http://www.twirpx.com/file/2073199/ - том 2
http://www.twirpx.com/file/2073198/ - том 3
http://www.twirpx.com/file/2073200/ - том 4

По прежнему не могу нарадоваться такой находке!  ;up:

Оффлайн Teodor

  • Сообщений: 21
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Цитировать
Для создания такого сводного словаря в табличном и поисковом виде придётся закопаться в книжки по программированию, но я доведу эту идею до ума.
Я уже имею опыт создания таких словарей/корпусов, обработки данных и пр., так что с радостью готов помочь :yes:. Ещё в моём распоряжении имеется сервер, на котором можно разместить проект (кроме ANNIS есть ещё много разных платформ, лучше использовать их, чем писать с нуля, т. к. там уже есть отработанные технологии поиска (AQL в ANNIS'е, например), которые были часто темами научных работ).
Аннотированные тома - шедевр! Они представлены в символьном PDF, и это очень хорошо, т. к. могут быть быстро обработаны.

Оффлайн rlode

  • Сообщений: 1384
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
А южноселькупский сейчас хоть немного жив? Я когда-то интересовался вопросом и у меня сложилось впечатление, что из селькупских живой (и то еле-еле) только северный (тазовский)

Оффлайн lammik

  • Сообщений: 3915
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
В вышедшем в 97-ом году сборнике статья о южных селькупах называлась не иначе как "В сибирской тайге умирает народ".

Цитировать
При этом существуют кардинальные различия языковой ситуации
между двумя крупными и практически полностью изолированными друг
от друга группами селькупов, которые не осознают своего этнического
единства - северной (тазовско-енисейской) и южной (тымско-нарымско-
кетско-обской) (Казакевич 1996: 208; Кузнецова, Болсуновская 1996:
262-263). Если у северных селькупов 77% населения признают селькупский
язык родным, то у южных - лишь 11%. На юге сфера употребления
селькупского языка катастрофически сужается, в семье по-селькупски
говорят между собой только представители старшего поколения, молодежь
языка не знает, дети учат его в школе как иностранный. На севере
селькупский язык функционирует в семье и в традиционной производственной
деятельности

Это цитата из статьми Н.Б. Вахтина о языковом сдвиге у КМНС.

Оффлайн rlode

  • Сообщений: 1384
  • Пол: Мужской
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
С тех пор больше 20 лет прошло

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Южноселькупский язык однозначно жив, и как минимум 3 человека знают его на таком уровне, чтобы свободно говорить и переводить. С одним таким известным носителем (Наталья Платоновна Иженбина) из Колпашевского района я разговаривал лично 3 раза в этом году. Носительница-та свободно переключается с русского языка на южноселькупский, переводит на ЮС целые тексты и отдельные слова - запросто, вот, н-р, её текст: https://www.youtube.com/watch?v=mV6fD8td_Uo. Ещё есть 2 языковых активиста в Парабельском районе, см., н-р, здесь (Ирина Петровна Коробейникова): https://www.youtube.com/watch?v=0rVmavn7TPs
Откуда взялась цифра в 40-80 носителей в стартовом топике: на основании разных, иногда с противоречивыми данными, научных статей, на основании собственных изысканий и по ощущениям самих южных селькупов (а как вы думаете, сколько человек во всех районах на разных уровнях знают язык?)
Ну и не могу не расказать такую историю. Один мой знакомый летом 2015 года был на археологических раскопках в деревне Рыбинск в среднем течении Кети. По его словам, в этой деревне живёт дедушка, который вовсю говорит на "кетском" языке, и знакомый лично слышал эту речь и она была вполне обычной. Но как узнать у нелингвиста, что язык такой "кетский"? Спросил: встречался ли в его речи звук /дж/ ? Ответ - да. Кетско-русский словарь диалекта средней Кети. Это словарь настоящего кетского языка, пошиба как раз со средней Кети, и в этом словаре я не обнаружил ни одного буквосочетания дж, ну а эта аффриката - лакмусовая бумажка южноселькупского, её любят во всех говорах, даже в тех, что уже вымерли давно. Так что - то был классный носитель кетского селькупского диалекта. Также в Катайге (верховья Кети) вроде есть 2 носителя. Не пугайтесь описанных в этой статье "ужасов", её авторы были даже не во всех посёлках по Кети и Тыму, а на Обь и левобережье и заходить не думали, хотя там ЮС язык как раз лучше сохранился (разговаривал в этом году с одним из её авторов).
Ну и в Туруханском районе местные селькупские говоры кое-как сохраняются (см. где-то здесь), а ещё 10 лет назад там фиксировались случаи русско-селькупско-какого-то трёхъязычия, а это вообще отголосок древности! У северных селькупов вообще вроде всё очень хорошо с языком, где-то читал, что в ЯНАО есть дети, для которых русский неродной, а родной селькупский, и в школу они приходят с минимальными знаниями РЯ после позднего наущения от родителей.

Я уже имею опыт создания таких словарей/корпусов, обработки данных и пр., так что с радостью готов помочь :yes:. Ещё в моём распоряжении имеется сервер, на котором можно разместить проект (кроме ANNIS есть ещё много разных платформ, лучше использовать их, чем писать с нуля, т. к. там уже есть отработанные технологии поиска (AQL в ANNIS'е, например), которые были часто темами научных работ).
Аннотированные тома - шедевр! Они представлены в символьном PDF, и это очень хорошо, т. к. могут быть быстро обработаны.
Конечно же, предложение принимается!  :UU:
Однако проблема нечёткого распознавания является главным препятствием на пути к созданию сводного корпуса и словаря. Не вычитывать же тысячи слов, я вон сегодня ма-ахонькую брошюрку вычитывать подутомился... С чего же начнём?

Также в недалёком будущем думаю поднять все материалы по саянским самодийским, и ко всем зафиксированным словам подобрать южноселькупские переводы и создать такой же электронный сводный словарь. Можно будет выявить преинтересные параллели. Это не должно быть технически сложно.
[offtop]
Ну и совсем уж потом на весь обь-енисейский ареал можно замахнуться со всеми словарями  ::) [/offtop]

Пусь кажна танэнҗат оӷолалҗэшпыгу шё̄шӄуй ай сӱсекой шэндлап, штоб табын сва̄к э̄за!
Сӱсекоп - так называли шёшкупы (колпашевские) всех остальных селькупов.

Оффлайн Teodor

  • Сообщений: 21
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
С чего же начнём?
Сейчас для начала автоматически обработал несколько предложений из первого тома, через скрипт перевёл в JSON-формат.
Лемматизацию и определение форм делаю через словарь Зализняка и/или Викисловарь. Результаты авто-обработки первого предложения в картинках прилагаются.
В принципе, отладив возможные баги, можно перевести в такой вид все четыре тома. Причём это может быть сделано за 3-4 дня.
Цитировать
Однако проблема нечёткого распознавания является главным препятствием на пути к созданию сводного корпуса и словаря.
Что касается имеющихся томов, то тут это, мне кажется, вовсе не проблема. Т. к. PDF текстовый, можно просто считать текст из PDF-клиента и загрузить в скрипт (в данном случае, в мой самописный  :)). Единственная проблема - универсализация символов, если мы хотим слить множество данных из разных источников + реализовать удобный поиск. Но тут тоже нет особенно сложных задач, главное - определить эталонные символы и разнообразные их представления в других текстах. Всё кодируется юникодом, так что заменить всё можно за пару минут. Что касается интерфейса пользователя во время поиска, то тут можно применить ту же замену в строке запроса, либо сразу предлагать воспользоваться эталонными символами.

Описание скринов:
  • Общий графический вид полученного дерева
  • Результат поиска по запросу "жить"
  • Исходный JSON-код

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Быконя В.В. В помощь учителю селькупского языка для работы по букварю (Шёшӄуй букварь). Методические указания
Методические указания содержат построчный перевод шёшкупского букваря (Шё̄шӄуй букварь) и рекомендации по его практическому применению в учебном процессе. Предназначены учителям селькупского языка в школах с преподаванием родного языка. Как букварь, так и настоящая методичка ценны исключительно как лингвистический материал (тексты на языке и построчный перевод соотв.), т.к. преподавание по шё̄шӄуй букварю в 1-ых классах не ведётся.

Очень интересное издание, методичка к самому букварю от автора, и самое главное: построчные переводы всех текстов. Когда занимался с букварём, то не все слова и конструкции смог перевести даже с несколькими словарями, такой вот разброс. Тираж 150, вчера взял в библиотеке и отсканировал. Также пригодится для электронных корпусов.

Сва̄ нагӭр. Хорошая книга/грамота.

Подсобрал все материалы, которые войдут в сводный словарь.
Словари:
1. СРДС. Селькупско-русский диалектный словарь под ред. проф. Быкони В.В. Самый полный словарь южноселькупских диалектов и диалектов Турухана и Елогуя. СРДС - как БКРЯ для китаистов, его невозможно обойти стороной. Но даже в нём нет множества тонкостей, лексем. Диалектный разброс огромен, в каждой деревне свой говор.

2. Алатало Я. Сӱ̄ссыӷӯй э̄җипсан. Қэ̄тқый қӯланни. Селькупский словарь. Кетский диалект.
3. Быконя В.В., Ким А.А., Купер Ш.Ц. Словарь селькупско-русский и русско-селькупский. Совсем небольшой словарь, но в нём есть некоторые моменты, которых нет в СРДС. Предположительно, писался для нужд шёшкупского образования (вышел также букварь, методичка к нему, учебное пособие по языку, книга для чтения).
4. Alatalo Jarmo. Sölkupisches Wörterbuch. Южноселькупско-немецкий словарь.

Разговорники:
5. Быконя В.В. Шарватпленд шёшӄуй шэндсэ! Говори по шёшкупски (русско-селькупский разговорник) с грамматикой
6. Купер Ш., Пустаи Я. Селькупский разговорник (нарымский диалект)
7.-10. Вышеуказанные тома размеченных текстов.
Завтра напишу "стародавние" словари.

Унификация символов:

ә - ӭ, ӭ̄ (соотв.)
ю̈ - ӱ
i - и̇, и̇̄
ҙ - дз
қ - ӄ
ң - ӈ
ӌ, ҷ - ч
дж - җ
По прежнему сомневаюсь в букве җ. Среди самих селькупов она слабо распространена, но звук-аффриката архичастая. Я б ввёл җ.


Начинаю разбираться с корпусами текстов (пока что был занят). Допустим, у меня есть таблица на 200 пар словоформ в ту и другую сторону в форматах docx и xlsx. Как залить такую таблицу в ANNIS или куда-л. ещё?

Описание скринов:
По-моему, несть хорошо, когда на запрос жить выдаётся форма 3 л. ед. ч. Сколько таких форм будет выдаваться в реальном сводном словаре? Варкымбалыт, варка, варкай... В готовом словаре ведь должна быть привязка к лемме, хотя примеры тоже выкидывать не надо (как в СРДС и Сӱ̄ссыӷӯй э̄җипсан. Қэ̄тқый қӯланни). Ну и такой вопрос: как создать таблицу из pdf? Просто всё перегонять в excel?

P.S. Вот как распарсен СРДС:


Оффлайн Teodor

  • Сообщений: 21
  • Пол: Мужской
    • Просмотр профиля
    • E-mail
    • Личное сообщение (Оффлайн)
Допустим, у меня есть таблица на 200 пар словоформ в ту и другую сторону в форматах docx и xlsx. Как залить такую таблицу в ANNIS или куда-л. ещё?
Собственно, пары словоформ требуются для создания словаря (электронного). А ANNIS - платформа для создания корпусов, он, скорее, даёт возможность анализа частотности, грамматики и пр. Обычно онлайн-словари как платформа создаются индивидуально, я бы взялся за это дело, т.к. могу, в принципе, уложиться в 1-2 недели, и будет готов сайт с доменом и т.д.
Если есть таблица xls, её можно перевести в базу данных SQL, например, а затем сделать интерфейс поиска. То есть сейчас можно нам заняться составлением таких xls, я их соберу и залью.
Цитировать
Ну и такой вопрос: как создать таблицу из pdf? Просто всё перегонять в excel?
Лучше, думаю, начать с тех, которые можно получить в текстовом виде, выделив (т. е. не картинка, а текст), это при помощи регулярных выражений можно обработать и представить в нужном виде (JSON, XLS etc.), но тут для каждого случая пишется индивидуальный скрипт. Если в текстовом виде получить нельзя, нужно использовать FineReader или что-то в этом роде. Но пока, как вижу, у нас ещё есть вещи, которые есть "в тексте". Сейчас поискал в гугле "конвертировать pdf в xls", не очень понимаю, о чем речь, но пока не разобрался.
Цитировать
По-моему, несть хорошо, когда на запрос жить выдаётся форма 3 л. ед. ч.
На самом деле, не выдаётся не словоформа. Это просто один из параметров под именем token. А lemma - вполне нормальный инфинитив. Дальше из селькупского analysis, наверное, надо отделить mb-a и установить инфинитивный суффикс, в таком виде будет пара (я прав?)
Если я что-то недостаточно подробно объяснил или ещё есть какие-то вопросы, прошу задавать :) А то я засыпаю

Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
Переводить pdf в xlsx умеет FineReader, только получается всякое не то (см. вложение)

из селькупского analysis, наверное, надо отделить mb-a и установить инфинитивный суффикс, в таком виде будет пара (я прав?)
Не совсем. -мб (основы на гласный), (основы на звонкий согласный), -п (основы на глухой согласный) - это суффиксы результативного прошедшего времени, т.е. такого, последствия которого актуальны для настоящего. Но эти суффиксы бывают не только в парадигме, но и в инфинитве тоже: апстыгу - накормить, апстымбугу, апстӭбугу - кормить, прокормить(ся). Также этот суффикс может и не менять семантику глагола: кодалҗугу ~ кодалҗэ(ы)мбыгу - застегнуть, закрыть на крючок, быть застёгнутым. Ну и наконец, перед показателем инфинитива -гу ~ -ку в случаях вроде варкугу может стоять ы, у, ӭ, э, они же с макроном. И если в отдельных словах словари указывают 1 вариант гласной, то в других глаголах может стоять любая из 3-4 вышеперечисленных. Не забываем, что на 5 деревень приходится 2 говора (шутка) ;up:

Существительное в южноселькупском языке (парадигмы).
Грамматический род отсутствует. Имеется 3 числа, 2 парадигмы склонения, 10-15 падежей в зависимости от конкр. говора. Показатели (суффиксы) числа вставляются между основой и падежным окончанием.
Парадигма безличного склонения (по граммат.очерку разговорника "Шарватпленд шёшӄуй шэндсэ" и "Шё̄шӄуй букварю")

Основа:на гласныйна твёрдый согласныйна мягкий согласный
родительный-т, -н-ыт, -ын-ит, -ин
винительный-п, -м-ып, -ым-ип, -им
дательно-направительный-нд, ни̇, -н-онд, -энд-ёнд
местно-временной-ӷыт-ӄыт, -о̄ӷыт, -ыт-ё̄ӷыт
местно-личный-нан-нан, -ннан
исходный-ӷындо, -нандо, -нандыкто, -нандыкти̇-ӄындо, -о̄ӷындо,
-эӷындо, -нандо, -нандыкто
-ё̄ӷындо
продолжительный-мыт, -выт-выт, -овыт-ё̄выт, -ё̄мыт
орудийно-
совместный
-зэ-сэ, -зэ-сэ, -зэ
назначительно-превратительный-тко, -ӈго-ытӄо-итӄо
лишительный-галк, -галык-галк, -галык,
-калк, -калык
-галк, -калк

Оффлайн Цитатель

  • Сообщений: 2183
    • Просмотр профиля
    • Личное сообщение (Оффлайн)
А эти тексты уже упоминались, нет?
Три шамана. Л. А. Коганова
селькупский
Лидия Александровна говорит о том, как стала в детстве свидетельницей камлания трех шаманов: кета, селькупа, эвенка.

Лабаз. Р. С. Куболев
селькупский
В Сибири лабазом называют домик на стойках, где хранятся вещи. Часто это могут быть старые, заброшенные вещи.

http://minlang.srcc.msu.ru/ru/textspage


Оффлайн Krasimir

  • Сообщений: 856
  • Нижнее Притомье
    • Просмотр профиля
    • Selkup.org
    • E-mail
    • Личное сообщение (Оффлайн)
А эти тексты уже упоминались, нет?
Три шамана. Л. А. Коганова
селькупский
http://minlang.srcc.msu.ru/ru/textspage
:stop: На этом сайте нет южноселькупских текстов. Говоры Турухана, Баихи и Елогуя относятся к северноселькупским, хотя географически они самые близкие к южному ареалу из всех северных, но контактов всё равно не было и нет почти никаких. Вот перевод начала того же текста на южноселькупский для сравнения (могу маленько перемешивать говоры, т.к. сам не натив и не селькуп :)).
Ми̇̄ Дындаӷыт варкымбавыт. Ны кет ӄуп Елогуйӷындо Дынданд тӧ̄мба. Таб Дынданд тӧ̄мба штоб ӄа̄дӭчугу. Най минан кетла варкымба. Ны Елогуйӷындо оккыр кет кадӭча тӧ̄мба. Вес кадӭчала оккыр ма̄тӄыт таӄӄылбат. Оккыр сусеӄой кадӭча, оккыр кетыль кадӭча, оккыр ӄве̄лумыль кадӭча. На̄гур кадӭчала.

Парадигма безличного склонения слов ӄуп(м) и сӯруп(м) из книги Беккер Э.Г., Алиткина Л.А., Быконя В.В., Ильяшенко И.А. Морфология селькупского языка. Южные диалекты. Часть I (оригинал приложен). В южноселькупском языке существительные с основами на -п и -м теряют этот согласный при склонении.

Говор:Ср. ОбьТымКетьВерх. Обь
родительный-ӭн
винительный-п-п
дательно-
направительный I
-нд---де
дательно-
направительный II
--ни̇-ӷэ
местно-личный-нан, -ннан--нан-нан
местно-
исходный
--нан, -ннан--
исходный-нандо,
-ннандо
--нанни̇-нанду
исходно-
продолжительный
--ут--
продолжительный-ут, -утӭ---мун, -ммун
орудийно-
совместный
-зэ-зэ-се-сэ
лишительный -галӭк-галӭк-галак -галӭк
назначительно-
превратительный
-тко-тко-ӈго-но
превратительный -вле- - -ул

Северный селькупский:
(1)Ман ни̇к тэнырпаӈ: (2) на куты ситты ӭ̄тысä мулымпа, (3) то пӯт сомаӈ мулэ̄итэнта. (4) Ны̄ны мӭный ӭ̄тым на эй сомаӈ ӱнтэ̄интыӈыт. (5) Куты ситты ӭ̄тысä мулымпылä, (6) ӄо̄ты чаӈак э̄йа. (7) Ме̄ ни̇к кӭткӧ̄мын: (8) ӄо̄ты чаӈак э̄йа. (9) Значит, сомак, сомак танымнэнта, (10) чӭк танымнэнта. (11) Ситты ӭ̄тып ӄуп ӄатамол ӱнтычэ̄ӈыты, (12) чӭӈ, ай чӭӈ ай тэныты койымӧ̄тка, (13) ӱро̄мынты койымӧ̄тка нäйэнты.

Шёшкупский (с):
(1) Мат ни̇к танык: (2) на код шэд шэзэ шарватпа, (3) то кате сва̄к шарватпэ̄нҗа, (4) кате таб арг ӭҗлап сва̄к коштынҗа. (5) Код шэд шэзэ шарватпа, (6) табнан сва̄ ӄола. (7) Ми ни̇к ченьчызавыт: (8) табнан сва̄ ӄола, (9) значит, сва̄к о̄ӷолалҗэнҗа, (10) тек о̄ӷолалҗэнҗа. (11) Ежли ӄуп шэд шэп коштымба, (12) тек, тек таныт лаӷӭрэ̄шпа, (13) кандук надӭ лаӷӭрэ̄шпа.

Русский:
(1) Я так думаю: (2) тот, кто говорит на двух языках, (3) то потом будет хорошо говорить, (4) потом он хорошо поймет чужие слова. (5) Кто говорит на двух языках, (6) у того чистые [не забитые ничем, мешающим услышать] уши. (7) Мы говорим так: (8) его уши чистые, (9) значит, он будет хорошо учиться, (10) быстро учиться будет. (11) Два языка человек если понял [услышал], (12) и быстро, быстро и его ум поворачивается [он быстро соображает], (13) по делу [как надо] поворачивается.

Источник: http://minlang.srcc.msu.ru/ru/text/pohvala-mnogoyazychiyu-yu-irikov

Ӄайӄо̄ коднай нынд шё̄шӄуй таре̄дык аза шарватпа?