Корпус церковнославянских текстов в составе НКРЯ
— новые идеи и возможности
Корпус
• Тексты (библиотека)
• Поисковая система
• Словари
Библиотека
• текстовый формат
• графический формат
Графический формат (tiff, jpg, pdf, djvu)
http://azbyka.ru/otechnik/Pravoslavnoe_Bogosluzhenie/
http://dic.feb-web.ru/slavonic/pdf/
Есть навигация, нет текста
Текстовый формат
http://azbyka.ru/otechnik/Pravoslavnoe_Bogosluzhenie/
http://dic.feb-web.ru/slavonic/corpus/
http://dic.feb-web.ru/slavonic/corpus/bible1581/
Тексты можно скачать, копировать, читать.
Нужен специальный шрифт.
Шрифты
ѻ҆́ч҃е на́шъ, и҆́же є҆сѝ на нб҃сѣ́хъ, да ст҃и́тсѧ и҆́мѧ твоѐ:
да прїи́детъ црⷭ҇твїе твоѐ: да бꙋ́детъ во́лѧ твоѧ̀, ꙗ҆́кѡ на нб҃сѝ, и҆ на землѝ:
хлѣ́бъ на́шъ насꙋ́щный да́ждь на́мъ дне́сь:
и҆ ѡ҆ста́ви на́мъ до́лги на́шѧ, ꙗ҆́кѡ и҆ мы̀ ѡ҆ставлѧ́емъ должникѡ́мъ на́шымъ:
и҆ не введѝ на́съ въ напа́сть, но и҆зба́ви на́съ ѿ лꙋка́вагѡ:
ꙗ҆́кѡ твоѐ є҆́сть црⷭ҇твїе и҆ си́ла и҆ сла́ва во вѣ́ки. А҆ми́нь.
Кодировки
HIP
_о='ч~е на'шъ, и='же _е=си` на нб~сjь'хъ, да ст~и'тся и='мя твое`:
да прiи'детъ цр\ствiе твое`: да бу'детъ во'ля твоя`, jа='кw на нб~си`, и= на земли`:
хлjь'бъ на'шъ насу'щный да'ждь на'мъ дне'сь:
и= w=ста'ви на'мъ до'лги на'шя, jа='кw и= мы` w=ставля'емъ должникw'мъ на'шымъ:
и= не введи` на'съ въ напа'сть, но и=зба'ви на'съ w\т лука'вагw:
jа='кw твое` _е='сть цр\ствiе и= си'ла и= сла'ва во вjь'ки. А=ми'нь.
UCS
џ§е нaшъ, и4же є3си2 на нб7сёхъ, да с™и1тсz и4мz твоE:
да пріи1детъ цrтвіе твоE: да бyдетъ в0лz твоS, ћкw на нб7си2, и3 на земли2:
хлёбъ нaшъ насyщный дaждь нaмъ днeсь:
и3 њстaви нaмъ д0лги нaшz, ћкw и3 мы2 њставлsемъ должникHмъ нaшымъ:
и3 не введи2 нaсъ въ напaсть, но и3збaви нaсъ t лукaвагw:
ћкw твоE є4сть цrтвіе и3 си1ла и3 слaва во вёки. Ґми1нь.
Программы
1) чтение — браузер, AlReader, MoonReader...
2) поиск — Mybible, Mysword, BibleQuote...
3) редактирование — Word, Excel, Sublime...
Проблемы поиска
• Орфография
• Алгоритмы
• Лемматизация
Орфография
Дублетные буквы: o—ѻ—ѡ, е—є, и—і—ї—ѵ—ѷ, ѹ—ꙋ, ꙗ—ѧ
ми́ръ—мі́ръ, вина̀—віно̀, ісаа́къ—иса́ѵъ
коне́мъ—конє́мъ, іере́й—іерє́й
моего̀—моегѡ̀, си́льно—си́льнѡ, грѣхо́мъ—грѣхѡ́мъ
ѻ́трокъ — ѻ́бразъ/ѡ́бразъ, ѻ́блакъ/ѡ́блакъ
Клавиатура
Слово нужно набирать буквально:
буква, придыхание, ударение, буквотитла
ѻ҆́ч҃е = ѻ _҆ _́ ч _҃ е
црⷭ҇̑твїе — ца́рствїе
мі́ръ — мїрѡ́въ
Виртуальная клавиатура не помогает.
Алгоритмы поиска
Программа может игнорировать регистр, ударения,
но не может сводить вместе разные буквы:
o—ѻ—ѡ, е—є, и—і—ї, ѹ—ꙋ, ꙗ—ѧ
Программа может не знать буквы ꙋ, ꙗ и буквотитла:
ꙗкѡ => кѡ
бꙋдꙋтъ => б д тъ
црⷭ҇̑твїе = цр твїе
Лемматизация
Программы не сводят вместе формы одного слова.
начати — начну, началъ (начало, начальникъ)
пріити — пріиду, пришелъ
ити — иду, шелъ
милость => милость/млс̑ть
крестити => креститъ/крс̑титъ
апостолъ => апостолъ/апс̑лъ
Грамматический словарь
лемма | грам1 | парадигма |
грѣ́хъ | S,m,inan | N1g | форма | грам2 | частота |
грѣха́ | sg,gen | 866 |
грѣху́ | sg,dat | 125 |
грѣхо́мъ | sg,ins | 133 |
грѣсѣ́ | sg,loc | 80 |
грѣси́ | pl,nom | 110 |
грѣ́хи | pl,acc | 2 |
грѣхи́ | pl,acc | 770 |
грѣ́хѡвъ | pl,gen | 2 |
грѣ̂хъ | pl,gen | 167 |
грѣхѡ́въ | pl,gen | 1421 |
грѣхѡв̑ | pl,gen | 2 |
грѣха́мъ | pl,dat | 1 |
грѣхо̂мъ | pl,dat | 1 |
грѣхѡ́мъ | pl,dat | 73 |
грѣха́ми | pl,ins | 36 |
грѣхи̂ | pl,ins | 40 |
грѣсѣ́хъ | pl,loc | 262 |
грѣху̂ | du,gen/loc | 1 |
грѣ́шный | A | A1t* |
грѣ́шный | plen,sg,m,nom/acc | 49 |
грѣ́шнаго | plen,sg,m,acc | 135 |
грѣ́шнагѡ | plen,sg,m/n,gen | 46 |
грѣ́шному | plen,sg,m/n,dat | 58 |
грѣ́шномъ | plen,sg,m/n,loc | 1 |
грѣ́шнѣмъ | plen,sg,m/n,loc | 32 |
грѣ́шное | plen,sg,n,nom/acc | 3 |
грѣ́шная | plen,sg,f,nom | 15 |
грѣ́шную | plen,sg,f,acc | 7 |
грѣ́шныя | plen,sg,f,gen | 8 |
грѣ́шной | plen,sg,f,dat/loc | 1 |
грѣ́шнѣй | plen,sg,f,dat/loc|comp,brev,sg,m,nom/acc | 4 |
грѣ́шніи | plen,pl,m,nom | 226 |
грѣ̂шныя | plen,pl,m,acc|plen,pl,f,nom/acc | 130 |
грѣ́шнымъ | plen/brev,sg,m/n,ins | 9 |
грѣ́шныхъ | plen/brev,pl,gen/loc | 410 |
грѣ̂шнымъ | plen/brev,pl,dat | 127 |
грѣ́шными | plen/brev,pl,ins | 1 |
грѣ́шенъ | brev,sg,m,nom/acc | 22 |
грѣшно́ | brev,sg,n,nom/acc | 2 |
грѣ́шны | brev,sg,f,nom | 1 |
грѣ́шна | brev,sg,f,nom|brev,sg,m/n,gen/acc | 5 |
грѣ́шну | brev,sg,f,acc|brev,sg,m/n,dat | 6 |
грѣ́шни | brev,pl,m,nom | 9 |
грѣ̂шна | brev,pl,n,nom/acc|brev,du,m,nom/acc | 2 |
грѣ́шнѣйшій | comp,plen,sg,m,nom/acc | 1 |
грѣшнѣ́йшій | comp,plen,sg,m,nom/acc | 5 |
грѣ́шнѣйшаго | comp,plen,sg,m,acc | 1 |
грѣшнѣ́йшаго | comp,plen,sg,m,acc | 2 |
грѣ́шнѣйшагѡ | comp,plen,sg,m/n,gen | 1 |
грѣ́шнѣйшему | comp,plen,sg,m/n,dat | 1 |
грѣ́шнѣйшемъ | comp,plen,sg,m/n,loc | 1 |
грѣ́шнѣйшіи | comp,plen,pl,m,nom|comp,plen,du,n/f,nom/acc | 1 |
грѣ́шнѣйшимъ | comp,plen/brev,sg,m/n,ins | 1 |
грѣ́шнѣйша | comp,brev,sg,m/n,gen/acc | 3 |
грѣ́шнѣйши | comp,brev,sg,f,nom/dat/loc|comp,brev,sg,m/n,loc | 2 |
Парадигмы
Парадигма | N1t | N1t* | N1j | N1k, N1g |
---|---|---|---|---|
Примеры | раб-ъ | осел-ъ, сон-ъ | кон-ь, цар-ь | отрок-ъ, враг-ъ, дух-ъ |
ед.им. | раб-ъ | осел-2ъ | кон-ь | отрок-ъ |
ед.вин. | =им./род. | =им./род. | =им./род. | =им./род. |
ед.род. | раб-а | осл-а | кон-я | отрок-а |
ед.дат. | раб-у | осл-у | кон-ю | отрок-у |
ед.пр. | раб-ѣ | осл-ѣ | кон-и | отроц-2ѣ, враз-2ѣ, дус-2ѣ |
ед.тв. | раб-омъ | осл-омъ | кон-емъ | отрок-омъ |
ед.зв. | раб-е | осл-е | кон-ю | отроч-3е, враж-3е, душ-3е |
мн.им./зв. | раб-и | осл-и | кон-и/іе | отроц-2ы, враз-2и, дус-2и |
мн.вин. | раб-ы/ѡвъ | осл-ы/ѡвъ | кон-и/ей | отрок-и/ѡвъ |
мн.род. | раб-ѡвъ/ъ^ | осл-ѡвъ/ъ^ | кон-ей | отрок-ѡвъ |
мн.дат. | раб-ѡмъ | осл-ѡмъ | кон-ємъ | отрок-ѡмъ |
мн.пр. | раб-ѣхъ | осл-ѣхъ | кон-ехъ | отроц-2ѣхъ |
мн.тв. | раб-ы^ | осл-ы^ | кон-и^/ьми | отрок-и^ |
дв.им./вин. | раб-а^ | осл-а^ | кон-я^ | отрок-а^ |
дв.род./пр. | раб-у^ | осл-у^ | кон-ю^ | отрок-у^ |
дв.дат./тв. | раб-ома | осл-ома | кон-ема | отрок-ома |
Поиск
ruscorpora
локально (sphinx)
локально (Острожская Библия)
локально (sqlite)
Параметры поиска:
• лемма
• словоформа
• грамматические признаки
• сочетания
Толковый словарь
Сводный исторический словарь русского языка XVIII–XX вв.
• САР-1 = Словарь Академии Российской (1789–1794).
• СЦРЯ = Словарь церковнославянского и русского языка (1847).