А.Е. Поляков
(Россия, Москва)
pollex@mail.ru

Орфография Острожской Библии в контексте церковнославянского корпуса

* Работа выполнена при поддержке РФФИ, проект № 17-04-12064-ОГН «Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов».

Аннотация. Современная церковнославянская орфография достаточно стандартизирована и четко фиксирует правила употребления букв и диакритических знаков, использование сокращений (титл и буквотитл), правила словоделения, правила написания конкретных словоформ и различения омонимов. Наличие такой нормы позволило нам создать грамматический словарь и морфологический анализатор для церковнославянского языка (http://dic.feb-web.ru/slavonic/dicgram/index.htm), который используется в корпусе церковнославянских текстов (http://ruscorpora.ru/search-orthlib.html). Острожская Библия 1581 года, как первое полное издание Библии на церковнославянском языке, также должна быть включена в корпус, но при этом возникла масса проблем. Орфография этого издания сильно отклоняется от современной нормы и отличается крайней нерегулярностью и нестабильностью. В данной статье анализируются орфографические особенности Острожской Библии и возможность ее автоматического морфологического анализа. Специально рассматриваются правила употребления дублетных букв и других графических средств, которые порождают массу вариантов написания для конкретного слова. В результате делается вывод о том, что морфологический анализатор должен быть существенно переделан, чтобы он мог обрабатывать тексты в старой орфографии, а также определяются направления дальнейшей работы.

Ключевые слова: церковнославянский язык, орфография, корпусная лингвистика, автоматический морфологический анализ

1. Введение.

Современная церковнославянская орфографическая норма сложилась к концу 17-го века и была зафиксирована в ряде фундаментальных изданий, таких как Грамматика Смотрицкого (издание 1648 года) и Елизаветинская Библия (1751 год). Эта норма достаточно четко фиксирует правила употребления букв и диакритических знаков, использование сокращений (титл и буквотитл), правила словоделения, правила написания конкретных словоформ и правила различения омонимов. Грамматические омонимы различаются при помощи дублетных букв (моего́—моегѡ́, си́льно—си́льнѡ, грѣхо́мъ—грѣхѡ́мъ, коне́мъ—конє́мъ, іере́й—іерє́й), омофоничных сочетаний (на́ша—на́шѧ, на́шимъ—на́шымъ) и знаков ударения (благи́мъ—благи̂мъ, дѣѧ́ніѧ—дѣѧ̂ніѧ) [Гаманович 1964; Плетнева, Кравецкий 2006].

Наличие орфографической нормы позволило нам создать грамматический словарь и морфологический анализатор для церковнославянского языка (http://dic.feb-web.ru/slavonic/dicgram/index.htm), который используется в корпусе церковнославянских текстов (http://ruscorpora.ru/search-orthlib.html) [Поляков 2014; Поляков 2017; Добрушина, Кравецкий, Поляков 2015]. Морфологический анализатор достаточно толерантен к ошибкам и умеет унифицировать мелкие графические различия (О—Ѻ, Е—Є, Ѹ—, Ъ—паерок, придыхания). Однако он не может игнорировать смыслоразличительные противопоставления, которых требует современная орфографическая норма (И—І—Ѵ, О—Ѡ, З—Ѕ, Ф—Ѳ, ударения, сокращения, словоделение).

Включение в корпус текстов, изданных до середины 17-го века, вызывает массу проблем, поскольку старая церковнославянская орфография заметно отличается от современной нормы, а также крайне нерегулярна и нестабильна, что типично для рукописной традиции и раннего периода книгопечатания. Одно и то же слово может писаться по-разному в зависимости от первоисточника, типографского удобства, аккуратности наборщика и других случайных факторов. Клитики обычно пишутся слитно с основным словом, а приставки иногда пишутся отдельно, дублетные буквы употребляются по-другому, правила различения омонимов не работают.

Морфологический анализатор, ориентированный на современную орфографию, не может нормально обрабатывать тексты в старой орфографии — многие слова не опознаются вообще или опознаются неправильно. Можно попытаться унифицировать все возможные графические варианты, но тогда мы будет трудно различить омонимы и даже отличить сокращенное написание от полного. Проблема слитного написания вообще не решается обычными методами.

Острожская Библия, изданная Иваном Федоровым в 1581 году в Остроге — первое полное издание Библии на церковнославянском языке. Орфография этого издания сильно отклоняется от современной нормы и отличается чрезвычайной свободой и непоследовательностью. В данной статье мы рассмотрим орфографические особенности Острожской Библии с целью выработки правил для морфологического анализатора.

2. Источники текста.

Острожская Библия была подготовлена в текстовом виде благодаря усилиям автора и отдана в общее пользование в качестве открытого интернет-ресурса, который доступен по адресу: http://dic.feb-web.ru/slavonic/corpus/0/bible1581/index.htm.

Электронный текст подготовлен на основе следующих источников:

1) Факсимильная (отсканированная) копия Острожской Библии [ОБ факсимиле].

2) Острожская Библия: современный набор с параллельным переводом на украинский язык. Подготовил Рафаил (Роман) Торконяк [ОБ 2006].

Факсимильная копия сама по себе не может заменить текстовый корпус, поэтому в качестве основного был выбран текстовый набор Торконяка, несмотря на то, что он не является точным воспроизведением оригинала. Так, в оригинале клитики пишутся слитно с основным словом, а в тексте они отделены пробелами согласно современной норме (въне́мъ поро́дꙋ наземлѝ → въ не́мъ по ро́дꙋ на землѝ). Кроме того, там есть отдельные опечатки и отклонения от оригинала, которые мы постарались исправить при возможности. Однако мы сохранили раздельное написание клитик, поскольку это необходимо для работы анализатора и поиска в корпусе.

Кодировка текста была приведена в соответствие с современным стандартом «Church Slavonic typography in Unicode» [Unicode TN41], насколько это возможно. Дело в том, что типографика Острожской Библии устроена весьма сложно, а ее интерпретация неоднозначна и допускает различные толкования. Например, в оригинале камора визуально практически неотличима от придыхания, поэтому нам пришлось восстанавливать это различие на основании теоретических правил, а не реального текста (см. п. 6).

Для улучшения читаемости текста были сделаны некоторые упрощения при передаче символов, которые отсутствуют в стандартном наборе, чтобы пользователь мог видеть текст без установки специальных шрифтов. В частности, в данной статье буквотитла заменены на буквы с верхним индексом (апслъ, возмет, всадник, єѵглїе, земных), а придыхания воспроизводятся только в разделе 6.2, специально посвященном этому вопросу. Далее мы часто будем давать примеры в несколько упрощенном виде, что, впрочем, никак не влияет на результаты анализа.

3. Общая характеристика графико-орфографической системы.

Основной особенностью средневековой кириллической графики является наличие большого числа дублетных (омофоничных) букв, для которых нужно было придумать какие-то правила употребления [Карский 1979; Каверина 2010; Кусмауль 2014]. Любопытно сравнить эту ситуацию с латиницей, где, наоборот, букв было мало и для изображения недостающих фонем приходилось использовать диграфы (ch sh th gn nh ll lh ae oe ue) и надстрочные знаки (č š ž ñ ä ö ü).

В древнейшей кириллице были дублетные буквы И=І, О=Ѡ. В собственно славянских словах употреблялись в основном И О, буква І использовалась в сокращениях и как компонент диграфов Ѥ Ю Ѩ Ѭ, а буквы Ѵ Ѡ Ф Ѳ Ѯ Ѱ должны были использоваться только для греческих слов. Буква Ѵ первоначально произносилась как греческое [ӱ], но в результате фонетических изменений в самом греческом совпала с И=І=Ѵ. Буква Ѳ произносилась как [ф] или [т] в разных традициях, но в русском варианте совпала с Ф=Ѳ.

В русской кириллице за счет фонетических изменений появились новые пары дублетов =Ѩ, Ѹ=Ѫ, Ю=Ѭ, З=Ѕ, затем вторые варианты фактически перестали употребляться на письме. Позже некоторые из этих букв были частично восстановлены как подражание южнославянским текстам, вместе с другими орфографическими особенностями.

В рукописной традиции появились графические варианты букв, не имеющие аналогов в древнейшей кириллице, например, Ѻ широкое—О узкое—О очное, Є широкое—Е узкое, Ѹ—, а также сложились некоторые правила их употребления. Например, Ѻ Є Ѹ обычно пишутся в начале слова или слога, тогда как О Е в середине слова или слога (после согласной), но это правило нестрогое и часто нарушается (см. п. 4).

В древнейшей кириллице было четкое различие йотированных и простых гласных. Буквы Ѥ Ю Ѩ Ѭ обозначали сочетания [й+гласная] или палатальность согласного (землꙗ, землѥ, землѭ, любити), тогда как нейотированные буквы Е, Ѧ обозначали просто (полу)мягкость согласного. В ходе эволюции русского письма это различие стерлось из-за фонетических изменений, в результате буквы =Ѧ, Ѥ=Е фактически стали дублетами — каждая из них могла обозначать сочетание [й+гласная] или палатализацию согласного. Прежнее различие частично сохранилось как контекстное правило — обычно Ѥ/Є пишутся в начале слова или слога, Ѧ Е в середине слова или слога, но это правило нестрогое и не всегда соблюдается (см. п. 4).

Ниже мы рассмотрим правила употребления отдельных букв и графических знаков в тексте Острожской Библии по сравнению с современной церковнославянской нормой. Основное внимание будет уделено графическим дублетам, которые создают массу вариантов написания для конкретного слова.

4. Правила употребления отдельных букв.

4.1. И=І=Ѵ.

В современном церковнославянском буквы И—І являются позиционными вариантами в славянских словах: І пишется перед гласным, И перед согласным или на конце слова. Противопоставление И—І используется для различения нескольких омонимов: ми́ръ vs. мі́ръ, вино́ vs. віна́. В греческих словах довольно четко соблюдается этимологическое различие И—І—Ѵ: ісаа́къ vs. иса́въ, ски́нїa vs. скѵ́менъ, сі́мѡнъ vs. сѷмеѡ́нъ.

В Острожской Библии И достаточно регулярно заменяется на І перед гласной, в том числе на границе слов, которые в оригинале пишутся без пробела: і изнесѐ, і ѻблада́ите, і ꙗ́ви́сѧ, і ѹ́спе, і изыидо́ша. Впрочем, перед гласной может также писаться И: възлие́тъ–възлїе́тъ, въпие́ши–въпїеши, въсприѧ́ти–въспрїѧ́ти, жре́бии–жре́бїи, змиѧ́–змїѧ́, ѕмии́нъ–ѕмїи́нъ, излиѧ́нїемъ–излїѧ́нїемъ, неприѧ́знь–непрїѧ́знь.

В греческих словах этимологическое различие І—И почти не соблюдается, причем И часто пишется перед гласной: авиаѳа́ръ–авїаѳа́ръ, архїере́е–архиере́е, аса́виѧ–аса́вїѧ–аса́вїа, вениами́нъ–венїами́нъ, гоѳонии́лъ–гоѳонїи́лъ, елиезе́ръ–елїезе́ръ, иа́ковъ–іа́ковъ, и́долъ–і́долъ, иезаве́ль–іезаве́ль, иезекїа–іезекїа, иере́ѧ–іере́ѧ, исаа́къ–ісаа́къ, иса́въ–іса́въ, исаїѧ–іса́иꙗ–ісаїѧ, иѡсиѧ–иѻсїѧ–іѻсїѧ, иѻа́въ–іѻа́въ, иѻаки́мъ–іѻа́кимъ, иѻанаѳа́нъ–іѻанаѳанъ, иѻа́ннъ–іѻа́ннъ–іѡа́ннъ, иѻ́сифъ–іѻ́сифъ, манаси́ина–манасі́ина.

Буква Ѵ регулярно пишется в следующих словах и их производных, иногда даже вместо этимологического правильного И (такие случаи помечены *): асѵ́рїа, асѷрїискїй, вавѷло́нъ, вавѷло́нскїи, егѵ́петъ, егѵ́петскїи, кѷмва́лы, кѷми́нъ, кѷпари́съ–кипари́съ. кѵ́пръ–ки́пръ, леви́тинъ–левѵ́тинъ*, моѷсе́и, моѷсе́ѻвъ, моѷсїи, моѷсїѻвъ, нави́нъ–навѵ́нъ*, сѵ́рїа, сѵрїискїи, сѵ́ринъ, скѵ́менъ–ски́менъ, ски́нїа–скѵ́нїа*, ски́петръ–скѵ́петръ*, тѷмпа́ны–тимпа́ны, тѵ́ръ, тѵ́рскїи.

4.2. О=Ѻ=Ѡ.

В современном церковнославянском Ѻ пишется только в начале слова, а также в начале корня в сложных словах (ѻте́цъ, пра́ѻтецъ).

В Острожской Библии О регулярно заменяется на Ѻ в начале слова и слога: бл҃гоѻбразенъ, воѻрꙋже́нїе, доброѻбра́зна, изоби́лїе–изъѻби́лїе, изоби́лне–изъѻби́лне, ѻбеща́лъ, ѻбита́ю, ѻ́блакъ, ѻблича́етъ, ѻбо́е, ѻ́бразъ, ѻбрѧ́щете. Особенно характерно слово изоби́лїе–изъѻби́лїе, где Ѻ пишется после немого Ъ, но меняется на О при его устранении.

Это правило соблюдается абсолютно четко и распространяется на греческие слова: антиѻ́хъ–антїѻ́хъ, антиѻхїю–антїѻхїю, ахиѻ́ръ–ахїо́ръ, воѻ́зъ, гаваѻ́нъ, гедеѻ́нъ, елеѻнскаѧ, елиѻ́на, еѳїѻ́пїа, иѻа́въ–іѻа́въ, иѻаки́мъ–іѻа́кимъ, иѻанаѳа́нъ–іѻанаѳанъ, иѻа́ннъ–іѻа́ннъ–іѡа́ннъ, иѻ́на–іѻ́на–іѡ́на, иѻрда́нъ–іѻрда́нъ, иѻсафа́тъ–іѻсафа́тъ, иѻ́сифъ–іѻ́сифъ, искариѻ́тъскїи–искарїѻ́тъскїи, киѻ́тъ–кїѻ́тъ, клеѻпа́тра; а также на суффиксы/флексии: андре́ѻвъ, андре́ѻви, архїере́ѻвъ, архїере́ѻмъ, евре́ѻмъ, иере́ѻмъ–іере́ѻмъ;

Буква Ѡ по первоначальному замыслу должна была использоваться для греческих слов, но в реальности она стала применяться в русских словах, обычно в составе лигатуры Ѿ=ОТ.

В современном церковнославянском буква Ѡ используется в следующих случаях:

1) в греческих словах в соответствии с этимологией (іѡа́ннъ, і́ѡвъ, сі́мѡнъ);

2) в приставке ѡ(б)-, особенно в глаголах (ѡбита́ти vs. ѻби́тель, ѡблача́ти vs. ѻ́блакъ, ѡ́бразовати vs. ѻ́бразъ/ѡ́бразъ, ѻ́бщій);

3) для различения грамматических форм (рабо́мъ vs. рабѡ́мъ, ми́лости vs. ми́лѡсти, но́ваго vs. но́вагѡ, си́льно vs. си́льнѡ).

Буква Ѿ используется только для предлога и приставки ѿ: ѿрещи́сѧ vs. ѻ́трокъ.

В Острожской Библии лигатура Ѿ используется для предлога и приставки ѿ, а также в словах от корня отец- под титлом (ѿц҃ъ, ѿц҃а, ѿч҃е, ѿч҃ество, ѿч҃їи). Буква Ѡ используется крайне редко как эквивалент Ѻ в начале слова и слога, причем одинаково в славянских и в греческих словах: иѻа́ннъ–іѻа́ннъ–іѡа́ннъ, и́ѻвъ–і́ѻвъ–іѡвъ, иѻи́ль–іѻиль–иѡи́ль, иѻ́на–іѻ́на–іѡ́на, иѻсїѧ–іѻсїѧ–иѡсиѧ, ѻба́че–ѡба́че, ѻбита́ша–ѡбита́ша, ѻ́бразъ–ѡ́бразъ, ѻбрати́сѧ–ѡбрати́сѧ, ѻбрѣ́те–ѡбрѣте, ѻбщемъ–ѡ́бщемъ, ѻбы́иде–ѡбыиде, ѻ́вны–ѡ́вны, ѻлофе́рнъ–ѡлофе́рнъ, ѻни́–ѡни́, ѻ́нъ–ѡ́нъ, ѻ́троцы–ѡтроцы, ѻхозїѧ–ѡхозїѧ.

4.3. =Ѹ.

В современном церковнославянском /Ѹ являются позиционными вариантами — Ѹ пишется в начале слова, а в середине заменяется на : ѹчи́ти vs. наꙋчи́ти, ѹ́мный vs. безꙋ́мный.

В Острожской Библии /Ѹ также являются позиционными вариантами и употребляются по тем же правилам, что О/Ѻ — Ѹ пишется в начале слова и слога, в остальных случаях: авиѹ́дъ, бл҃гоѹго́дно, внꙋтръѹ́дꙋ, внѣѹ́дꙋ, всеѹслажде́нїе, елиѹ́съ, еѹпа́тора, еѹсе́ѧ, зако́ноѹчи́тель, заѹло́на, заѹ́тра, ѕлоѹ́мнѣ, изꙋмисѧ, изъѹмле́нїе, иѹ́да–іѹ́да. иѹде́а–іѹде́а, иѹде́искꙋ–іѹде́искꙋ, капернаѹ́мъ, краеѹго́ленъ, наѹзарда́нъ, наѹ́мъ, наѹсти́ша, наѹ́трїе, наѹчи́ти, недоѹмѣ́ющесѧ, неѹгаса́ющїи, неѹкраше́на, ѻбъѹче́нїю, ѻбъѹшїе–ѻбꙋшїе, поѹче́нїе, преѹмноже́нїи, саѹ́лъ, скꙋдоѹ́менъ, соѹ́зъ–съѹ́зъ, ѹби́ти, ѹ́бо. Здесь также характерно слово ѻбъѹшїе–ѻбꙋшїе, где Ѹ пишется после немого Ъ, но меняется на при его устранении.

4.4. Е=Є.

В современном церковнославянском буква Є регулярно употребляется в начале слова, а также для различения грамматических форм единственного vs. множественного числа (коне́мъ vs. конє́мъ, єле́ни vs. єлє́ни, іере́й vs. іерє́й).

В Острожской Библии буква Є употребляется в единичных случаях как полный эквивалент Е: еѵглистъ–єѵглистъ, еве́ръ–єве́ръ, егда́–єгда́, егѷптѧне–єгѷптѧ́не, его́же–єго́же, еда́–єда́, еді́но–єді́но–єди́но, е́же–є́же, е́здра–є́здра, ела́да–єла́да, елеаза́ръ–єлеаза́ръ, еле́и–єле́и, елїа́въ–єлїа́въ, ели́ко–єли́ко, е́млеши–є́млеши, е́сть–є́сть.

4.5. Ѧ=.

В современном церковнославянском /Ѧ являются позиционными вариантами — пишется в начале слова, а в середине заменяется на Ѧ: ꙗви́ти vs. ѡб̾ѧви́ти, ꙗри́тиcѧ vs. раз̾ѧри́тисѧ. В качестве исключения /Ѧ используются для различения корней слов ꙗзы́к- (народ) vs. ѧзы́к- (орган речи). Это различие явно введено искусственно и не очень удачно — с таким же успехом здесь могло использоваться различие З vs. Ѕ: ꙗѕы́к- (народ) vs. ꙗзы́к- (орган речи).

В Острожской Библии буква практически регулярно пишется в начале слова, менее регулярно в начале корня внутри слова (ꙗв-, ꙗд-, ꙗзв-, ꙗр-, ꙗ-/им-), и крайне редко в начале слога внутри слова, где обычно пишется Ѧ. После согласных всегда пишется Ѧ. Вот примеры (редкие варианты помечены *):

1) начало слова: ꙗ́блоко, ꙗви́сѧ, ꙗвле́нїе, ꙗ́гнѧ, ꙗде́нїе, ꙗдо́ша, ꙗ́дь, ꙗ́же–ѧ́же*, ꙗ́зва, ꙗ́зы́къ–ѧзы́къ*, ꙗ́зы́ческїи, ꙗ́ко, ꙗ́ковъ, ꙗ́коже, ꙗ́лъ–ѧ́лъ*, ꙗ́ма–ѧ́ма*, ꙗре́мъ, ꙗри́тисѧ–ѧри́тисѧ*, ꙗ́рость–ѧ́рость*, ꙗ́слехъ–ѧ́слехъ, ꙗ́стребъ–ѧ́стребъ, ꙗчме́нь, ꙗ́ша–ѧ́ша;

2) начало корня внутри слова: изъꙗви́ти–изъѧви́ти*, ѻбъꙗви́ши, проꙗви́, ѕвѣроꙗ́динꙋ–звѣроѧ́динꙋ*, изъꙗдѧ́тъ–изъѧдѧ́тъ*, поꙗде́на–поѧде́на, поꙗ́сть–поѧ́сть, ѹꙗзве́нъ–ѹѧ́звенъ*, възъꙗри́всѧ–възъѧри́всѧ, разъꙗри́сѧ, двоꙗзы́ченъ, иноꙗзы́чномъ, косноꙗ́зы́ченъ, изъѧ́ша–изъꙗ́ша, наѧ́ша–наꙗ́ша, ѻбъѧ́тъ–ѻбъꙗ́тъ*, ѿѧ́ти–ѿꙗ́ти, подѧ́ти–подꙗ́ти, поѧ́лъ–поꙗ́лъ, приѧ́ти–приꙗ́ти*–прїѧ́ти–прїꙗ́ти*, прїѧ́тель–прїꙗ́тель*, неꙗ́сыть–неѧ́сыть*;

3) начало слога внутри корня: веньѧми́нъ–веньꙗми́нъ*, голїѧ́дъ–голиꙗ́дъ–голїꙗ́дъ, кориꙗ́нъдрово, ѳимїѧ́мъ–ѳимиꙗ́мъ*, ѻпоѧса́ни–ѻпоꙗса́ни*, по́ѧсники–по́ꙗсники*, препоѧ́сани–препоꙗ́сани*;

4) начало слога (суффикс): бо́ѧзнь–бо́ꙗзнь*, боѧ́тисѧ–боꙗ́тисѧ*, ѹбоѧ́сѧ–ѹбоꙗ́сѧ*, ваѧ́нїа–ваꙗ́нїа*, изваѧ́нїѧ–изваꙗ́нїѧ*, даѧ́нїю–даꙗ́нїю*, даѧ́ти–даꙗти*, надѣѧ́хомсѧ–надѣꙗ́хомсѧ*, ѻдѣѧ́нїѧ–ѻдѣꙗ́нїѧ*, покаѧ́нїе–покаꙗ́нїе*, лаѧ́тельство–лаꙗтельство, слиѧ́нъ–сълїѧ́нъ–сълїꙗнъ, посмѣѧ́сѧ–посмѣꙗсѧ*, достоѧ́нїе–достоꙗ́нїе*, настоѧ́щаго–настоꙗ́щаго*, предстоѧ́щїи–предстоꙗ́щїи*, стоѧ́нїи–стоꙗнїи́*, стоѧ́ше–стоꙗ́ше*, ѻбоѧ́мо–ѻбоꙗ́мо;

5) начало слога (флексия): авди́ꙗ–авдїѧ*, бїѧ́ше–бїꙗ́ше*, въпїѧ́хꙋ–въпиꙗ́хꙋ*, имѣѧ́хꙋ–имѣꙗ́хꙋ, пїѧ́ше–пїꙗ́ше*, продаѧ́ше–продаꙗ́ше*, еѧ́же–еꙗ́же, сїѧ́–сїꙗ*, коѧ́ждо–коꙗ́ждо.

Можно увидеть слабую попытку различить корни -ꙗд и -ѧ/им за счет /А (поꙗ́лъ от поꙗ́сти vs. поѧ́лъ от поѧ́ти), но для окончательного вывода слишком мало материала.

4.6. Ф=Ѳ.

В современном церковнославянском Ф и Ѳ обычно употребляются правильно в соответствии с этимологией, особенно для частотных и известных слов (виѳлее́мъ), а ошибки встречаются в редких и малоизвестных словах.

В Острожской Библии Ф и Ѳ также употребляются довольно правильно в соответствии с греческой этимологией, ошибки единичны (помечены *): авиаѳа́ръ–авїаѳа́ръ, алфе́ѻвъ–алѳе́ѻвъ*, амеѳисто́съ, анѳѷпатъ–анѳипа́тъ, анѳра́ѯъ–анфра́ѯъ*, аса́фъ–аса́ѳъ*, астаро́ѳъ, афе́къ–аѳе́къ*, ахитофе́лъ–ахитоѳе́лъ*, варѳоломе́и, веѳи́ль, виѳанїа, виѳлее́мъ–вифлеѻ́мъ*, виѳсаи́да–виѳсаі́да–вѷѳсаи́да, газофилакїи–газоѳилакїи*, геѳсїманїи, ге́ѳъ, голго́ѳа, голїа́ѳъ, гоѳо́лїѧ, досиѳе́и, доѳаи́мъ, елїсавеѳь, елиса́фъ–елиса́ѳъ*, епифа́нъ–епиѳа́нъ*, еримо́ѳъ, есѳи́рь, ѳаво́ръ, ѳама́рь, ѳа́ра, фаре́съ–ѳаре́съ*, ѳарси́съ, ѳезви́тѧнинъ, ѳимїа́мъ–ѳѷмїа́мъ.

4.7. З=Ѕ.

В современном церковнославянском Ѕ регулярно пишется в определенных словах (корнях) и их производных: ѕлы́й, ѕло́ба, ѕвѣзда́, ѕвѣ́рь, ѕе́ліе, ѕла́къ, ѕѣло́, ѕѣлѡ́, ѕѣ́льный, ѕѣ́ница–зѣ́ница.

В Острожской Библии Ѕ употребляется в следующих случаях:

1) довольно регулярно вместо З, которое чередуется с Г/Ж по результатам 2-й и 3-й палатализации: бѕ҃и, бѕ҃ѣ–бз҃ѣ, бо́ѕи–бо́зи, бо́ѕѣхъ, бла́ѕи–бла́зи, бла́ѕѣ–бла́зѣ, бл҃ѕѣ–бл҃зѣ, въверѕи–въверзи́, въве́рѕѣте–въве́рзѣте, въдрꙋѕи́ти, въздвиѕа́ти–въздвиза́ти, вра́ѕи–вра́зи, вра́ѕѣхъ–вра́зѣхъ, достиѕа́етъ–достиза́етъ, дрꙋѕи–дрꙋзи, дрꙋѕїи–дрꙋзїи, кни́ѕѣ, кнѧ́ѕь–кнѧ́зь, кнѧ́ѕьство–кнѧ́зьство, ковче́ѕѣ–ковче́зѣ, корча́ѕѣ, крꙋзи, лꙋ́ѕи, лꙋ́ѕѣ, лꙋѕѣхъ, мно́ѕи–мно́зи, мно́ѕѣ–мно́зѣ, на́ѕи–на́зи, но́ѕѣ–но́зѣ, ѿве́рѕи–ѿве́рзи, подвиѕа́ти–подвиза́ти, помоѕи́–помози́, пра́ѕи, прꙋ́ѕи–прꙋ́зи, раждиѕа́ти–раждиза́ти, растерѕа́нїе–растерза́нїе, сапоѕи́–сапози́, сапоѕѣхъ, слꙋѕѣ–слꙋзѣ, ѹбо́ѕїи–ѹбо́зїи;

2) менее регулярно в определенных корнях: ѕло́–зло́, ѕло́ба–зло́ба, ѕлодѣ́и–злодѣ́и, ѻѕлобле́нїе–ѻзлобле́нїе, ѕвѣзда́–звѣзда́, ѕвѣ́рь–звѣ́рь, звѣроꙗ́дины–ѕвѣ́роꙗ́дины, зе́лїе–ѕе́лїе, ѕи́ждетъ–зи́ждетъ, съѕида́ти–съзида́ти, змі́и–змі́и, ѕмїѧ́–змїѧ́, ѕѣ́лныи, ѕѣ́ло, ѕѣни́ца–зѣни́ца, кла́дѧѕь–кла́дѧзь, проѕѧбенїе–прозѧбенїе, проѕѧ́бе–прозѧ́бе, пѣ́нѧѕь–пѣ́нѧзь, стеѕѧ́–стезѧ́;

3) в единичных случаях вместо более обычного З (редкие случаи помечены *): болѣзнемъ–болѣѕнемъ*, бразды–браѕды*, влѣзо́шѧ–влѣѕо́шѧ*, гнѣздо́–гнѣ́ѕдо́*, езе́ра–еѕе́ра*, же́злъ–же́ѕлъ*, за́повѣди–ѕа́повѣди*, зва́нїи–ѕва́нїи*, звизда́нїе–звиѕда́нїе*, зеле́но–ѕелено*, зна́менїе–ѕна́менїе*, зри́тъ–ѕри́тъ*, зꙋбо́мъ–ѕꙋбо́мъ*, изчезо́шѧ–изчеѕо́шѧ*, іѻзїѧ–іѻѕїѧ, ѻзїины–ѻѕїины, ѻхозїѧ–ѻхоѕїѧ, порази́–пораѕи́, ри́зы–ри́ѕы, събла́знъ–събла́ѕнъ, трапе́зы–трапе́ѕы, ѳезви́тѧнинъ–ѳеѕви́тѧнинъ, ꙗ́звою–ꙗ́ѕвою, ꙗзы́къ–ꙗѕы́къ.

5. Титло и выносные буквы.

В древнейшей кириллице надстрочные знаки употреблялись крайне редко: титло использовалось для чисел и сокращения частотных слов (бг҃ъ, іс҃ъ, хс҃ъ), над гласной в начале слога иногда ставилась точка, знаки ударения не применялись. В русской кириллице употребление надстрочных знаков существенно расширилось: появились выносные буквы (буквотитла), паерок, покрытие, знаки ударения и придыхания стали употребляться часто, хотя нерегулярно [Карский 1979]. Все это создало дополнительные возможности для орфографического разнобоя.

5.1. Титло.

В Острожской Библии титло и некоторые буквотитла употребляются для частотных слов и корней, обычно сакральных: а́гг҃лъ, апслъ, б́г҃ъ, бж҃їи, бѕ҃ѣ, бл҃гїи–благїи, блж҃енъ–блаже́нъ, бл҃говѣсти́ти, блгдть, блгсть, бл҃гослови́ти–блсви́ти, влдка, въскр҃се́нїе–въскрснїе–въскресе́нїе, гл҃ати, гл҃анїе, г҃ь, г҃а, гн҃ъ, гн҃ь, гн҃имъ, дв҃дъ–двд҃ъ–двдъ, дв҃довъ–двд҃въ, дв҃а, дв҃ца, дн҃ь, дн҃е, дх҃ь–дꙋхъ, дс҃ѣ–дꙋсѣ, дш҃а, еѵглїе, іерсли́мъ–иерсли́мъ, іи҃ль–іил҃ь, іи҃левъ–іил҃евъ, іил҃ьтѧни́нъ, іс҃, іс҃а, іс҃овъ, кн҃ѕь–кн҃зь–кнѧ́ѕь–кнѧ́зь, крстъ, крсти́ти, кр҃ще́нїе, млсрдїе–милосе́рдїе*, млстивъ–ми́лостивъ, млсть–ми́лость, мл҃тва–моли́тва, мцсъ, мр҃твыи, мр҃твецъ, мт҃и, мт҃ери, нб҃о, нб҃се, нбсныи, нн҃ѣ, ѿц҃ъ–ѻц҃ъ, ѿч҃е–ѻч҃е, ѿч҃ества–ѻч҃ества, прпдбныхъ, пррокъ–про҃ркъ, слн҃це, смр҃ть, смр҃тныи, сн҃ъ, сп҃съ, сп҃си́тель, сп҃се́нїе, сп҃се́тъ, стрсть, ст҃ыи, ст҃ити, ст҃ы́нѧ, сщ҃е́нникъ, ѹчн҃къ–ѹчени́къ, ѹчи́тель–ѹчт҃ль*, х҃с, х҃а, хм҃ъ, хв҃ъ, цр҃ь, цр҃ица, црскїи–цр҃ьскїи, црствїе–цр҃ьствїе, црствова́ти–цр҃ьствова́ти, цр҃квь, цр҃ко́вныи, чл҃къ–члк҃ъ, чл҃ческїи–чл҃чьскїи–члчскїи.

Список слов и корней под титлом в основном совпадает с современной нормой, однако здесь не проводится различие между сакральным и обычным употреблением. Например, слова ѿц҃ъ=ѻц҃ъ и сн҃ъ пишутся под титлом применительно к обычным людям, тогда как в современном церковнославянском в этом случае они пишутся без титла.

5.2. Выносные буквы.

Выносные буквы (буквотитла) использовались как способ сокращения слов при нехватке места в строке. Поскольку выносная буква ставится над предыдущей буквой, а не после нее, слово становится короче по горизонтали, но немного выше по вертикали. Например, написание возмет vs. возметъ занимает 4 позиции vs. 7, всадник vs. всадникъ — 5 vs. 8, люди vs. люди — 2 vs. 4.

Выносные буквы создают массу проблем и являются источником ошибок. То, что легко делается в рукописном тексте, создает большие трудности при печати, поскольку поставить выносную букву на нужное место не всегда возможно. Во-первых, есть высокие буквы Ѣ , над которыми физически невозможно поставить надстрочный знак, поэтому его ставят над предыдущей буквой, то есть еще левее от нормальной позиции. Во-вторых, выносные буквы часто сдвигаются со своего места по непонятным причинам или в результате неаккуратности наборщика. В результате появляются слова с неправильным порядком букв, которые можно прочитать, только если передвинуть букву на правильное место: безмꙋныи→безꙋмныи, бл҃гордоныхъ→бл҃городныхъ, блдꙋ→блꙋд, блѣ→бѣл, брацхѣ→брацѣх, бршана→брашна, бсѣ→бѣс, бꙋдтꙋ→бꙋдꙋт, бхѣ→бѣх, вдона́ѧ→водна́ѧ, велицмѣ→велицѣм, велблдю→велблюд, ви́двѣ→ви́дѣв, ви́длѣ→ви́дѣл, виногрда→виноград, вкѣ→вѣк, воздхꙋ→воздꙋх, вра́тхѣ→вра́тѣх, всдѣ→всѣд, всмѣ→всѣм, всхѣ→всѣх, вшде→вшед, възвдиго́ша→въздвиго́ша, вчѣнаго→вѣчнаго, възрвѣ→възрѣв, глда→глад, гнвѣ→гнѣв, гра́дхѣ→гра́дѣх, грда→град, грхѣ→грѣх, дбꙋ→дꙋб, дргꙋ→дрꙋг, евнхꙋ→евнꙋх, мжꙋ→мꙋж, нардо→народ, наслдѣ́ствїе→наслѣ́дствїе, плдо→плод, трдꙋ→трꙋд, трдꙋна→трꙋдна.

Человек может легко прочитать слово с неправильным порядком букв, но программа этого сделать не сможет, если ей не указать специально. Поскольку изначально неизвестно, что буквы переставлены и где именно, программа будет вынуждена перебирать весь словарь, чтобы найти подходящий вариант, и не факт, что этот вариант будет правильным.

Выносные буквы открывают возможность для орфографического разнобоя: любая согласная перед согласной или на конце слова может быть записана как выносная. Дополнительную путаницу вносит немой Ъ, который часто пишется не только в конце слова, но и в середине, а также может заменяться на надстрочный знак (паерок). В результате такой орфографической свободы в тексте Острожской Библии некоторые слова могут иметь более десятка (!) вариантов написания (если учесть дублетные буквы и необязательное ударение, см. п. 6): аввакꙋм–аввакꙋмъ–ав̾вакꙋмъ–ав̾вакꙋм̾, аммо́нъ–ам̾мо́нъ–аммон–ам̾мон, бе́здна–бе́здна–бе́з̾дна–бе́знда, безчестїе–безче́стїе–безъче́стїе–без̾че́стїе–бесче́стїе–бес̾честїе, вавѷло́нскїи–вавѷло́нъскїи–вавѷлон̾скїи–вавѷло́ньскїи, вда́стъ–вдаст̾–въда́стъ–въда́ст̾–в̾да́стъ, въздви́же–въздви́же–възъдви́же–въз̾дви́же, зе́мных–зе́мныхъ–зе́мных̾–зе́мъныхъ–земных.

Выносные буквы иногда употребляются и в других случаях. Например, выносное д довольно часто употребляется в составе диграфа жд, который теоретически может обозначать специфическое сочетание [ж’дж’], являющееся звонким коррелятом щ=[ш’ч’], хотя на основании графики определить его фонетическое значение невозможно. Примеры (знак ~ означает фонетически близкие варианты): блꙋжденїе ~ блꙋженїе, бл҃гоѹгождѹ ~ бл҃гоѹгожѹ, вельбꙋждь ~ вельбꙋжь, въжа́ждете, въжделѣ́нїе, въжделѣти, възбꙋжда́ю ~ възбꙋжа́ю, възграждꙋ, възда́ждь, во́жда, вражда, въсхождахꙋ, въсхожденїe ~ въсхоженїе, вхождахъ ~ вхожахъ, гражданом ~ гража́номъ, гражденїе, дождами, досажда́етъ ~ досажа́етъ, жажда, жа́ждетъ, ко́ждо, междꙋ, мно́гажды, наде́жда ~ наде́жа, нꙋжда ~ нꙋжа, ѻде́жда ~ ѻде́жа.

Выносное ж часто употребляется вместо финального же: а́щеж, въздвиж, даж, до́ндеж, егдаж, еѧж, занеж, идеж, иж, негож, ниж, ника́кож, никтож, ничтож, понеж, та́кож, ꙗ́кож.

Выносное г иногда употребляется вместо финального го (адъективная флексия): безꙋмнаг, бли́жнѧг, ва́шег, вели́каг, ви́дѧщаг, всег, всѧ́каг, вы́шнѧг, вѣчнаг, ег, еді́наг, земнаг, моег, на́шег. В других случаях оно заменяет обычное гъ: благ, брег, въздвиг, враг, залог, книг, ковчег, корчаг, мног, ѻстрог, подвиг.

В единичных случаях употребляется выносное а: бы́ша, бѣжа, ва́ша, ва́шима, взыидо́ша, взѧ́ша, воево́да, въпрошаше, всѧ́ка, вѣка, гаданїе, гнѣва, гра́да, десни́ца, добра, дрꙋга, дѣла, егда, еді́на, ефра́ѳа; а также выносное и (обычно в составе финального ди): въведи, блюди, ва́ши, вельблюди, гради, грѧди, зади, люди, меди, народи, плоди, посреди, ради, роди, съзади, среди.

В современном церковнославянском буквотитла используются только в составе сакральных слов вместо титла: апслъ, бцда, блгдть, влдка, воскрснїе, гдсь, єѵглїе, крстъ, млсрдїе, млсть, мрдый, мцсъ, нбсный, првдный, прдте́ча, прсто́лъ, проро́къ, ржство, троца, хрсто́съ, црство, чсть. По типографским соображениям, выносная буква обычно не ставится над начальной буквой слова, а сдвигается вправо, поэтому чтобы прочитать слово, нужно сдвинуть выносную букву влево: бцда→бдца, гдсь→гсдь, мрдый→мдрый, мцсъ→мсцъ. В современной орфографии список таких слов конечен и эту проблему можно легко решить словарно, а не алгоритмически.

6. Ударение и придыхание.

Знаки ударения и придыхания не употреблялись в древнейшей кириллице и были введены позже как подражание греческому письму [Карский 1979]. В греческом было три знака ударения (' ` ~) и два знака придыхания, хотя фонетическое различие между ними было утрачено задолго до создания славянской письменности: все три ударения звучали одинаково, а придыхание не произносилось. В славянских языках ударение имело смыслоразличительный характер, а придыхание оказалось чисто графическим знаком, не несущем никакого смысла. В греческом придыхание ставилось в начале слова и тем самым обозначало словесную границу в слитном письме, а в славянском оно нередко ставилось внутри слова и обозначало слоговую границу, которая и так очевидна из контекста.

6.1. Ударение.

В современном церковнославянском основным знаком ударения является оксия ('), которая регулярно заменяется на варию (`) в конце фонетического слова, согласно правилам греческого языка. Камора (^) употребляется для различения форм единственного vs. множественного/двойственного числа (благи́мъ vs. благи̂мъ, дѣѧ́ніѧ vs. дѣѧ̂ніѧ, раба́ vs. раба̂, рабы́ vs. рабы̂), хотя в этой функции с ней конкурирует различие Е–Є и О–Ѡ (см. п. 4).

В Острожской Библии ударение употребляется крайне непоследовательно. Одно и то же слово может писаться с ударением или без него, ударение может стоять в разных местах, ударений может быть несколько: а́вимеле́хъ–авимеле́хъ–авимелехъ, авраа́млѧ–авраа́млѧ́–авраамлѧ, а́рхїере́и́–архїере́и–архїере́и́–архїереи, безако́нова́ша–безаконова́ша–безаконоваша, боѧ́щеи́сѧ–боѧ́щеисѧ–боѧщеи́сѧ. Наконец, ударение может быть сдвинуто со своего места из-за высоких букв (Ѣ ) или типографской небрежности, в результате чего ударение фактически оказывается над согласной (!): безꙋ́мныи–безꙋм́ныи–безꙋмныи, бр́атѣ–бра́тѣ–братѣ, бр́ашна–бра́шна–брашна, бꙋ́детъ–бꙋд́етъ–бꙋде́тъ, бꙋ́деши–бꙋд́еши–бꙋдеши́–бꙋдеши, бѣ́ла–бѣл́а–бѣла, бѣ́сы–бѣс́ы–бѣсы, велелѣ́пота–велелѣп́ота–велелѣпота́–велелѣпота, в́ет̾хꙋ–ве́тхꙋ, възвѣщ́ꙋ–възвѣщꙋ́–възвѣщꙋ, въз́ложитъ–възло́житъ–възложи́тъ, въ́зметъ–въз́метъ–възме́тъ–възмет–възметъ, възм́ꙋ–възмꙋ́–възмꙋ, възнес́е–възнесе́–възнесе, въз́пи́–възпи́–възпи–възъпи́–възъпи, въ́зри–въз́ри–възри́–възри, ви́дѣшѧ–видѣш́ѧ–видѣшѧ, внꙋт́ръѹ́дꙋ–внꙋтръѹ́дꙋ–вънꙋтръѹ́дꙋ.

Возможно, некоторые случаи сдвига ударения имеют под собой фонетическое основание, но при такой орфографической свободе их невозможно отличить от ошибок набора.

Основным знаком ударения также является оксия ('), которая регулярно заменяется на варию (`) в конце фонетического слова, В некоторых односложных/служебных словах вместо оксии также употребляется камора (^), которая обычно ставится над согласной: б̂о–бо́–бо, б̂ы–бы́–бы̂–бы, б̂ѣ–бѣ́–бѣ, вз̂ѧ–взѧ́–взѧ, вн̂ѣ–внѣ́–внѣ, вс̂е–все́–все, вс̂есъж̾же́нїе–все́съж̾же́нїе–все́съж̾женїе–всесъж̾же́нїе–всесъж̾женїе, вс̂ѧ–всѧ̂–всѧ́–всѧ, вс̂ю–всю́–всю, вс̂ѣ–всѣ́–всѣ, вс̂ѧкъ–всѧ̂къ–всѧ́къ–всѧкъ, в̂ы–вы́–вы̂–вы, гд̂ѣ–гд́ѣ–гдѣ́–гдѣ, да–да́–д̂а, дв̂а–два́–два̂–два, дв̂ѣ–двѣ́–двѣ, дв̂адесѧть–два́десѧ́ть–два́десѧть–двадесѧть, дв̂ана́десѧть–дв̂анадесѧть–двана́десѧть–дванадесѧть, дв̂ою–дво́ю–двою́–двою, дв̂ѣст̂ѣ–дв̂ѣстѣ–двѣстѣ, дн̂и–дни́–дни, дщ̂и–дщ́и–дщи́–дщи̂–дщи, ед̂а–еда́–еда̂–еда, зд̂ѣ–здѣ́–здѣ, зл̂о–зло́–зло–ѕл̂о–ѕло́–ѕло̂–ѕло, ѕл̂острада́нїе, ѕл̂отворе́нїю, ил̂и–или́–или̂–или, кт̂о–кто́–кто, л̂и–ли́–ли̂–ли, м̂и–ми́–ми, мн̂ѣ–мнѣ́–мнѣ–м́нѣ*–м̂нѣ*–мн́ѣ*, м̂ы–мы́–мы̂–мы, м̂ѧ–мѧ́–мѧ, не́жел̂и–не́жели–нежел̂и–нежели́–нежели̂–нежели, н̂и–ни́–ни̂–ни, н̂икто́же–н̂иктоже–никт́оже–никт̂оже–никто́же–никтоже́–никтоже, н̂ичто́же–ничт̂оже–ничто́же–ничтоже, н̂о–но–но́–но̂, н̂ы–ны́–ны, н̂ю–ню́–ню, н̂ѧ–нѧ́–нѧ, нѣкт̂о–нѣкто́–нѣкто, почт́о–почт̂о–почто–почто́, рц̂и–рци́–рци–рц̂ы–рцы́–рцы, с̂е–се́–се̂–се, с̂и–си́–си̂–си, ст̂о–сто́–сто, т̂а–та́–та, т̂и–ти́–ти, т̂ма–тм̂а–тма́–тма̂–тма, т̂о–то́–то̂–то, тр̂и–три́–три, т̂ы–ты́–ты̂–ты, т̂ѧ–тѧ́–тѧ, т̂ѣ–тѣ, чт̂о–что́–что̂–что. Подробнее об употреблении каморы в данных случаях см. [Кусмауль 2017].

Поскольку ударение в Острожской Библии употребляется крайне нерегулярно, то с точки зрения морфологического анализатора придется его просто игнорировать. При этом мы теряем возможность различить некоторые омонимы (воды́ vs. во́ды), но это небольшая потеря на общем фоне.

6.2. Придыхание.

В современном церковнославянском придыхание автоматически ставится над начальной гласной слова и не имеет смыслоразличительной функции.

В Острожской Библии придыхание регулярно ставится над начальной гласной слова, если только оно не пропущено по типографской небрежности. Кроме того, придыхание иногда ставится над начальной гласной слога внутри слова, особенно в следующих случаях:

1) довольно часто над гласной в начале слога в иностранных словах: аа҆ро́нъ, авиа҆ѳа́ръ–авїа҆ѳа́ръ, авиѹ҆́дъ, ае҆рмо́нъ, антїѻ҆хїѧ, архие҆ре́и–архїе҆ре́и, вениа҆ми́нъ–венїа҆ми́нъ, виѳлее҆мъ–виѳлеѻ҆мъ, воѻ҆́зъ, галаа҆дъ, гедеѻ҆́нъ, елеа҆за́ръ, еѹ҆се́и, заѹ҆ло́нь, иа҆фе́тъ, ие҆заве́ль–іе҆заве́ль, ие҆зекїѧ–іе҆зекїѧ, ие҆ре́и–іе҆ре́и, ие҆ремїѧ–іе҆ремїѧ, ие҆рихо́нъ–іе҆рихо́нъ, ие҆ровоа́мъ–іе҆ровоа́мъ, ие҆рслимъ–іе҆рсли́мъ, іе҆ссе́и, іи҆л҃ь, іи҆л҃ьтѧни́нъ, илиѻ҆до́ръ, иѻ҆а́въ–іѻ҆а́въ, иѻ҆а҆ки́мъ–іѻ҆а҆кимъ, иѻ҆а҆на́ѳанъ–иѻа҆наѳа́нъ–іѻ҆а҆наѳанъ, иѻ҆а́ннъ–іѻ҆а́ннъ, иѻ҆наѳа́нъ–іѻ҆наѳа́нъ, иѻ҆рда́нъ–іѻ҆рда́нъ, иѻ҆сафа́тъ–іѻ҆сафа́тъ, иѻ҆си́фъ–іѻ҆́сифъ, иѹ҆́да–иѹ҆да–іѹ҆́да–іѹ҆да, иѹ҆де́а–іѹ҆де́а, иѹ҆де́иска–іѹ҆де́иска, ию҆де́иска–ію҆де́иска, капернаѹ҆мъ, кариа҆ѳїа҆ри́мъ–карїа҆фїа҆ри́мъ–карїа҆ѳїа҆ри́мъ, киѻ҆́тъ–киѻ҆тъ–кїѻ҆́тъ–кїѻ҆тъ, легеѻ҆нъ, мадїа҆мъ, манасїе҆въ, манаси́и҆нъ–манасїи҆нъ, моа҆въ, моѷсїѻ҆въ, наа҆ссо́нъ, нее҆ма́нъ, нее҆мїѧ, ное҆м̾ми́нь, само́и҆лъ, самꙋи҆лъ, саѹ҆́лъ–саѹ҆лъ, симеѻ҆́нъ–симеѻ҆нъ–сѷмеѻ҆́нъ, фараѻ҆́нъ–фараѻ҆нъ, ханаа҆́нъ–ханаа҆нъ;

2) довольно часто над гласной в начале корня в сложных словах: бл҃гоѻ҆́бразенъ, бл҃гоѹ҆ха́нїе, внꙋтръѹ҆́дꙋ, внѣѹ҆́дꙋ, вои҆́стиннꙋ, въѻ҆бразитъ, въѻ҆рꙋжи́тисѧ, двоꙗ҆́зы́ченъ, дои҆до́ша, зако́ноѹ҆чи́тель, заѹ҆́тра, звѣроꙗ҆́дины, ѕвѣроѻ҆́бразно, изъѻ҆би́лїе, изоѻ҆стре́нъ, изъѹ҆мле́нїе, наѻ҆стри́сѧ, наѹ҆чи́ти, изъѧ҆ви́ти–изъꙗ҆ви́ти, изъꙗ҆́де́нїе, ми́мои҆де́тъ, наи҆до́ша, неи҆зреченныхъ, неи҆мѣнїе, неи҆стовъства, неи҆сцѣ́лною, неѻ҆брѣзаныхъ, неѻ҆пи́санъ, неѹ҆до́бь, неѹ҆краше́на, неꙗ҆́сыти, ѻбою҆́дꙋ–ѻбою҆дꙋ, ѻбоꙗ҆́мо, ѻбъѹ҆че́нїе, ѻбъѹ҆шїе, ѻбъе҆́млютъ, ѻбъꙗ҆ви́тъ, ѻбъꙗ҆денїе, ѻбъꙗ҆́ти, ѻбъи҆до́ша, ѻбъи҆маютъ, ѿѻ҆нꙋ́дꙋ, ѿе҆́млѧ, ѿѧ҆́ти–ѿꙗ҆́ти, ѿи҆́де, ѿи҆метъ, поде҆млетъ, подѧ҆ремникъ–подꙗ҆́ре́мникъ, пое҆ди́номꙋ, пое҆́млютъ, пое҆мше, пои҆ми́, пои҆́стиннѣ, пои҆ти́, пои҆́щеши, поѹ҆сти́ти, поѹ҆ча́ютсѧ, поꙗ҆́до́ша–поꙗ҆до́ша, преди҆детъ, преи҆до́ша, преѻ҆брази́сѧ, препоꙗ҆́сана, препоѧ҆са́нїе, преѹ҆краше́на, прие҆мше–прїе҆мше, прїи҆до́ша, прїи҆мати, приѻ҆брѣ́лъ, приѧ҆́ти–приꙗ҆́ти–прїѧ҆́ти–прїѧ҆ти, прои҆дѣте, прои҆зво́лѧтъ, проꙗ҆влю, съѻ҆бѣщник, ѹ́трьѹ҆́дѣ, четвероѹ҆го́лныхъ;

3) регулярно во флексиях некоторых местоимений: мое҆го, мое҆мꙋ, мое҆мъ, мое҆ю, мое҆ѧ, мои҆ма, мои҆мъ, мои҆хъ, нѣ́кое҆го, нѣ́кое҆мꙋ, нѣ́кое҆мъ, нѣ́кои҆мъ, нѣ́кои҆хъ, свое҆го, свое҆мꙋ, свое҆мъ, свое҆ю, свое҆ѧ, свое҆и, свои҆ма, свои҆ми, свои҆мъ, свои҆хъ, твое҆го, твое҆мꙋ, твое҆мъ, твое҆ю, твое҆ѧ, твои҆ма, твои҆ми, твои҆мъ, твои҆хъ;

4) иногда в определенных глагольных флексиях и суффиксах причастий: дае҆те, дае҆тъ, даю҆́щи, дви́жꙋщаѧ҆сѧ, дѣ́лае҆тъ, дѣ́лае҆ши, дѣлаи҆те, дѣлаю҆тъ, дѣлаю҆ще, избыва́ю҆щаѧ, исповѣдае҆мсѧ, исповѣда́ю҆щисѧ, исповѣдаѧ҆и́, кла́нѧе҆тесѧ, кланѧю҆щасѧ, негнию҆щее, ѿкры́ю҆тъ, рабо́тае҆мъ, рабо́тае҆тъ, рабо́таи҆те, рабо́таю҆ть, рабо́таю҆щеи, разꙋмѣе҆мъ, разꙋмѣе҆те, разꙋмѣе҆тъ, разꙋмѣе҆ши, разꙋмѣю҆тъ, разꙋмѣю҆щи, стои҆те́, стои҆тъ, стои҆ши, стоѧ҆ла, стоѧ҆ше, стоѧ҆ща, требꙋе҆мъ, требꙋе҆те, требꙋю҆тъ, требꙋю҆щаѧ, требꙋю҆ще;

5) в отдельных словах: бо́ꙗ҆знь–боꙗ҆́знь–боѧ҆знь, боꙗ҆́тисѧ, боѧ́и҆сѧ, боѧ҆хꙋсѧ, боꙗ҆́шесѧ, боѧ҆щесѧ, боꙗ҆́щисѧ, вое҆ванїи, вое҆ва́ти, вое҆ва́ша, вое҆во́да, во́и҆нъ, во́и҆на, во́и҆ни, вои҆нникъ, во́и҆нъство, во́и҆нстїи, паѹ҆чи́на.

Придыхание внутри слова почти всегда необязательно и может отсутствовать. Достаточно регулярно оно ставится только над буквами Ѹ, Ѻ (реже над ), таким образом, здесь диакритика становится как бы частью буквы. Это создает дополнительное визуальное противопоставление между «автономными» Ѹ, Ѻ, которые могут образовывать самостоятельный слог, и «связанными» , О, которые всегда стоят после согласной.

7. Отдельные особенности.

Перечислим кратко другие орфографические особенности Острожской Библии:

7.1. Отсутствие буквы Й.

Буква Й исторически представляет собой сочетание И с надстрочным знаком «краткая». В Острожской Библии этот знак употребляется крайне редко и непоследовательно в конце слова или флексии: во́й—во́и, все́й—все́и, е́й—е́и, е́йже—е́иже, ѕмїй—ѕмїи, мо́й—мой—мои, свое́й—свое́и, се́й—се́и, сы́й—сы́и, твой—твои. Обычно краткость И никак не обозначается, что порождает множество грамматических омонимов (мой=мои, край=краи). Это создает огромную проблему для морфологического анализа: приходится переделывать всю систему флексий и часть словаря.

7.2. Архаичные и южнославянские написания.

7.2.1. Р/Л+Ъ/Ь.

В некоторых корнях достаточно часто пишутся архаичные/южнославянские сочетания Р/Л+Ъ/Ь или Ъ/Ь+Р/Л вместо более обычных русских ЕР, ОР, ОЛ: влъ́къ, влъче́цъ, влъна́, влъне́нїе—вълне́нїе, влъ́хвъ—въ́лхвъ, влъхвова́нїе—вълхвова́нїе, влъхвова́ти—влъхвова́ти, връ́хъ—врь́хъ, връте́пъ—врьте́пъ, врътогра́дъ—врьтогра́дѣ, врьвь, вр́ьжетъ, вр́ьзи, въвр́ъже—въвр́ьже, въздръжа́нїе, въстръга́ти, длъгъ, длъгота́, длъготерпѣ́нїе—длъготръпе́нїе, длъготръпѣ́ти—длъготрьпѣ́ти, длъготръпѣливъ—длъготрьпеливъ, дл́ъженъ, длъжникъ, дрьжа́тисѧ, дрьза́ти, дрьзнове́нїе, дрьзость, исп́лънити, истръгнетъ, наплъ́нити, ѻплъче́нїе, ѻплъчи́тисѧ, плъкъ, плънъ, плъть, пръ́вый—прь́выи, пръвенецъ—прь́венецъ, пръворо́дныи—прьворо́дныи, претръпѣ́ти, пр́ьси, прь́скїи, пр́ьстень, прь́стъ, прь́сть, растръгнетъ, растръза́ти, растръза́нїе.

7.2.2. Начальные ВЪ, СЪ.

В приставках въ, въз/въс, съ часто пишется Ъ независимо от произношения, которое может быть [о] или нуль, причем точно это установить невозможно: въвлече́, въвръго́ша, възбрани́ти, възва́ти, възвесели́ти, възврати́ти, възвыше́нїе, възвѣсти́ти, въздаѧ́нїе, въздвига́ти, въздръжа́нїе, възложи́ти, възлюби́ти, възнести́, възопи́ти, възра́доватисѧ, възрѣ́ти, въпроси́ти, въспрїѧ́ти, въста́ти, въсто́къ, въсходи́ти, въц҃ри́тисѧ, събла́знъ, съблюсти́, събо́ръ, събра́ти, сътвори́ти, съверши́ти, съвлещи́, съвѣща́ти, съгрѣши́ти, съзва́ти, съзида́ти, съкро́вище, съкры́ти, съста́вити, сътвори́ти, съчета́ти.

Эта орфографическая условность (въ, съ=во, со) настолько сильна, что иногда проникает даже в слова без приставок: въдо́ю, въева́ти, въево́дамъ, вълы́, въѻ́зъ, събо́ю.

7.2.3. А вместо Ѧ после гласной.

Иногда по болгарскому образцу вместо Ѧ пишется А после гласных А, О, реже после Ѣ, Ѹ. Обычно это происходит во флексиях, реже в суффиксах и основах. Примеры:

1) А+А: бл҃га́а, боѧ́щаасѧ, бывааи, бѣгаа, бѣ́лаа, ваа́нїе, вели́каа, велича́а, възвѣщааи́, въздаа́нїе, въздаа́ти, въздвиза́аи́, възлага́а, възлю́бленаа, взыска́а, вла́асѧ, внима́а, вселе́ннаа, всѧческаа, втора́а, вѣ́чнаа, даа́нїе, даа́ти, ди́внаа, до́браа, живꙋщ́аа, запрѣща́а, земна́а, зла́а, изваа́но, испытааи́, и́стиннаа, ка́а, кра́а, кра́снаа, ме́ншаа́, морьска́а, напаа́а (!), напаа́ти, наѹча́аи́, нечаа́нный, нѣ́каа, ѻбаа́нники, ѻбрѣта́а, ѻбрѣтааи́, ѻбы́чаа, ѻкаа́ннаа, па́даа́, побива́а, покаа́нїе, пока́атисѧ, прикаса́асѧ, про́чаа, пр́ьваа, раскаа́нїе, раска́атисѧ, сицева́а, сп҃са́аи, степе́ннаа, ст҃а́а, сꙋ́етнаа, сѣдѧ́щаа, ѹмира́а, хода́таа, цр҃ко́внаа, ча́а, чаа́нїе;

2) О+А: бо́азнь, боа́тисѧ, всѧ́коа, гно́а, доа́ше, досто́анїе, достоа́ше, еді́ноа, зно́а, моа́, настоа́нїе, настоа́тель, настоа́щїи, непостоа́ненъ, ѻбъстоа́нїе, ѻбъстоа́ше, ѻ́ноа, поа́лъ, поа́ша, поко́а, предстоа́нїе, предстоа́ти, препоа́санїе, препоа́сасѧ, своа́, твоа́, тоа́, стоа́, стоаи́, стоа́ло, стоа́нїе, стоа́ти, ѹбоа́тисѧ;

3) Ѣ+А: бл҃годѣа́нїе, възвѣ́ашѧ, всѣ́ано, грѣ́асѧ, дѣа́нїе, дѣа́ти, имѣ́а, имѣ́аи, любодѣа́нїе, надѣа́нїе, надѣ́атисѧ, ѻдѣ́анъ, ѻдѣа́нїе, ѻдѣа́шѧ, посмѣа́нїе, посѣ́аша, прелюбодѣа́нїе, сѣ́анїе, сѣ́ати, разсѣ́анїе, чародѣа́нїе;

4) +А: бесѣдꙋа, враждꙋ́а, вѣрꙋа, вѣрꙋаи́, испытꙋа, недꙋгꙋ́а, непра́вдꙋа, ѻбинꙋ́асѧ, ѻбꙋа́етъ, ѻбꙋа́ѧ, повинꙋ́аи́, повинꙋасѧ, показꙋа, пррочествꙋа, свѣдѣтельствꙋа, радꙋасѧ, требꙋа.

Замена Ѧ на А также встречается после Е, І в славянских словах, но это явление наблюдается и современном церковнославянском, хотя значительно реже.

9. Заключение.

Анализ орфографических особенностей Острожской Библии приводит нас к следующему выводу. Морфологический анализатор для церковнославянского языка требует существенной переделки, чтобы он мог обрабатывать тексты в старой орфографии, особенно с учетом царящей там орфографической свободы. Можно выделить следующие направления работы:

1) Применять более агрессивные методы унификации исходных написаний, чтобы свести вместе все возможные орфографические варианты, даже если это приведет к некоторой потере информации.

2) Научиться работать с неполной и неточной информацией, сделать нечеткий поиск в словаре и грамматических таблицах.

3) Ввести в словарь дополнительные варианты написания, которые невозможно вычислить алгоритмическими методами.

Литература.

Алипий (Гаманович). Грамматика церковно-славянскаго языка. Jordanville (N. Y.), 1964.

Плетнева А. А., Кравецкий А. Г. Церковнославянский язык. 4-е доп. изд. М., 2006.

Поляков А. Е. Корпус церковнославянских текстов: проблемы орфографии и грамматики // Przegląd wschodnioeuropejski. V. 1, 2014. S. 245–254. http://www.ruslang.ru/doc/church-slav/conf4/05-polyakov.pdf.

Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). // Труды международной конференции «Корпусная лингвистика — 2017». СПб., 2017. С. 295—298.

Добрушина Е. Р., Кравецкий А. Г., Поляков А. Е. Корпус и частотный грамматический корпусный словарь церковнославянского языка в составе Национального корпуса русского языка // Национальный корпус русского языка: 10 лет проекту. Труды Института русского языка им. В. В. Виноградова. Вып. 6. М., 2015. C. 116–141.

Острожская Библия (факсимиле). http://www.vechnoe.info/bible/pdf, http://samstar-biblio.ucoz.ru/load/46-1-0-84.

Острожская Библия: современный набор с параллельным переводом на украинский язык. Подготовил Рафаил (Роман) Торконяк. Львов, 2006. http://www.vechnoe.info/bible/ostrog-bible-ukranian/view.

Church Slavonic typography in Unicode. http://www.unicode.org/notes/tn41/.

Кириллица в Юникоде. https://ru.wikipedia.org/wiki/Кириллица_в_Юникоде.

Карский Е. Ф. Славянская кирилловская палеография. М.: Наука, 1979. XIX, 494 с.

Каверина В. В. Становление русской орфографии в XVII–XIX вв. : правописный узус и кодификация / дисс. ... докт. фил. наук. М., 2010. 436 с. http://www.ruslang.ru/doc/autoref/kaverina.pdf

Кусмауль С. М. Книжная справа 40-х годов XVII века // Slověne. 2014. № 1. С. 72—101.

Кусмауль С. М. Эволюция функций знака каморы в богослужебных изданиях кон. XVI — перв. пол. XVII в. // Вестник ПСТГУ. Серия III: Филология. 2017. Вып. 51. С. 21–47. http://pstgu.ru/download/1498120889.2_Kusmaul_21-47.pdf.


А.Е. Polyakov
(Russia, Moscow)
pollex@mail.ru

Spelling of the Ostrog Bible in context of the Church Slavonic corpus.

Abstract. Modern Church Slavonic spelling is fairly standardized and defines the rules for letters and diacritics, abbreviations (titlo and letter-titlos), word separation, spelling of word forms and distinction of homonyms. This standard helped us to create a grammar dictionary and morphological analyzer for Church Slavonic (http://dic.feb-web.ru/slavonic/dicgram/index.htm), which is used in the corpus of Church Slavonic texts (http://ruscorpora.ru/search-orthlib.html). The Ostrog Bible (1581) is the first complete edition of the Bible in Church Slavonic and should be included into the corpus, but there were a lot of problems. The spelling of this edition deviates from the modern standard and is extremely irregular and unstable. This article analyzes the spelling peculiarities of the Ostrog Bible and the feasibility of its automatic morphological analysis. Special attention is paid to duplicate letters and other graphic symbols which generate a lot of spelling variations for a particular word. We conclude that the morphological analyzer should be significantly reworked in order to process the old spelling, and determine the directions of further work.

Keywords: Church Slavonic, spelling, corpus linguistics, automatic morphological analysis

References.

Alipii (Gamanovich). Grammatika tserkovno-slavyanskago yazyka. [Grammar of Church Slavonic] Jordanville (N. Y.), 1964.

Pletneva A. A., Kravetskii A. G. Tserkovnoslavyanskii yazyk. [Church Slavonic] 4th aug. ed. Moscow, 2006.

Polyakov A. E. Korpus tserkovnoslavyanskikh tekstov: problemy orfografii i grammatiki [Corpus of Church Slavonic texts: problems of spelling and grammar] In: Przegląd wschodnioeuropejski. V. 1, 2014. pp. 245–254. http://www.ruslang.ru/doc/church-slav/conf4/05-polyakov.pdf.

Polyakov A. E. Grammaticheskii slovar' tserkovnoslavyanskogo yazyka (po materialam korpusa) [Grammatical dictionary of Church Slavonic (corpus-based)] In: Trudy mezhdunarodnoi konferentsii «Korpusnaya lingvistika — 2017». St. Petersburg, 2017. pp. 295—298.

Dobrushina E. R., Kravetskii A. G., Polyakov A. E. Korpus i chastotnyi grammaticheskii korpusnyi slovar' tserkovnoslavyanskogo yazyka v sostave Natsional'nogo korpusa russkogo yazyka [Corpus and frequency grammatical dictionary of Church Slavonic within the National corpus of Russian] In: Natsional'nyi korpus russkogo yazyka: 10 let proektu Trudy Instituta russkogo yazyka im. V. V. Vinogradova. Vyp. 6. Moscow, 2015. pp. 116–141.

Ostrog Bible (facsimile). http://www.vechnoe.info/bible/pdf, http://samstar-biblio.ucoz.ru/load/46-1-0-84.

Ostrozhskaya Bibliya: sovremennyi nabor s parallel'nym perevodom na ukrainskii yazyk [Ostrog Bible: modern typesetting with parallel Ukrainian translation] Prepared by Rafail (Roman) Torkonyak. L'vov, 2006. http://www.vechnoe.info/bible/ostrog-bible-ukranian/view.

Church Slavonic typography in Unicode. http://www.unicode.org/notes/tn41/.

Cyrillic script in Unicode. https://en.wikipedia.org/wiki/Cyrillic_script_in_Unicode.

Karskii E. F. Slavyanskaya kirillovskaya paleografiya [Slavic Cyrillic paleography]. Moscow, Nauka, 1979. XIX, 494 p.

Kaverina V. V. Stanovlenie russkoi orfografii v XVII–XIX vv. : pravopisnyi uzus i kodifikatsiya. Diss. dokt. fil. nauk. [Formation of Russian spelling in 17th–19th centuries: spelling usage and codification. Dr. phil. sci. diss.] Moscow, 2010. 436 p. http://www.ruslang.ru/doc/autoref/kaverina.pdf

Kusmaul' S. M. Knizhnaya sprava 40-h godov XVII veka [Book Correction in the 40s of the 17th Century] In: Slověne. 2014. № 1. pp. 72—101.

Kusmaul' S. M. Ehvolyutsiya funktsii znaka kamory v bogosluzhebnykh izdaniyakh kon. XVI — perv. pol. XVII v. [Evolution of the functions of the kamora sign in liturgical books from the late 16th to the first half of the 17th centuries] In: Vestnik PSTGU. Seriya III: Filologiya. Moscow, 2017. Vyp. 51. pp. 21–47. http://pstgu.ru/download/1498120889.2_Kusmaul_21-47.pdf.