А. Е. Поляков

Сводный исторический словарь русского языка XVIII–XX вв.

 

1. Описание проекта.

Сводный исторический словарь русского языка (http://dic.feb-web.ru/rusdict/) представляет собой интегрированную базу русских словарей XVIII—XX вв., которая включает глубокую разметку и возможность поиска по зонам словарной статьи.

Словарная база создается на основе наиболее авторитетных толковых и многоязычных словарей:

• САР-1 = Словарь Академии Российской (1789–1794).

• САР-2 = Словарь Академии Российской, по азбучному порядку расположенный (1806–1822).

• СЦРЯ = Словарь церковнославянского и русского языка (1847).

• Даль = Толковый словарь живого великорусского языка / 2-е изд. (1880–1882).

• Рейф = Новые параллельные словари... Ч. 1: Русский словарь (1860).

• Ушаков = Толковый словарь русского языка (1935–1940).

• МАС = Словарь современного русского литературного языка (1950–1965).

Некоторые из этих словарей отсканированы и доступны в виде графических файлов (pdf/dvju/tiff) без текста, которые непригодны для поиска и часто неудобны для просмотра (мелкий шрифт, двухколонная верстка). Некоторые словари существуют в текстовом виде, но не имеют систематической разметки, что резко снижает их ценность для научного анализа. В лучшем случае, их можно читать как электронные книги, но невозможно использовать как полноценный лексикографический источник.

Сводный исторический словарь представляет собой полнотекстовую лексикографическую базу данных, которая позволяет решать следующие задачи:

• искать статьи по заголовочному слову (с учетом вариантов);

• искать статьи по грамматическим и другим пометам;

• искать текст в зоне толкований, примеров;

• отслеживать словарную фиксацию слова во времени;

• наблюдать филиацию значений слова;

• регистрировать совпадения и различия в дефинициях;

• видеть динамику изменения стилистических характеристик слова.

Словарь отличается от существующих сводных словарей именно наличием полного текста. Например, «Сводный словарь современной русской лексики» (1991) представляет собой просто указатель заголовков из других словарей.

Словарь принципиально отличается от существующих словарных сервисов (http://slovari.ru, http://slovari.yandex.ru, http://dic.academic.ru) тем, что словарная статья имеет разметку по зонам и возможность поиска по ним.

 

2. Структура словарной базы.

Все словари в словарной базе данных представляются в унифицированном формате. Основной единицей является словарная статья, в которой выделяются следующие зоны:

1) заголовочное слово (лемма, включая варианты);

2) грамматические пометы (часть речи, род, вид, переходность);

3) стилистические пометы (устар., простореч., церк.);

4) этимология (иногда);

5) толкование, обычно разделенное на несколько (под)значений;

6) примеры употребления (для каждого значения), иногда с указанием источника.

Идентификатором статьи является заголовочное слово, которое может иметь несколько вариантов. Кроме того, статья может включать подстатьи, где фиксируются производные и словосочетания (фразеологизмы) с данным словом, которые могут иметь свои пометы, толкования и примеры употребления. В целом статья имеет иерархическую структуру, где данные сгруппированы по слову / словосочетанию, а далее по (под)значениям.

Некоторые словари (САР-1, Даль) устроены по гнездовому принципу, где подзначения даются вперемешку с производными и фразеологизмами, поэтому в них иногда довольно трудно выделить границы (под)статей.

++ПРИМЕР ДО И ПОСЛЕ РАЗМЕТКИ

 

3. Унификация словарной информации.

Словарная база включает словари, созданные в разное время, по разным принципам и в разной орфографии, поэтому возникает необходимость унификации словарной информации для обеспечения глобального поиска. При этом мы не меняем исходный текст словаря, но добавляем к нему дополнительную разметку, которую можем унифицировать для поиска.

Словари различаются следующими признаками:

• орфография;

• лемма;

• грамматические пометы;

• структура статьи.

Орѳографія

1) буквы і, ѣ, ѳ, ѵ → и, е, ф, и

2) конечный → ноль

3) -аго, -яго, -ыя, -ія

4) ея, онѣ, однѣ, однѣхъ

5) без-, воз-, из-, низ-, раз-, через- + глухія

6) -ье (вниманье, занятье)

7) -ію (милостію)

8) -ѣй (скорѣй), -яе (скоряе)

9) -ся (валюся, валилася)

10) дѣепричастія сов. вида (придя, увидя, взгромоздясь)

11) е/o послѣ шипящихъ и ц (лице, значекъ, чортъ)

12) слитно/раздѣльно/дефисно (то-есть, повидимому, кто нибудь)

14) ударное -ый/-ій (больны́й, босы́й, водяны́й, глухі́й, другі́й, слѣпы́й)

14б) безударное -ой/-ей (волчей корень, бобръ камчацкой)

15) приставка з- + звонкие (збавить, зберечь, збирать, згинуть, здавать)

15б) приставки на + глухие (возприять, возходь, изкони, изкушать, източникъ, изчезать, изходъ, разкаяться, разтворить)


Церковнославянизмы:

1) -ти (благодѣ́яти)

2) -ши (благодѣ́еши)

Заголовки статей и подстатей сохраняются в тексте как есть, но к ним добавляются теги разметки, где заголовки записаны в нормализованном виде. При этом мы сохраняем оригинальную орфографию (і, ѣ, ѳ, ѵ, -ъ, ударение), но в ряде случаев написание приходится слегка модернизировать или изменять, чтобы работал поиск. Старая орфография сама по себе не представляет большой проблемы для поиска, проблему создает изменчивость и нестабильность орфографической нормы.

Например, в САР-1 приставка с- часто пишется как з- перед звонкими согласными (збавить, зберечь, збирать, згинуть, здавать); приставки на сохраняют з перед глухими согласными (возприять, возходь, изкони, изкушать, източникъ, изчезать, изходъ, разкаяться, разтворить). Прилагательные с ударным -ой в старых словарях часто пишутся через -ый/-ій (больный, босый, глухій, дорогій, другій, плохій, слѣпый). Здесь нормализованное написание было приведено к современной норме.

В САР-1 заглавная форма глагола дается по античному образцу в форме 1 л. ед. ч. (алчу, бію, бѣгу, веду), которую по современным правилам необходимо перевести в инф. (алкать, бить, бѣжать, вести). В СЦРЯ глаголы с пометой Церк./Стар. даются с окочанием -ти (благовѣстити, блистати, вдати, вергнути), которое необходимо перевести в современное -ть.

Грамматические пометы в словарях даются в разном виде и с разной степенью полноты. Для поиска мы перевели все пометы в унифицированный формат, аналогичный стандарту грамматической разметки в Национальном корпусе русского языка (http://ruscorpora.ru/corpora-morph.html).

Словари XVIII—XIX века по сравнению с современными словарями дают более подробную залоговую классификацию глаголов, которая отображается на современную нотацию так: действительный=переходный (tr), средний=непереходный (intr), страдательный=med,pass, возвратный=med,refl, взаимный= med,recip и т.д.

С другой стороны, словари САР-1 и САР-2 очень скудно отображают видовые характеристики глаголов, поскольку объединяют в одну статью все видовые варианты (двигать, двигнуть, двинуть, двигивать), которые в современных словарях разнесены по разным статьям и снабжены соответствующими пометами.

Словарь САР-1 построен по гнездовому принципу, поэтому в заголовке статьи могут быть собраны не только дублеты (архиварій/архиваріусъ, безлюдіе/безлюдье, велблюдъ/верблюдъ), но и близкородственные слова, включая производные, например: агнецъ, агнчикъ, агница; баловникъ, -ница, баловщикъ, -щица; волкъ, волчокъ, волчище, волчица; избавитель, -ница; самодержавіе, самодержавство, самодержство. Слова в заголовке могут иметь разный грамматические характеристики (волкъ=N,m vs. волчица=N,f), что создает некоторую путаницу при поиске по грамматическим признакам.

 

4. Поисковый движок (Sphinxsearch).

В качестве поискового движка в системе был выбран Sphinxsearch (http://sphinxsearch.com). Эта программа специально предназначена для полнотекстового поиска в коллекциях текстов с HTML-образной разметкой и обладает широкими возможностями настройки. В частности, она позволяет задать таблицу преобразования символов для индексатора, зоны поиска при помощи произвольных тегов, пользовательский словарь для морфологического анализа и т.д.

Была разработана схема БД, сделаны скрипты для загрузки данных в БД. Настроена конфигурация Sphinxsearch для индексации и поиска по тексту зон. Разработан пользовательский интерфейс поиска по БД, который доступен по адресу: http://dic.feb-web.ru/rusdict/search.htm.

http://sphinxsearch.com

Система полнотекстового поиска (ср. Lucene, Xapian, Yandex).


Возможности:

1) поиск в текстах с HTML-образной разметкой

2) зоны поиска при помощи произвольных тегов (<sem>, <sample>)

3) таблица преобразования символов для индексатора

4) морфологический анализ для русского и др. языков

5) пользовательский словарь для морфологического анализа

6) поиск точных форм (=слово)

7) контекстный поиск ("точная фраза", расстояние, порядок, или, нет)

Таблица преобразования символов


Старые буквы заменяются на современные:
і=и ѵ=и ї=и ѣ=е є=е ѥ=е ѻ=о ѡ=о ѹ=у ѫ=у ѭ=у ѧ=я ѩ=я ѳ=ф ѕ=з

Работает лемматизатор для современного русского.
Не нужно хранить текст в двух орфографиях.


Замены:

1) Конечный Ъ,ъ заменяется на символ U+048c, U+048d (semisoft sign),
который игнорируется при индексировании, но сохраняется в выдаче,

2) Составные буквы (ѯ, ѱ, ѿ) заменяются на диграфы (кс, пс, от) с потерей информации. Это не для словарей, а для церковнославянского корпуса:
Поиск

Старые флексии и формы


Переделать лемматизатор или подключить пользовательский словарь:


новаго->нового, новыя->новые, милостию->милостью, ходити->ходить,
безсмертный->бессмертный, возстание->восстание


Или преобразовать текст, используя свой лемматизатор.

5. Результаты.

В настоящее время полностью подготовлены, размечены и загружены в систему следующие словари:

• САР-1

Объем: 45.6 тыс. статей, 3200 подстатей, 63 тыс. заголовочных слов и словосочетаний. Объем текста: 7.3 млн. символов, 1 млн. слов.

• СЦРЯ

Объем: 113 тыс. статей, 5600 подстатей, 120 тыс. заголовочных слов и словосочетаний. Объем текста: 10.7 млн. символов, 1.5 млн. слов.

Эти словари вместе с САР-2 хорошо покрывают русскую лексику вплоть до первой половины XIX века.

Разработана технология разметки и унификации словарной информации для разных источников.

 

6. Направления дальнейшей работы.

1) Пополнение системы за счет новых словарей.

САР-2 — проверены и частично размечены тома 1—4, тома 5—6 требуют проверки. Текстуально САР-1 во многом совпадает с САР-2 и может использоваться для его проверки.

МАС, Ушаков Словари XX века частично размечены по зонам и доступны в словарном разделе ФЭБ (http://feb-web.ru/feb/feb/dict.htm). Для интеграции их в систему требуется проверка и дополнительная разметка.

2) Расширение системы разметки словарей по зонам.

Возможно расширение списка зон за счет более четкой дифференциации компонент словарной статьи: главное слово vs. производное vs. фразеологизм.

В настоящее время только главное слово получает полный набор грамматических помет, поскольку они явно обозначены в словаре. В дальнейшем можно расширить систему помет для производных слов и фразеологизмов, например, ввести "частеречные" категории NP (антонов огонь) и VP (бить челом), но их придется проставлять вручную.

3) Дальнейшая унификация орфографии и грамматических помет в разных словарях.

В настоящее время многие заголовочные слова (особенно в САР-1) не полностью нормализованы и унифицированы с современной орфографией, что затрудняет их поиск.

Предполагается использовать разработанный нами парсер для старой орфографии для нормализации и унификации заголовочных слов к современному написанию.

4) Доработка инструментария для автоматизированной разметки словарных статей.

Исходные тексты словарей обычно содержат массу ошибок, в том числе неправильную расстановку маркеров (курсив, жирность и т.д.), что затрудняет автоматическую разметку.

Предполагается сделать верификацию и исправление формальных ошибок на начальном этапе разметки, что позволит сократить ручную работу по проверке зон.

 

Аннотация: Сводный исторический словарь русского языка (http://dic.feb-web.ru/rusdict/) представляет собой интегрированную базу русских словарей XVIII—XX вв., которая включает глубокую разметку и возможность поиска по зонам словарной статьи. В настоящий момент база данных включает размеченные тексты академических словарей 1789–1794 года (63 тыс. слов и словосочетаний) и 1847 года (120 тыс. слов и словосочетаний). Разработана система поиска, которая умеет искать по зонам словарной статьи: заголовочное слово, грамматические признаки, толкование, примеры. Планируется включить в базу данных основные толковые словари русского языка XIX–XX веков (Даль, Ушаков, МАС и др.)

Ключевые слова: лексикография, русский язык, исторический словарь.

Annotation: The Integrated historical dictionary of Russian (http://dic.feb-web.ru/rusdict/) is a database of Russian dictionaries of the 18th–20th centuries, which includes deep markup and the capability to search in dictionary zones. At the moment the database contains marked-up texts of the Academy dictionaries published in 1789–1794 (63 thousand words and combinations) and 1847 (120 thousand words and combinations). We have developed a search system that can search in dictionary zones: headword, grammatical features, explanation, usage examples. We plan to augment the database with other explanatory dictionaries of Russian of the 19th–20th centuries (Dal, Ushakov, MAS, etc.)

Keywords: lexicography, Russian, historical dictionary.