Сводный исторический словарь русского языка XVIII–XX веков

Описание проекта

Данный проект создан при поддержке Фонда фундаментальных лингвистических исследований (ФФЛИ) по гранту № C-07

1. Цель проекта

Цель проекта – создание интегрированной словарной базы данных русского языка XVIII–XX веков, включающей глубокую разметку словарных статей и возможность поиска по зонам.

Словарная база создается на основе наиболее авторитетных толковых и многоязычных словарей:

– Российский с немецким и французским переводами, словарь: В 2 ч. / И. Нордстета (1780–1782).

– Словарь Академии Российской: В 6 т. (1789–1794).

– Новый словотолкователь: В 3 ч. / Н. Яновский (1803–1806).

– Словарь Академии Российской, по азбучному порядку расположенный: В 6 т. (1806–1822).

– Словарь церковнославянского и русского языка: В 4 т. (1847).

– Толковый словарь живого великорусского языка: В 4 т. / В. И. Даля. 2-е изд. (1880–1882).

– Новые параллельные словари... / Ф. Рейф. Ч. 1: Русский словарь (1860).

– 30 000 иностранных слов / [А. Д.] Михельсон (1866).

– Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова (1935–1940).

– Словарь современного русского литературного языка: В 17 т. (1950–1965).

Большинство этих словарей недоступны исследователям. Некоторые старые словари и 17-томный академический словарь отсканированы и доступны в виде графики, но не в текстовом виде. Словарь Даля циркулирует в современной орфографии и с опечатками, снижающими его научную ценность. Из словарей XX века лишь немногие доступны в текстовом виде, но без систематической разметки. Их можно читать как электронные книги, но невозможно использовать как полноценные справочники: искать статьи по заголовочному слову, грамматическим и стилистическим пометам, искать текст в зоне толкований и т.д.

Создаваемый словарный продукт принципиально отличается от традиционных сводных словарей (ср. Сводный словарь современной русской лексики, 1991) – это не просто указатель-ориентир, а полнотекстовая лексикографическая база, позволяющая отслеживать лексикографические фиксации слова на протяжении трех веков, наблюдать филиацию его (под)значений, динамику изменения стилистических характеристик, дефиниций и т.д. Словарь принципиально отличается от существующих словарных сервисов (http://slovari.ru, http://slovari.yandex.ru, http://dic.academic.ru) тем, что словарная статья имеет разметку по зонам и возможность поиска по ним.

2. Структура словарной базы.

Все словари в словарной базе данных представляются в унифицированном формате. Основной единицей является словарная статья, в которой выделяются следующие зоны:

1) заголовочное слово (лексема);

2) грамматические пометы (часть речи, род, вид, переходность);

3) стилистические пометы (устар., простореч., церк.);

4) этимология (иногда);

5) толкование, обычно разделенное на несколько (под)значений;

6) примеры употребления (для каждого значения), иногда с указанием источника;

7) сочетания (фразеологизмы) с данным словом, которые могут иметь свои пометы, толкования и примеры употребления;

8) производные от данного слова, которые могут иметь свои пометы, толкования и примеры употребления;

9) переводы на другие языки (для переводных словарей);

10) энциклопедическая информация об объекте (если есть).

Т.о., словарная статья имеет иерархическую структуру, где данные сгруппированы по слову / словосочетанию, а далее по (под)значениям.

Идентификатором статьи является заголовочное слово (включая варианты). Сочетания и производные даются под шапкой основного слова или выделяются в отдельные подстатьи, подчиненные основной.

Принцип подачи материала в интегрированном словаре таков: мы не меняем исходный текст статьи, а добавляем к нему дополнительную информацию (лексема, часть речи, код парадигмы), которую можем унифицировать для поиска. Например, необходимо унифицировать лексемы, зафиксированные в разной орфографии (лѣто–лето, дьячек–дьячок) или в разных формах (соборую–соборовати–соборовать).

3. Опыт и задел.

Авторы заявки имеют большой опыт в создании электронных словарей, включая оцифровку, зональную разметку и представление в интернете. Заявители подготовили словарный раздел ФЭБ (http://feb-web.ru/feb/feb/dict.htm), словари и конкордансы языка писателя – Грибоедова (http://feb-web.ru/feb/concord/abc/) и Ломоносова (http://feb-web.ru/feb/lomoconc/abc/). Некоторые участники проекта входили в редсовет программы «Яндекс. Словари» (http://slovari.yandex.ru/) и непосредственно участвовали в подготовке словарей для этого сервиса.

Ими же успешно осуществлен проект «Создание программного модуля проверки русской дореформенной орфографии» (РФФИ, 2011–2013).

4. Техническая реализация.

В виде (раздела) сайта под управлением Apache 2.x HTTP сервера. Доступ к контенту с помощью скриптов PHP 5.x. Обработка и хранение данных с помощью реляционной базы данных MariaDB (MySQL 5.5). Все программные компоненты являются бесплатным ПО с открытым исходным кодом.