Сводный исторический словарь русского языка XVIII–XX вв.


http://dic.feb-web.ru/rusdict


Интегрированная база русских словарей XVIII–XX вв.


Особенности:

• разметка словарной статьи на зоны

• возможность поиска по этим зонам

Источники


Наиболее авторитетные толковые и многоязычные словари


• САР-1 = Словарь Академии Российской (1789–1794)

• САР-2 = Словарь Академии Российской, по азбучному порядку расположенный (1806–1822)

• СЦРЯ = Словарь церковнославянского и русского языка (1847)

• Рейф = Новые параллельные словари... Ч. 1: Русский словарь (1860)

• Даль = Толковый словарь живого великорусского языка (1880–1882)

• Ушаков = Толковый словарь русского языка (1935–1940)

• МАС = Словарь современного русского литературного языка (1950–1965)

Форматы (скан → текст → база данных)


Некоторые словари имеют сканы, но нет текста.

Другие имеют текст, но нет разметки.


Электронная книга vs. база данных

Возможности


База данных позволяет:

• искать статьи по заголовочному слову

• искать статьи по грамматическим и др. пометам

• искать текст в зоне толкований, примеров и т.д.


Исторический словарь позволяет:

• отслеживать словарную фиксацию слова во времени

• наблюдать филиацию значений

• регистрировать совпадения и различия в дефинициях

• видеть динамику изменения стилистических характеристик

Словарные сервисы


http://slovari.ru

http://slovari.yandex.ru

http://dic.academic.ru

Нет поиска по зонам


Словарный раздел ФЭБ:
http://feb-web.ru/feb/feb/dict.htm

Многие словари имеют разметку по зонам.

Структура словарной статьи


1) заголовочное слово (лемма, вокабула + варианты)

2) грамматические пометы (часть речи, род, вид, переходность)

3) стилистические пометы (устар., простореч., церк.)

4) этимология (иногда)

5) толкование (обычно несколько значений)

6) примеры употребления (для каждого значения), иногда плюс источник


Подстатьи для производных и словосочетаний с данным словом,
которые могут иметь свои пометы, толкования и примеры употребления.

Словарная статья имеет иерархическую структуру:
слово(сочетание), толкование, примеры.


Сочетания и производные даются внутри статьи или выделяются в отдельные статьи.


САР-1 и Даль устроены по гнездовому принципу:
значения даются вперемешку с производными и словосочетаниями.

НО́ВЫЙ, ая, ое, – но́въ, нова̀, но́во, пр. 1) Недавно сдѣланный, недавно произшедшій или недавно случившійся. Дома новы, но предразсудки стары. Грибоѣд. Новое платье. Новое изобрѣтеніе. Новый порядокъ. 2) Непривычный, неопытный. Онъ человѣкъ новый въ этой должности. 3) Небывалый.

Да, батюшка, съ тѣхъ поръ дороги, тротуары,
  Дома и все на новый ладъ.
Грибоѣд.

Это дѣло для меня еще новое. 4) Вновь возраждающійся, или прозябающій въ опредѣленное время. Новая рожь. Новые плоды. Новыя яблоки. 5) Вновь опредѣленный, или пожалованный. Новый директоръ. Новый кавалеръ.Новый Адамъ. Церк. Названіе Господа нашего Іисуса Христа.– Новый человѣкъ. Новая тварь. Церк. Христіанинъ, возрожденный благодатію. Облещися въ новаго человѣка. Ефес. IV. 24.– Новый самодержецъ. Самодержецъ, недавно вступившій на престолъ. Новый самодержецъ, провождаемый боярами, обходилъ всѣ главныя церкви Кремлевскія. И. Г. Р. XI. 11.– Новый завѣтъ. Книга, содержащая въ себѣ евангеліе, дѣянія и посланія апостольскія, также откровеніе св. Іоанна Богослова.– Новый міръ. Новый свѣтъ. Часть земнаго шара, открытая въ концѣ XV столѣтія: Америка.– Новый мѣсяцъ. Серповидная луна; видъ, который луна имѣетъ послѣ новолунія.– Новый стиль. Новое счисленіе времени, установленное Папою Григоріемъ XIII въ 1582 году.– Новое лѣто. Стар. Новый годъ, до 1700 года начинавшійся съ перваго Сентября. Послѣ вечерни патріарху обличеніе бываетъ къ молебну, а поютъ канонъ новому лѣту. Древн. Вивл. X. 1.– Новый годъ. Вновь наступившій годъ.

НОВЫЙ

НО́ВЫЙ, ая, ое, – но́въ, нова̀, но́во, пр.

1)

Недавно сдѣланный, недавно произшедшій или недавно случившійся.
Дома новы, но предразсудки стары. Грибоѣд.
Новое платье.
Новое изобрѣтеніе.
Новый порядокъ.

2)

Непривычный, неопытный.
Онъ человѣкъ новый въ этой должности.

3)

Небывалый.

Да, батюшка, съ тѣхъ поръ дороги, тротуары,
  Дома и все на новый ладъ.
Грибоѣд.

Это дѣло для меня еще новое.

4)

Вновь возраждающійся, или прозябающій въ опредѣленное время.
Новая рожь.
Новые плоды.
Новыя яблоки.

5)

Вновь опредѣленный, или пожалованный.
Новый директоръ.
Новый кавалеръ.

Новый Адамъ. Церк.

Названіе Господа нашего Іисуса Христа.–

Новый человѣкъ. Новая тварь. Церк.

Христіанинъ, возрожденный благодатію.
Облещися въ новаго человѣка. Ефес. IV. 24.–

Новый самодержецъ.

Самодержецъ, недавно вступившій на престолъ.
Новый самодержецъ, провождаемый боярами, обходилъ всѣ главныя церкви Кремлевскія. И. Г. Р. XI. 11.–

Новый завѣтъ.

Книга, содержащая въ себѣ евангеліе, дѣянія и посланія апостольскія, также откровеніе св. Іоанна Богослова.–

Новый міръ. Новый свѣтъ.

Часть земнаго шара, открытая въ концѣ XV столѣтія: Америка.–

Новый мѣсяцъ.

Серповидная луна; видъ, который луна имѣетъ послѣ новолунія.–

Новый стиль.

Новое счисленіе времени, установленное Папою Григоріемъ XIII въ 1582 году.–

Новое лѣто. Стар.

Новый годъ, до 1700 года начинавшійся съ перваго Сентября.
Послѣ вечерни патріарху обличеніе бываетъ къ молебну, а поютъ канонъ новому лѣту. Древн. Вивл. X. 1.–

Новый годъ.

Вновь наступившій годъ.

ДУША

ДУША̀, ѝ, с. ж.

1)

Безсмертное духовное существо, одаренное разумомъ и волею.
Безумне, въ сію нощь душу твою истяжутъ отъ тебе. Лук. XII. 20.
Сего ради мя Отецъ любитъ, яко азъ душу мою полагаю, да паки пріиму ю. Іоанн. X. 17.
Человѣкъ одаренъ безсмертною душею.

Горѣли звѣзды; но въ моей душѣ
Былъ свѣтлый день.
Жуковск.–

2) Церк.

Духъ, вліянный въ тѣло животнаго; жизнь.
И рече Богъ: да изведетъ земля душу живу по роду, четвероногая и гады и звѣри земли по роду. Быт. I. 24.

3)

Душевное свойство человѣка.
Благородство души.
Слабая душа.
Корыстолюбивая душа.

4) *

Совѣсть.
Онъ увѣренъ въ душѣ своей, что онъ правъ.
Я полагаюсь на твою душу.

5)

Человѣкъ всякаго пола и возраста.
Бѣ же съ корабли всѣхъ душъ двѣстѣ седмьдесятъ и шесть. Дѣян. XXVII. 37.
Не случилось ни одной души въ домѣ.

6)

Способность приводить въ движеніе, занимать, или руководить многихъ.
Онъ былъ всегда душею нашихъ бесѣдъ.

7)

Сущность вещи.
Правосудіе есть душа законовъ.

8)

Чувство.
Въ игрѣ этого музыканта много души.

9)

Умъ, разумъ.

То академикъ, то герой,
То мореплаватель, то плотникъ,
Онъ всеобъемлющей душей
На тронѣ вѣчный былъ работникъ.
Пушк.

10)

Привѣтствіе любимому человѣку.
Какъ я радъ тебя видѣть, душа моя.

Родовыя души.

Населенное имѣніе, полученное по наслѣдству.

Будь плохонькой, да если наберется
Душь тысячи двѣ родовыхъ –
Тотъ и женихъ.
Грибоѣд.–

Ревижская душа.

Каждый изъ крестьянъ, или мѣщанъ, вписанныхъ въ ревизію.–

Душу стяжати въ терпѣніи, Церк. зн.

спасти душу терпѣніемъ.
Въ терпѣніи вашемъ стяжите душы вашя. Лук. XXI. 19.–

Искати чью либо душу, Церк. зн.

желать чьей либо погибели.
Изомроша бо ищущіи души отрочате. Матѳ. II. 20.–

Положить за кого либо душу, зн.

пожертвовать своею жизнію для спасенія другаго.
Больши сея любве никтоже имать, да кто душу свою положитъ за други своя. Іоанн. XV. 13.–

Отдать Богу душу, зн.

умереть.–

Отвести душу, зн.

получить облегченіе въ непріятныхъ обстоятельствахъ; свободно вздохнуть.–

Отпустить душу на покаянье, зн.

дать время покаяться въ грѣхахъ.
Хоть душу отпусти на покаянье. Грибоѣд.–

Жить душа въ душу, зн.

жить съ кѣмъ либо дружелюбно; быть единодушнымъ.–

На душѣ мутитъ. Съ души тянетъ, зн.

тошнится.–

Лежитъ на душѣ, зн.

а)

упрекаетъ совѣсть;
б)
тяготитъ забота.
Я давно стараюсь опредѣлить васъ къ мѣсту; это у меня на душѣ лежитъ.

Замираетъ, замерла душа, зн.

лишается или лишился памяти или чувствъ; приходитъ въ безсознательное состояніе.

Однако нѣтъ, теперь ужъ не до смѣха,
Въ глазахъ темно, и замерла душа.
Грибоѣд.–

Покривить душею, зн.

поступить несправедливо, противъ совѣсти.–

Отдать на душу, зн.

повѣрить кому либо на совѣсть.–

Брать на душу, зн.

принимать на себя отвѣтственность въ такихъ случаяхъ, гдѣ нѣтъ явныхъ доказательствъ.–

Радъ душей, зн.

радъ искренно, сердечно.
Онъ можетъ быть и радъ бы былъ душей. Грибоѣд.–

Въ душу нейдетъ. Душа не принимаетъ, зн.

сытость или отвращеніе отъ пищи и питія.–

Чуть держится душа, зн.

едва живъ.
Тащатся (звѣри) шагъ-за-шагъ, чуть держатся въ нихъ души.

Безъ души, зн.

внѣ себя отъ радости, любви или удовольствія.
Онъ отъ жены своей безъ души.

.......... Я безъ души
Лѣто цѣлое все пѣла.
Крыл.–

Безъ души стать. Безъ души сдѣлаться, зн.

чрезвычайно устать.
Я бѣгавши безъ души сталъ.

Бѣжать безъ души, зн.

бѣжать безъ отдыха, очень скоро, запыхавшись.–

Отъ души, зн.

очень охотно.
Отъ души желаю вамъ быть полезнымъ.

По душѣ, зн.

весьма пріятно.
Это мнѣ по душѣ.

Не по душѣ, зн.

противно, непріятно.

Поиск по зонам


Форма поиска


планета толкование примеры


птица толкование примеры

Унификация словарной информации


Словари различаются:

• орфография

• лемма

• грамматические пометы

• структура статьи


Унификация нужна для глобального поиска.


Текст статьи не меняется, но добавляется дополнительную разметку.

Орѳографія

1) буквы і, ѣ, ѳ, ѵ → и, е, ф, и

2) конечный → ноль

3) -аго, -яго, -ыя, -ія

4) ея, онѣ, однѣ, однѣхъ

5) без-, воз-, из-, низ-, раз-, через- + глухія

6) -ье (вниманье, занятье)

7) -ію (милостію)

8) -ѣй (скорѣй), -яе (скоряе)

9) -ся (валюся, валилася)

10) дѣепричастія сов. вида (придя, увидя, взгромоздясь)

11) е/o послѣ шипящихъ и ц (лице, значекъ, чортъ)

12) слитно/раздѣльно/дефисно (то-есть, повидимому, кто нибудь)

14) ударное -ый/-ій (больны́й, босы́й, водяны́й, глухі́й, другі́й, слѣпы́й)

14б) безударное -ой/-ей (волчей корень, бобръ камчацкой)

15) приставка з- + звонкие (збавить, зберечь, збирать, згинуть, здавать)

15б) приставки на + глухие (возприять, возходь, изкони, изкушать, източникъ, изчезать, изходъ, разкаяться, разтворить)


Церковнославянизмы:

1) -ти (благодѣ́яти)

2) -ши (благодѣ́еши)

Лемматизатор для дореформенной орфографии


http://dic.feb-web.ru/russian/parser/parser.htm

Лемма


САР-1 дает глаголы в 1 л. ед. ч. – алчу, бію, бѣгу, веду.
Надо заменить на инфинитив – алкать, бить, бѣжать, вести.


СЦРЯ глаголы Церк./Стар. даются с окончанием -ти:
благовѣстити, блистати, вдати, вергнути. Надо заменить на -ть.

Грамматические пометы

Даются в стандарте НКРЯ – http://ruscorpora.ru/

Форма поиска

N,f,inan = сущ, жен, неод

V,pf,tr = глагол, сов, перех


САР, СЦРЯ дают подробную залоговую классификацию глаголов:
действительный = переходный (tr), средний = непереходный (intr),
страдательный = med,pass, возвратный = med,refl, взаимный = med,recip.


САР-1/2 не дают видовые признаки глаголов, т.к. считают одной лексемой:
навлека́ть, навле́чь, навола́кивать, наволо́чь, наволочи́ть
дви́гаться, дви́гнуться, дви́нуться, дви́гиваться

Структура статьи


САР-1 устроен по гнездовому принципу:
производные и словосочетания даются под шапкой главного слова.

Заголовок статьи может включать:

1) дублеты – архиварій=архиваріусъ, безлюдіе=безлюдье, велблюдъ=верблюдъ

2) близкородственные слова – агнецъ, агнчикъ, агница;
волкъ, волчокъ, волчище, волчица;
баловникъ, -ница, баловщикъ, -щица;
самодержавіе, самодержавство, самодержство.


Разные грамматические пометы – волкъ=N,m vs. волчица=N,f

Sphinxsearch

http://sphinxsearch.com

Система полнотекстового поиска (ср. Lucene, Xapian, Yandex).


Возможности:

1) поиск в текстах с HTML-образной разметкой

2) зоны поиска при помощи произвольных тегов (<sem>, <sample>)

3) таблица преобразования символов для индексатора

4) морфологический анализ для русского и др. языков

5) пользовательский словарь для морфологического анализа

6) поиск точных форм (=слово)

7) контекстный поиск ("точная фраза", расстояние, порядок, или, нет)

Таблица преобразования символов


Старые буквы заменяются на современные:
і=и ѵ=и ї=и ѣ=е є=е ѥ=е ѻ=о ѡ=о ѹ=у ѫ=у ѭ=у ѧ=я ѩ=я ѳ=ф ѕ=з

Работает лемматизатор для современного русского.
Не нужно хранить текст в двух орфографиях.


Замены:

1) Конечный Ъ,ъ заменяется на символ U+048c, U+048d (semisoft sign),
который игнорируется при индексировании, но сохраняется в выдаче,

2) Составные буквы (ѯ, ѱ, ѿ) заменяются на диграфы (кс, пс, от) с потерей информации. Это не для словарей, а для церковнославянского корпуса:
Поиск

Старые флексии и формы


Переделать лемматизатор или подключить пользовательский словарь:


новаго->нового, новыя->новые, милостию->милостью, ходити->ходить,
безсмертный->бессмертный, возстание->восстание


Или преобразовать текст, используя свой лемматизатор.

Результаты


Полностью размечены тексты словарей:

• САР-1 = 45.6 тыс. статей, 3200 подстатей, 63 тыс. слов и словосочетаний, 7.3 млн. символов

• СЦРЯ = 113 тыс. статей, 5600 подстатей, 120 тыс. слов и словосочетаний, 10.8 млн. символов


Разработана технология разметки и унификации словарной информации для разных источников.

Направления дальнейшей работы


1) Пополнение системы за счет новых словарей

САР-2 – проверены и частично размечены тома 1–4. САР-1 для проверки.

МАС, Ушаков есть в словарном разделе ФЭБ).
Нужна проверка и дополнительная разметка


2) Расширение системы разметки

Разделить главное слово vs. производное vs. фразеологизм.

Ввести грамматические пометы для произодных и фразеологизмов:
NP (антонов огонь), VP (бить челом), S (отольются волку овечьи слезы).


3) Унификация орфографии и грамматических помет в разных словарях

САР-1 леммы не полностью нормализованы, что затрудняет поиск.

Парсер старой орфографии для нормализации лемм к современному написанию.


4) Доработка инструментария для автоматизированной разметки

Тексты словарей содержат массу формальных ошибок (курсив, жирность).

Верификация и исправление ошибок, чтобы ускорить разметку зон.