Домашнее задание про таблицы (часть 1)

Домашнее задание про таблицы (часть 1)

В русском языке есть класс существительных, обозначающих названия профессий или прочие виды деятелей. Для некоторых из этих существительных характерна вариативность в постановке ударения во множественном числе (например, директора и директоры).

Задание: пользуясь НКРЯ и Google Таблицами, выяснить, для каких слов характерно вариативное ударение на примере частного случая — имён деятелей с основой, заканчивающейся на -ктор (директор, инспектор, кондуктор и т. п.).

Ожидаемый результат: ссылка на гугл-таблицу, включающую следующие листы (sheets):

  1. report – итоговая таблица + под ней краткий комментарий в свободной форме: для каких слов характерно вариативное ударение, есть ли закономерности и т. д.;
  2. corpus_output — файл, получившийся при скачивании выдачи из НКРЯ;
  3. pivot – cводная таблица, построенная в п. 2 работы.

Если вы в ходе работы строили другие промежуточные таблицы, оставьте их в файле.

  1. Получаем данные из корпуса
  2. Подсчитываем количество употреблений каждой словоформы (сводные таблицы)
  3. Исключаем омонимичные словоформы
  4. Выделяем основы слов
  5. Подводим итоги

1. Получаем данные из корпуса

Так как поставленный вопрос связан со словесным ударением, воспользуйтесь акцентологическим корпусом. В нем задайте подкорпус:

  • из которого будут исключены поэтические тексты и
  • в котором останется только устная речь всех возможных типов:

Задайте следующие параметры для лексико-грамматического поиска:

  • слово: *ктор (оканчивается на ктор);
  • грамматические признаки: одушевленное существительное множественного числа;
  • семантические признаки: предметные → лица (все чекбоксы). Получившуюся выдачу отсортируйте в случайном порядке (Настройки — Упорядочить: случайно) и выгрузите в Excel/Calc, воспользовавшись ссылкой внизу примеров.

Сохраните файл на своем компьютере и откройте его в Excel или OpenOffice Calc. Подтвердите преобразование из XML-формата, разрешите редактирование файла (если требует редактор), скопируйте его содержимое и вставьте в вашу таблицу.

NB: в результатах поиска может быть шум (например, примеры употребления род.п. ед.ч.) из-за того, что в корпусе не снята грамматическая омонимия - не обращайте пока на него внимания.

Прежде чем начать работу, удалите в столбце Center так называемые "широкие" пробелы в каждой ячейке слева и справа от искомого слова ("широкий" пробел — особый тип пробелов, который нельзя ввести с клавиатуры, поэтому скопируйте этот пробел из любой ячейки и сделайте замену по всему столбцу).

2. Подсчитываем количество употреблений каждой словоформы (сводные таблицы)

Для того, чтобы выяснить, сколько раз в выдаче встретилась каждая из интересующих нас форм слова, воспользуйтесь сводной таблицей — средством, позволяющим просматривать статистику по большим объемам данных. В сводной таблице для любого столбца исходных данных можно построить список уникальных (не повторяющих другие) записей в ячейках, а затем получить суммарные данные (или иные распределения) в других столбцах относительно этого списка. Сводные таблицы содержат не все данные исходной таблицы, а только необходимые для анализа, и по ним проще делать выводы. При изменении исходных данных сводная таблица будет автоматически обновляться.

  1. Выделите весь столбец Center.
  2. В меню Данные выберите Сводная таблица. Автоматически создастся новый лист, а справа появятся поля, которые необходимо заполнить, чтобы создать таблицу. В поле Строки добавьте Center, в после Значения суммируйте по функции COUNTA (считающей все вхождения).

Итогом должна стать таблица, в которой напротив каждой уникальной словоформы с учетом ударения в ней, встретившейся в столбце «Center», приведено количество ее появлений в столбце:

3. Исключаем омонимичные словоформы

У каждой словоформы именительного падежа искомых слов с ударением на окончание имеется словоформа-омограф (директора́дире́ктора и т. п.). Отсюда следует, что все словоформы, имеющие безударное окончание , нам не интересны.

Так как ударения в выдаче представлены в виде комбинируемого символа, идущего после ударного гласного, нам следует искать а в конце слова (за ней не будет следовать знак ударения (́).

Лирическое отступление: комбинируемые символы

Во многих письменностях активно используются разнообразные значки, модернизирующие исходный алфавит, которые называются диакритическими знаками (далее — диакритиками). Диакритики могут быть надстрочные, такие как, например, тильда, гравис или гачек, подстрочные, такие как седиль, или даже внутристрочные.

Буквы с диакритиками могут передаваться при наборе текста как один или как два символа. В первом случае диакритика уже входит в начертания символа, во втором — ее добавляют в качестве добавочного комбинируемого символа, следующего за модифицируемым. В этом случае комбинируемый символ как бы «прилипает» к первоначальному, следуя за ним в последовательности знаков текста, но отображаемый текстовыми редакторами как единый с предшествующим символ.

Именно таким комбинируемым символом и является значок ударения, используемый в выдаче корпуса. В Windows вы можете найти этот символ в Таблице символов (Пуск → Стандартные → Служебные → Таблица символов; в Windows 8 — просто в разделе «Стандартные») под названием Combining acute accent, код символа в Юникоде — 0301. Для получения символа нужно зайти в таблицу символов и выбрать там указанный символ, например, введя его код в Юникоде в специальное поле:

В Mac OS X таблицу символов можно открыть, кликнув на флажке, обозначающем выбранный язык ввода, и выбрав в выпавшем меню «Показать панель “Символы”». Если этого пункта в меню нет, выберите «Открыть настройки языка и текста. » и там поставьте галочку напротив «Клавиатура и символы»:

Необходимый Combining Acute Accent находится в разделе «Авиационные символы». По умолчанию этот раздел не отображается слева в окне, и для его появления нужно выключить его в настройках: нажмите на шестерёнку в левом верхнем углу, после чего выберите "Настроить список".

На практике это означает следующее: на столбце «Center» необходимо установить фильтр «не заканчивается на а» и скопировать получившуюся таблицу на новый лист.

4. Выделяем основы слов

На этом этапе 4-5 нам понадобится четыре столбца:

  • Форма (aka Сenter),
  • Основа (или Лемма),
  • Ударение на основе (да/нет),
  • Количество (aka Кол-во по полю Center).

Вставьте два столбца для Основ и Ударений.

Чтобы выделить основы слов, скопируйте формы в столбец Основа и удалите в них окончания. Для автозамены вызовите окно поиска и замены с помощью сочетания клавиш Ctrl+H (Cmd+H для Mac OS): Найти: ктор* Заменить: ктор

(эта команда заменяет в ячейке подстроку, начинающуюся на ктор, на ктор; тем самым, отрезается всё, что идет после ктор).

Отфильтруйте основы, содержащие дефисы: Текстовый фильтр — содержит: - (или равно: *-*)

и отредактируйте каждую ячейку, оставив в ней ту часть сложного слова (основу), которая содержит *ктор.

5. Классификация по типу ударения

Нам нужно в столбце «Ударение на основе» проставить «да», если ударение стоит на основе, и «нет», если ударение стоит на окончании.

  • Отфильтруйте основы, содержащие ударение, и поставьте в столбце «Ударение на основе» «да».

Текстовый фильтр — равно: *́* (скопируйте символы отсюда)

  • В столбце «Основа» отфильтруйте основы, не содержащие ударения (оно стояло на окончании, которое было отрезано), и поставьте для них в столбце «Ударение на основе» «нет».

Текстовый фильтр — не равно: *́*

Это два грубых фильтра, не учитывающие некоторые случайные данные, которые будут бесполезны для нашего исследования. Не забывайте очищать фильтр в конце каждой операции.

В некоторых словах вообще не размечено ударение. В столбце «Форма» отфильтруйте такие словоформы (не содержат ударения): Текстовый фильтр — не равно: *́* и сотрите содержимое (выделите строки и нажмите Delete).

Отфильтруйте формы, содержащие два ударения: Текстовый фильтр — равно: *́*́*

Некоторые из таких форм имеют побочное и главное ударение (например, а́виаконстру́кторов) - проверьте для них разметку в столбце «Ударение на основе»: «да» или «нет».

Также существуют формы, где омонимия ударений не была снята (например, инспе́ктора́, автоматический разметчик ударений предсказывает два варианта, но место ударения не было проверено вручную) - сотрите содержимое этих строк (с помощью Delete).

Отсортируйте таблицу по столбцам «Основа» и «Ударение», еще раз просмотрите список словоформ, чтобы не осталось «мусора», не важного для нашего исследования.

Удалите все знаки ударения с основ с помощью автозамены, чтобы безударные и ударные основы приобрели одинаковый вид (информация о месте ударения сохранена в новом столбце). Возможно, будет проще переписать слово в ячейке заново (без ударения), а затем копи-пейстом вставить это значение для всех одинаковых основ.

Сделайте новую сводную таблицу примерно такого вида (показан вариант OpenOffice):

Для этого поместите в поле строки сводной таблицы «Основы», в столбцы сводной таблицы - «Ударение на основе/окончании». Таблица должна представлять частоты форм (суммы по полю «Количество») — перетащите «Количество» в поле значений сводной таблицы и установите параметр «сумма»).

6. Подводим итоги

Переименуйте листы так, как сказано в начале практикума.

Проанализируйте цифры в итоговой сводной таблице и запишите под таблицей краткий комментарий в свободной форме:

📎📎📎📎📎📎📎📎📎📎