Домашнее задание про таблицы (часть 1)
В русском языке есть класс существительных, обозначающих названия профессий или прочие виды деятелей. Для некоторых из этих существительных характерна вариативность в постановке ударения во множественном числе (например, директора и директоры).
Задание: пользуясь НКРЯ и Google Таблицами, выяснить, для каких слов характерно вариативное ударение на примере частного случая — имён деятелей с основой, заканчивающейся на -ктор (директор, инспектор, кондуктор и т. п.).
Ожидаемый результат: ссылка на гугл-таблицу, включающую следующие листы (sheets):
- report – итоговая таблица + под ней краткий комментарий в свободной форме: для каких слов характерно вариативное ударение, есть ли закономерности и т. д.;
- corpus_output — файл, получившийся при скачивании выдачи из НКРЯ;
- pivot – cводная таблица, построенная в п. 2 работы.
Если вы в ходе работы строили другие промежуточные таблицы, оставьте их в файле.
- Получаем данные из корпуса
- Подсчитываем количество употреблений каждой словоформы (сводные таблицы)
- Исключаем омонимичные словоформы
- Выделяем основы слов
- Подводим итоги
1. Получаем данные из корпуса
Так как поставленный вопрос связан со словесным ударением, воспользуйтесь акцентологическим корпусом. В нем задайте подкорпус:
- из которого будут исключены поэтические тексты и
- в котором останется только устная речь всех возможных типов:
Задайте следующие параметры для лексико-грамматического поиска:
- слово: *ктор (оканчивается на ктор);
- грамматические признаки: одушевленное существительное множественного числа;
- семантические признаки: предметные → лица (все чекбоксы). Получившуюся выдачу отсортируйте в случайном порядке (Настройки — Упорядочить: случайно) и выгрузите в Excel/Calc, воспользовавшись ссылкой внизу примеров.
Сохраните файл на своем компьютере и откройте его в Excel или OpenOffice Calc. Подтвердите преобразование из XML-формата, разрешите редактирование файла (если требует редактор), скопируйте его содержимое и вставьте в вашу таблицу.
NB: в результатах поиска может быть шум (например, примеры употребления род.п. ед.ч.) из-за того, что в корпусе не снята грамматическая омонимия - не обращайте пока на него внимания.
Прежде чем начать работу, удалите в столбце Center так называемые "широкие" пробелы в каждой ячейке слева и справа от искомого слова ("широкий" пробел — особый тип пробелов, который нельзя ввести с клавиатуры, поэтому скопируйте этот пробел из любой ячейки и сделайте замену по всему столбцу).
2. Подсчитываем количество употреблений каждой словоформы (сводные таблицы)
Для того, чтобы выяснить, сколько раз в выдаче встретилась каждая из интересующих нас форм слова, воспользуйтесь сводной таблицей — средством, позволяющим просматривать статистику по большим объемам данных. В сводной таблице для любого столбца исходных данных можно построить список уникальных (не повторяющих другие) записей в ячейках, а затем получить суммарные данные (или иные распределения) в других столбцах относительно этого списка. Сводные таблицы содержат не все данные исходной таблицы, а только необходимые для анализа, и по ним проще делать выводы. При изменении исходных данных сводная таблица будет автоматически обновляться.
- Выделите весь столбец Center.
- В меню Данные выберите Сводная таблица. Автоматически создастся новый лист, а справа появятся поля, которые необходимо заполнить, чтобы создать таблицу. В поле Строки добавьте Center, в после Значения суммируйте по функции COUNTA (считающей все вхождения).
Итогом должна стать таблица, в которой напротив каждой уникальной словоформы с учетом ударения в ней, встретившейся в столбце «Center», приведено количество ее появлений в столбце:
3. Исключаем омонимичные словоформы
У каждой словоформы именительного падежа искомых слов с ударением на окончание имеется словоформа-омограф (директора́ — дире́ктора и т. п.). Отсюда следует, что все словоформы, имеющие безударное окончание -а, нам не интересны.
Так как ударения в выдаче представлены в виде комбинируемого символа, идущего после ударного гласного, нам следует искать а в конце слова (за ней не будет следовать знак ударения (́).
Лирическое отступление: комбинируемые символы
Во многих письменностях активно используются разнообразные значки, модернизирующие исходный алфавит, которые называются диакритическими знаками (далее — диакритиками). Диакритики могут быть надстрочные, такие как, например, тильда, гравис или гачек, подстрочные, такие как седиль, или даже внутристрочные.
Буквы с диакритиками могут передаваться при наборе текста как один или как два символа. В первом случае диакритика уже входит в начертания символа, во втором — ее добавляют в качестве добавочного комбинируемого символа, следующего за модифицируемым. В этом случае комбинируемый символ как бы «прилипает» к первоначальному, следуя за ним в последовательности знаков текста, но отображаемый текстовыми редакторами как единый с предшествующим символ.
Именно таким комбинируемым символом и является значок ударения, используемый в выдаче корпуса. В Windows вы можете найти этот символ в Таблице символов (Пуск → Стандартные → Служебные → Таблица символов; в Windows 8 — просто в разделе «Стандартные») под названием Combining acute accent, код символа в Юникоде — 0301. Для получения символа нужно зайти в таблицу символов и выбрать там указанный символ, например, введя его код в Юникоде в специальное поле:
В Mac OS X таблицу символов можно открыть, кликнув на флажке, обозначающем выбранный язык ввода, и выбрав в выпавшем меню «Показать панель “Символы”». Если этого пункта в меню нет, выберите «Открыть настройки языка и текста. » и там поставьте галочку напротив «Клавиатура и символы»:
Необходимый Combining Acute Accent находится в разделе «Авиационные символы». По умолчанию этот раздел не отображается слева в окне, и для его появления нужно выключить его в настройках: нажмите на шестерёнку в левом верхнем углу, после чего выберите "Настроить список".
На практике это означает следующее: на столбце «Center» необходимо установить фильтр «не заканчивается на а» и скопировать получившуюся таблицу на новый лист.
4. Выделяем основы слов
На этом этапе 4-5 нам понадобится четыре столбца:
- Форма (aka Сenter),
- Основа (или Лемма),
- Ударение на основе (да/нет),
- Количество (aka Кол-во по полю Center).
Вставьте два столбца для Основ и Ударений.
Чтобы выделить основы слов, скопируйте формы в столбец Основа и удалите в них окончания. Для автозамены вызовите окно поиска и замены с помощью сочетания клавиш Ctrl+H (Cmd+H для Mac OS): Найти: ктор* Заменить: ктор
(эта команда заменяет в ячейке подстроку, начинающуюся на ктор, на ктор; тем самым, отрезается всё, что идет после ктор).
Отфильтруйте основы, содержащие дефисы: Текстовый фильтр — содержит: - (или равно: *-*)
и отредактируйте каждую ячейку, оставив в ней ту часть сложного слова (основу), которая содержит *ктор.
5. Классификация по типу ударения
Нам нужно в столбце «Ударение на основе» проставить «да», если ударение стоит на основе, и «нет», если ударение стоит на окончании.
- Отфильтруйте основы, содержащие ударение, и поставьте в столбце «Ударение на основе» «да».
Текстовый фильтр — равно: *́* (скопируйте символы отсюда)
- В столбце «Основа» отфильтруйте основы, не содержащие ударения (оно стояло на окончании, которое было отрезано), и поставьте для них в столбце «Ударение на основе» «нет».
Текстовый фильтр — не равно: *́*
Это два грубых фильтра, не учитывающие некоторые случайные данные, которые будут бесполезны для нашего исследования. Не забывайте очищать фильтр в конце каждой операции.
В некоторых словах вообще не размечено ударение. В столбце «Форма» отфильтруйте такие словоформы (не содержат ударения): Текстовый фильтр — не равно: *́* и сотрите содержимое (выделите строки и нажмите Delete).
Отфильтруйте формы, содержащие два ударения: Текстовый фильтр — равно: *́*́*
Некоторые из таких форм имеют побочное и главное ударение (например, а́виаконстру́кторов) - проверьте для них разметку в столбце «Ударение на основе»: «да» или «нет».
Также существуют формы, где омонимия ударений не была снята (например, инспе́ктора́, автоматический разметчик ударений предсказывает два варианта, но место ударения не было проверено вручную) - сотрите содержимое этих строк (с помощью Delete).
Отсортируйте таблицу по столбцам «Основа» и «Ударение», еще раз просмотрите список словоформ, чтобы не осталось «мусора», не важного для нашего исследования.
Удалите все знаки ударения с основ с помощью автозамены, чтобы безударные и ударные основы приобрели одинаковый вид (информация о месте ударения сохранена в новом столбце). Возможно, будет проще переписать слово в ячейке заново (без ударения), а затем копи-пейстом вставить это значение для всех одинаковых основ.
Сделайте новую сводную таблицу примерно такого вида (показан вариант OpenOffice):
Для этого поместите в поле строки сводной таблицы «Основы», в столбцы сводной таблицы - «Ударение на основе/окончании». Таблица должна представлять частоты форм (суммы по полю «Количество») — перетащите «Количество» в поле значений сводной таблицы и установите параметр «сумма»).
6. Подводим итоги
Переименуйте листы так, как сказано в начале практикума.
Проанализируйте цифры в итоговой сводной таблице и запишите под таблицей краткий комментарий в свободной форме: