Что скрывается за забором?

В комментариях к моей заметке «Несловарные слова» меня призвали предъявить примеры наиболее часто употребляемых сложных слов этого рода в шведском языке. На что я ответил, среди прочего, что сделать это невозможно в принципе: будучи словами «на случай», они по самой своей природе не могут стать предметом сравнительной статистики. Так как в словарях их по определению нет, то искать их в тексте можно только путем ручной выборки. Это еще куда ни шло, если текст не слишком пространный, но и в этом случае пришлось бы потратить немало времени, так как любое слово, заподозренное в несловарности, нужно будет проверить по академическому словнику SAOL. Интуиция может обмануть, и это слово может там оказаться. Но для статистики нужны представительные корпусы текста в миллионы и десятки миллионов слов¹⁾. Ниже будет видно, почему.

Однако дело даже не в невозможности или большой технической трудности задачи, а в том, что употребительность слова и «словарность» если как-то и соотносятся, то весьма сложным и далеко еще не ясным образом²⁾. Существует множество слов, включаемых в словарь, – слов общего языка, а не узкоспециальных терминов, – встречающихся редко (скажем, skandalunge ‘нарождающийся скандал’). В то же время, очень многие несловарные слова попадаются на каждом шагу (скажем, skolskytt букв. ‘школьный стрелок’– вдесятеро чаще).

Но здесь про другое: эта заметка возникла по смежному поводу. В ответах на комментарии мне случилось употребить термин частотность, на что незамедлительно последовал вопрос: а в чем, собственно, его отличие от частота? Ответив спонтанно, что частотность – это относительный показатель, а частота – абсолютный, я затем пришел к выводу, что этого ответа недостаточно. О паронимах у нас уже шла речь, применительно к проблеме перевода каламбуров (в частности, здесь.) Но эта пара – частота vs. частотность – интересна тем, что это именно паронимы, а не синонимы, как легко может показаться на первый взгляд. То есть это пара слов, выросших от одного корня и близких по звучанию, но различных по значению.

Исходным для обоих является прилагательное частый, в том его изначальном значении, которое мы видим в сочетаниях типа частый лес, частые посещения и т.п. и которое породило существительное частокол, ну вот такой забор, как на картинке. То есть указание на плотное повторение в пространстве или во времени однородных предметов или событий. Эту плотность можно измерить в каких-то абсолютных единицах: например числом колов на метр забора. Если повторения совершаются через равные промежутки, то это частота, в узком смысле – частота колебаний. На приведенной картинке я как раз и хотел показать родство забора и синусоиды. А вот изобразить частотность нельзя: это абстрактное понятие ( ≈ ‘встречаемость’ ) не поддается визуализации

Можно ли сказать частота употребления слова Х? Да, можно, но это будет означать, что NN регулярно, то и дело – часто – употребляет это слово, а не меру его встречаемости в порождаемом им тексте. Такая мера обозначается словом частотность, и оно является не словом общего языка, а сугубо лингвистическим термином, относящимся к статистической обработке естественного языка. Стандартом является подсчет встречаемости на миллион словоупотреблений. Ни о какой плотности употребления слова, т.е. интервале между его употреблениями в тексте, или тем более периодичности, речь не идет. Интерес представляет только общее число употреблений в условно выбранном объеме текста. При этом полученная таким подсчетом величина имеет значение не сама по себе, а только в сравнении с частотностью других лексических единиц. Например, если мы хотели бы сравнить употребительность слов частота и частотность, то получили бы разительный результат: около 20 раз на миллион слов для первого против 1 раза на 10 миллионов для второго!³⁾

Эти цифры не должны вызывать недоумение. Кажется, что определение встречаемости в расчете на целый миллион слов – это чересчур. Ничуть не бывало. Возьмем хотя бы слово drömjobb (что-то вроде ’работа, о которой можно мечтать; идеальная, желанная и т.п. работа’). Оно словарное, т.е. учтено в SAOL’e, и интуитивно кажется, что оно совсем не редкость: мы же на него то и дело натыкаемся. Между тем, его встречаемость, т.е. частотность, всего лишь 1,7 на миллион. И этого более чем достаточно, чтобы словарь не обходил его стороной и признавал его лексикографическую ценность. Вот и говори после этого о так называемых словарных минимумах, знание которых якобы обеспечивает учащемуся владение языком. Ха-ха!

___________________________

¹⁾ Техническое примечание. Методики, позволяющей выбрать из корпуса все сложные слова, «официально» не входящие в язык, по-видимому, не существует. Во всяком случае, мне она не известна, хотя алгоритм можно себе представить: сперва программа обрабатывает корпус на предмет выборки всех вообще слов, не входящих в SAOL, затем удаляет дубли, лемматизирует (т.е. приводит все словоформы к словарному виду), после чего выбирает из полученного списка все сложные слова. Как именно можно выполнить эту последнюю операцию, я понятия не имею. Но не исключаю, что компьютерные лингвисты могли бы найти решение.

²⁾ Оговорюсь заодно, что употребляя выражение «несловарные слова», я рассчитываю больше на примеры и на интуицию читателей моих заметок, чем на какое-либо безукоризненное определение, которое позволило бы однозначно отделять зерна от плевел. Никакого такого определения, кроме тавтологического (’слова, которые не включены в словарь’), не существует. Я предпринимаю отчаянные попытки найти приемлемое оправдание этому термину, и если это удастся, то сообщу об этом с надлежащим барабанным боем здесь на блоге.

³⁾ Этот подсчет сделан по данным Нац. корпуса русского языка, НКРЯ. Конечно, если бы это был корпус не «всего» языка, а только лингвистических текстов, то результат для слова частотность был бы менее устрашающим.

Что скрывается за забором?

Еще по теме

Еще по теме