Что скрывается за забором?

В ком­мен­та­ри­ях к моей замет­ке «Несло­вар­ные сло­ва» меня при­зва­ли предъ­явить при­ме­ры наи­бо­лее часто упо­треб­ля­е­мых слож­ных слов это­го рода в швед­ском язы­ке. На что я отве­тил, сре­ди про­че­го, что сде­лать это невоз­мож­но в прин­ци­пе: будучи сло­ва­ми «на слу­чай», они по самой сво­ей при­ро­де не могут стать пред­ме­том срав­ни­тель­ной ста­ти­сти­ки. Так как в сло­ва­рях их по опре­де­ле­нию нет, то искать их в тек­сте мож­но толь­ко путем руч­ной выбор­ки. Это еще куда ни шло, если текст не слиш­ком про­стран­ный, но и в этом слу­чае при­шлось бы потра­тить нема­ло вре­ме­ни, так как любое сло­во, запо­до­зрен­ное в несло­вар­но­сти, нуж­но будет про­ве­рить по ака­де­ми­че­ско­му слов­ни­ку SAOL. Инту­и­ция может обма­нуть, и это сло­во может там ока­зать­ся. Но для ста­ти­сти­ки нуж­ны пред­ста­ви­тель­ные кор­пу­сы тек­ста в мил­ли­о­ны и десят­ки мил­ли­о­нов слов1). Ниже будет вид­но, почему.

Одна­ко дело даже не в невоз­мож­но­сти или боль­шой тех­ни­че­ской труд­но­сти зада­чи, а в том, что упо­тре­би­тель­ность сло­ва и «сло­вар­ность» если как-то и соот­но­сят­ся, то весь­ма слож­ным и дале­ко еще не ясным обра­зом2). Суще­ству­ет мно­же­ство слов, вклю­ча­е­мых в сло­варь, – слов обще­го язы­ка, а не узко­спе­ци­аль­ных тер­ми­нов, – встре­ча­ю­щих­ся ред­ко (ска­жем, skandalunge ‘нарож­да­ю­щий­ся скан­дал’). В то же вре­мя, очень мно­гие несло­вар­ные сло­ва попа­да­ют­ся на каж­дом шагу (ска­жем, skolskytt букв. ‘школь­ный стре­лок’– вде­ся­те­ро чаще).

Но здесь про дру­гое: эта замет­ка воз­ник­ла по смеж­но­му пово­ду. В отве­тах на ком­мен­та­рии мне слу­чи­лось упо­тре­бить тер­мин частот­ность, на что неза­мед­ли­тель­но после­до­вал вопрос: а в чем, соб­ствен­но, его отли­чие от часто­та? Отве­тив спон­тан­но, что частот­ность – это отно­си­тель­ный пока­за­тель, а часто­та – абсо­лют­ный, я затем при­шел к выво­ду, что это­го отве­та недо­ста­точ­но. О паро­ни­мах у нас уже шла речь, при­ме­ни­тель­но к про­бле­ме пере­во­да калам­бу­ров (в част­но­сти, здесь.) Но эта пара – часто­та vs. частот­ность – инте­рес­на тем, что это имен­но паро­ни­мы, а не сино­ни­мы, как лег­ко может пока­зать­ся на пер­вый взгляд. То есть это пара слов, вырос­ших от одно­го кор­ня и близ­ких по зву­ча­нию, но раз­лич­ных по значению.

Но здесь про дру­гое: эта замет­ка воз­ник­ла по смеж­но­му пово­ду. В отве­тах на ком­мен­та­рии мне слу­чи­лось упо­тре­бить тер­мин частот­ность, на что неза­мед­ли­тель­но после­до­вал вопрос: а в чем, соб­ствен­но, его отли­чие от часто­та? Отве­тив спон­тан­но, что частот­ность – это отно­си­тель­ный пока­за­тель, а часто­та – абсо­лют­ный, я затем при­шел к выво­ду, что это­го отве­та недо­ста­точ­но. О паро­ни­мах у нас уже шла речь, при­ме­ни­тель­но к про­бле­ме пере­во­да калам­бу­ров (в част­но­сти, здесь.) Но эта пара – часто­та vs. частот­ность – инте­рес­на тем, что это имен­но паро­ни­мы, а не сино­ни­мы, как лег­ко может пока­зать­ся на пер­вый взгляд. То есть это пара слов, вырос­ших от одно­го кор­ня и близ­ких по зву­ча­нию, но раз­лич­ных по значению.

Исход­ным для обо­их явля­ет­ся при­ла­га­тель­ное частый, в том его изна­чаль­ном зна­че­нии, кото­рое мы видим в соче­та­ни­ях типа частый лес, частые посе­ще­ния и т.п. и кото­рое поро­ди­ло суще­стви­тель­ное часто­кол, ну вот такой забор, как на кар­тин­ке. То есть ука­за­ние на плот­ное повто­ре­ние в про­стран­стве или во вре­ме­ни одно­род­ных пред­ме­тов или собы­тий. Эту плот­ность мож­но изме­рить в каких-то абсо­лют­ных еди­ни­цах: напри­мер чис­лом колов на метр забо­ра. Если повто­ре­ния совер­ша­ют­ся через рав­ные про­ме­жут­ки, то это часто­та, в узком смыс­ле – часто­та коле­ба­ний. На при­ве­ден­ной кар­тин­ке я как раз и хотел пока­зать род­ство забо­ра и сину­со­и­ды. А вот изоб­ра­зить частот­ность нель­зя: это абстракт­ное поня­тие ( ≈ ‘встре­ча­е­мость’ ) не под­да­ет­ся визуализации

Мож­но ли ска­зать часто­та упо­треб­ле­ния сло­ва Х? Да, мож­но, но это будет озна­чать, что NN регу­ляр­но, то и дело – часто – упо­треб­ля­ет это сло­во, а не меру его встре­ча­е­мо­сти в порож­да­е­мом им тек­сте. Такая мера обо­зна­ча­ет­ся сло­вом частот­ность, и оно явля­ет­ся не сло­вом обще­го язы­ка, а сугу­бо линг­ви­сти­че­ским тер­ми­ном, отно­ся­щим­ся к ста­ти­сти­че­ской обра­бот­ке есте­ствен­но­го язы­ка. Стан­дар­том явля­ет­ся под­счет встре­ча­е­мо­сти на мил­ли­он сло­во­упо­треб­ле­ний. Ни о какой плот­но­сти упо­треб­ле­ния сло­ва, т.е. интер­ва­ле меж­ду его упо­треб­ле­ни­я­ми в тек­сте, или тем более пери­о­дич­но­сти, речь не идет. Инте­рес пред­став­ля­ет толь­ко общее чис­ло упо­треб­ле­ний в услов­но выбран­ном объ­е­ме тек­ста. При этом полу­чен­ная таким под­сче­том вели­чи­на име­ет зна­че­ние не сама по себе, а толь­ко в срав­не­нии с частот­но­стью дру­гих лек­си­че­ских еди­ниц. Напри­мер, если мы хоте­ли бы срав­нить упо­тре­би­тель­ность слов часто­та и частот­ность, то полу­чи­ли бы рази­тель­ный резуль­тат: око­ло 20 раз на мил­ли­он слов для пер­во­го про­тив 1 раза на 10 мил­ли­о­нов для вто­ро­го!3)

Эти циф­ры не долж­ны вызы­вать недо­уме­ние. Кажет­ся, что опре­де­ле­ние встре­ча­е­мо­сти в рас­че­те на целый мил­ли­он слов – это черес­чур. Ничуть не быва­ло. Возь­мем хотя бы сло­во drömjobb (что-то вро­де ’рабо­та, о кото­рой мож­но меч­тать; иде­аль­ная, желан­ная и т.п. рабо­та’). Оно сло­вар­ное, т.е. учте­но в SAOL’e, и инту­и­тив­но кажет­ся, что оно совсем не ред­кость: мы же на него то и дело наты­ка­ем­ся. Меж­ду тем, его встре­ча­е­мость, т.е. частот­ность, все­го лишь 1,7 на мил­ли­он. И это­го более чем доста­точ­но, что­бы сло­варь не обхо­дил его сто­ро­ной и при­зна­вал его лек­си­ко­гра­фи­че­скую цен­ность. Вот и гово­ри после это­го о так назы­ва­е­мых сло­вар­ных мини­му­мах, зна­ние кото­рых яко­бы обес­пе­чи­ва­ет уча­ще­му­ся вла­де­ние язы­ком. Ха-ха!

1)  Тех­ни­че­ское при­ме­ча­ние. Мето­ди­ки, поз­во­ля­ю­щей выбрать из кор­пу­са все слож­ные сло­ва, «офи­ци­аль­но» не вхо­дя­щие в язык, по-види­мо­му, не суще­ству­ет. Во вся­ком слу­чае, мне она не извест­на, хотя алго­ритм мож­но себе пред­ста­вить: спер­ва про­грам­ма обра­ба­ты­ва­ет кор­пус на пред­мет выбор­ки всех вооб­ще слов, не вхо­дя­щих в SAOL, затем уда­ля­ет дуб­ли, лем­ма­ти­зи­ру­ет (т.е. при­во­дит все сло­во­фор­мы к сло­вар­но­му виду), после чего выби­ра­ет из полу­чен­но­го спис­ка все слож­ные сло­ва. Как имен­но мож­но выпол­нить эту послед­нюю опе­ра­цию, я поня­тия не имею. Но не исклю­чаю, что ком­пью­тер­ные линг­ви­сты мог­ли бы най­ти решение.

2)  Ого­во­рюсь заод­но, что упо­треб­ляя выра­же­ние «несло­вар­ные сло­ва», я рас­счи­ты­ваю боль­ше на при­ме­ры и на инту­и­цию чита­те­лей моих заме­ток, чем на какое-либо без­уко­риз­нен­ное опре­де­ле­ние, кото­рое поз­во­ли­ло бы одно­знач­но отде­лять зер­на от пле­вел. Ника­ко­го тако­го опре­де­ле­ния, кро­ме тав­то­ло­ги­че­ско­го (’сло­ва, кото­рые не вклю­че­ны в сло­варь’), не суще­ству­ет. Я пред­при­ни­маю отча­ян­ные попыт­ки най­ти при­ем­ле­мое оправ­да­ние это­му тер­ми­ну, и если это удаст­ся, то сооб­щу об этом с над­ле­жа­щим бара­бан­ным боем здесь на блоге.

3)  Этот под­счет сде­лан по дан­ным Нац. кор­пу­са рус­ско­го язы­ка, НКРЯ. Конеч­но, если бы это был кор­пус не «все­го» язы­ка, а толь­ко линг­ви­сти­че­ских тек­стов, то резуль­тат для сло­ва частот­ность был бы менее устрашающим. 

Leave a Reply

Your email address will not be published. Required fields are marked *