Живой язык в твоем компьютере: чему поможет Национальный корпус русского языка - Владимир Плунгян - Говорим по-русски. Передача-игра - 2011-07-17
М. КОРОЛЁВА - 12 часов 7 минут в Москве. Всем добрый день. Мы тут уже просто буквально с гостем утрясаем название его должности.
О. СЕВЕРСКАЯ - Это я могу на автомате, если хочешь.
М. КОРОЛЁВА - Сейчас мы сделаем, да. Это говорит Ольга Северская. Я Марина Королёва. И вместе с нами в студии Владимир Александрович Плунгян, член-корреспондент Российской академии наук, ну, Оля…
О. СЕВЕРСКАЯ - Заведующий отделом корпусной лингвистики и лингвистической поэтики Института русского языка РАН.
В. ПЛУНГЯН - Замечательно.
О. СЕВЕРСКАЯ - Я пропустила только… ещё сектором теоретической лингвистики, да?
В. ПЛУНГЯН - Ну, это неважно… сопоставительно.
М. КОРОЛЁВА - Сегодня нам интересен тот самый отдел корпусной лингвистики. Кстати, кОрпусной или корпуснОй, Владимир Александрович?
В. ПЛУНГЯН - И так, и так говорят. Специалисты чаще говорят корпуснОй, специалисты говорят корпуснОй и корпусА, не кОрпусы языков, хотя, наверное, ни в одном словаре это ударение рекомендовано не будет. Ну это как раз и есть разница между живой речью и словарями, прямо сюжет нашего сегодняшнего разговора.
М. КОРОЛЁВА - Тогда можно я буду говорить «корпуснОй» сегодня?
В. ПЛУНГЯН - Можно.
М. КОРОЛЁВА - Договорились.
В. ПЛУНГЯН - Будем считать, что мы специалисты и у нас инновационное ударение.
М. КОРОЛЁВА - А Оля будет представлять сторону слушателей и будет говорить «кОрпусной». Ну, в общем, договорились. «Живой язык в твоём компьютере. Чему поможет национальный корпус русского языка?» - это наша тема на сегодня. Давайте только сразу напомню все варианты связи с нами. Хотя компьютер у меня по-прежнему ничего не показываем ровным счётом, но, надеюсь, он показывает у вас. Во-первых, на сайте «Эхо Москвы» есть то, что называется «Сетевизором». Наш партнёр «Сетевизор» транслирует то, что происходит в студии с нескольких ракурсов. Можно видеть, что здесь происходит. Естественно, эфир «Эхо Москвы». И для ваших СМС-ок +79859704545. Мы сегодня говорим действительно о национальном корпусе русского языка, о такой компьютерной штучке, хотя такое легкомысленное слово здесь совершенно неприменимо, которой мы с Олей…
В. ПЛУНГЯН - Ресурс.
М. КОРОЛЁВА - Активно пользуемся. Но я не уверена, что этим пользуется уже достаточное количество наших слушателей. А зря, между прочим. Вот, я, например, что могу сказать? Когда я своим коллегам в коридоре говорю о корпусе русского языка или они слышат это в эфире, например, какие у них возникают первые ассоциации? Корпус – это что-то военное скорее всего.
В. ПЛУНГЯН - Ну, конечно, кадетский корпус.
М. КОРОЛЁВА - Или это какое-то учебное заведение, кадетский корпус, как вы правильно говорите. Что такое национальный корпус русского языка? Они сразу себе представляют: марширующие солдаты, которые правильно говорят по-русски, что-то такое выкрикивают…
В. ПЛУНГЯН - Ещё корпус здания, бывают заводские корпуса.
М. КОРОЛЁВА - Совершенно верно. Дальше этого фантазия не идёт.
В. ПЛУНГЯН - Такие мрачные серые громады.
М. КОРОЛЁВА - Но ведь это же не то, правда же?
В. ПЛУНГЯН - Нет, совершенно не то.
М. КОРОЛЁВА - Давайте попробуем с самого начала тем, кто про это никогда не слышал, объяснить, что такое национальный корпус русского языка. Во-первых, с какого времени он действует в Интернете, с какого времени его можно было уже найти.
В. ПЛУНГЯН - Ну, давайте по порядку. Сначала что такое вообще корпус, потом что такое национальный корпус, и, наконец, национальный корпус русского языка. Вот так ступенчато. Значит, просто корпус – это собрание текстов в электронной форме, специальным образом обработанное. Любой человек может у себя в компьютере собрать корпус текстов – хоть своих любимых произведений, хоть что ему нужно для работы, вот, всё такой современный термин, вполне устоявшийся. Далее, специалисты, которые изучают язык, конечно, им нужно как можно больше текстов на этом языке. Ну, вообще, в идеале все, если можно себе такое представить. Значит, такой очень большой корпус, который содержит очень много текстов на данном языке – нынешних, современных, художественных, научных, публицистических, устных, письменных, в общем, всё, что представляет язык, это и есть национальный корпус. Тоже термин довольно уже устоявшийся, ему не один десяток лет.
М. КОРОЛЁВА - Ну, минуточку, это где он устоялся? В России? Я бы не сказала, что его можно назвать устоявшимся.
В. ПЛУНГЯН - В лингвистике, в науке о языке, в которой выделилось даже особое направление – корпусная лингвистика, она же корпуснАя, собственно, наш отдел и носит это название. Эта наука существует с 70-80-х годов прошлого века, по крайней мере.
М. КОРОЛЁВА - Я опять-таки хочу уточнить: где? Есть в лингвистике. Естественно, лингвистика – это понятие международное. В России-то вы сами говорили, что корпус существует с 2000…
В. ПЛУНГЯН - Четвёртого.
М. КОРОЛЁВА - 2004-го года.
В. ПЛУНГЯН - Здесь мы чуть-чуть отставали.
М. КОРОЛЁВА - А что было до нас? То есть в других странах что делали?
В. ПЛУНГЯН - Ну, первые корпуса возникли, ну, практически одновременно с возникновением современных компьютеров. То есть это 60-ые годы. И, естественно, возникли в Америке. Это не так удивительно. Брауновский корпус, первый известный в 60-ые годы Брауновский университет у американцев. Совсем маленький был… кусочки нарезанных текстов. Небольшой стандарт. Использовали его для статистических прикладных работ. Особого значения не придавали. Увеличились мощности компьютеров, технический прогресс. Постепенно и корпуса увеличиваются. 70-80, а особенно и 90-ые годы – это бум корпусных исследований во всём мире. Вот, к сожалению, в 90-ые годы мы здесь немножко потеряли темп. И создавались уже крупные национальные корпуса, ну, фактически во всех европейских странах… английский – очень давно, итальянский, испанский, венгерский, хорватский и самые разные корпуса, чешский очень хороший корпус, русский, вот, немножко запоздали мы с этим. 2004-й год – это уже как лет 10 в развитых странах корпуса…
М. КОРОЛЁВА - То есть это понятие не наше такое национальное, хотя это называется национальный корпус русского языка, это понятие абсолютно международное, общепринятое, распространённое, и так далее.
В. ПЛУНГЯН - Да, да, ну, национальный – это, понимаете… это тоже термин такой немножко условный. Национальный – это просто очень большой и представляющий язык данной страны. Так назывался первый корпус, национальный корпус британский, British national corpus, им существенно было, что британский, не американский и не австралийский. А отсюда уже взяли как термин, как такой ярлык.
М. КОРОЛЁВА - Давайте ещё раз. Это собрание текстов. Правильно?
В. ПЛУНГЯН - Представительное собрание.
М. КОРОЛЁВА - Представительное. Что значит представительное?
О. СЕВЕРСКАЯ - Каких текстов?
В. ПЛУНГЯН - Всех. Очень простой ответ – всех, всех. Потому что всё, что существует на этом языке, всё в корпусе должно быть.
О. СЕВЕРСКАЯ - Давайте перечислим.
В. ПЛУНГЯН - Художественная литература, правильно? Важные, но не единственные тексты.
О. СЕВЕРСКАЯ - Художественная, угу.
В. ПЛУНГЯН - Научная литература, публицистика (газеты, журналы, частная переписка, дневники).
О. СЕВЕРСКАЯ - Тексты радиопередач.
В. ПЛУНГЯН - Да, это всё письменные тексты, заметьте, есть же ещё и устные. Язык-то существует у нас в устной форме прежде всего.
М. КОРОЛЁВА - Подождите, вы что хотите сказать? Что вы берёте и загоняете туда… ну, берёте газету, загоняете её целиком, что ли?
В. ПЛУНГЯН - Конечно.
М. КОРОЛЁВА - Или вы просто берёте и какие-то кусочки отбираете?
В. ПЛУНГЯН - Нет. Кусочки – это технология устаревшая, так делали в 60-ые годы, когда нарезали… но сейчас понятно, что важен целый текст. Внутри него очень тонкие связи. Для исследования это очень важно, чтобы текст был нетронутый, поэтому мы берём газеты, журналы. За много лет у нас есть подборки, ну, там, «Известия», например, таких крупных центральных периферийных газет мы просто целиком…
М. КОРОЛЁВА - Чем это отличается просто от архива? Электронного архива.
О. СЕВЕРСКАЯ - Есть, кстати, ещё вопрос от Инны: «Что это? Просто некая библиотека?».
В. ПЛУНГЯН - Я уже сказал: это тексты, специальным образом обработанные. В отличие от того, что называют библиотекой текстов, когда они просто собраны… библиотеку Машкова, наверное, все знают?
М. КОРОЛЁВА - Угу.
В. ПЛУНГЯН - Ведь Машков – это тоже такой протокорпус, но он сырой, необработанный, там просто сложено всё. А наши тексты долго, сложно обрабатываются, это как раз главное в корпусных технологиях. То есть как раз что с ними делать? Обрабатываются они для того, чтобы можно было потом в них искать примеры, то есть исследовать язык, находить формы слов, сочетания слов, ну, всё, что исследовать любому человеку. Но ведь просто так корпус вам не выдаст форму дательного падежа множественного числа, правильно? Нужно же его научить для начала, где дательный, где творительный…
М. КОРОЛЁВА - Я здесь снова вынуждена вернуть вас к началу, чтобы задать очень простой вопрос: зачем? Вот, смотрите, понятно, что если этот разговор идёт в некой учёной среде, нет вопросов, всё понятно.
В. ПЛУНГЯН - Знаете, бывают вопросы, бывают, ещё бывают, так что всё… ответ, опять же, очень простой: чтобы исследовать язык. Ну, в данном случае русский. Ведь что такое…
М. КОРОЛЁВА - Это ответ для учёной аудитории. Здесь нет вопросов. Конечно, это прекрасно. Исследование языка всем нужно. Вот, мы с вами сейчас на радио… зачем людям…
В. ПЛУНГЯН - Зачем обычному человеку.
М. КОРОЛЁВА - Да, конечно.
В. ПЛУНГЯН - Хорошо, а зачем обычному человеку словарь? Обычному человеку нужен словарь?
М. КОРОЛЁВА - Ещё как. Судя по тому, что наши слушатели здесь пишут и как они нам звонят.
В. ПЛУНГЯН - А зачем?
М. КОРОЛЁВА - Это справочник, чтобы прежде всего им нужна информация, информация.
О. СЕВЕРСКАЯ - Как правильно. Что значит.
М. КОРОЛЁВА - Они хотят знать толкования слов, они хотят знать часто ударение, написание, произношение в общем, да? И иногда им хочется знать происхождение, ну, вот, хочется.
В. ПЛУНГЯН - Понятно, да.
М. КОРОЛЁВА - То есть они ищут разного рода информацию. А здесь-то что?
В. ПЛУНГЯН - Понятно. Здесь такая информация, которую уже специалисты им преподнесли в готовом виде, да? Здесь человек доверяет. А корпус позволяет немножко ближе оказаться к самому источнику этой информации… корпус нас ставит лицом к лицу с фактами, как они есть. Чуть-чуть, конечно, эти факты преподнесены, потому что корпус специалисты обрабатывают. Но там другая позиция. И, конечно, здесь есть и плюсы, и минусы, потому что, чтобы правильно пользоваться корпусом, нужно относиться к нему вдумчиво, ответственно. Нужно думать, самому сопоставлять, анализировать факты, то есть обычный человек немножко становится исследователем-лингвистом, у него развиваются, как можно было бы сказать, рефлексы. Вообще, думать всегда полезно.
М. КОРОЛЁВА - Нет, наши слушатели это знают прекрасно. Они, более того, этим часто и занимаются. Но возникает вопрос – не слишком ли для них это сложный ресурс, который просто будет недоступен. Ну, простите, словарь – это всё-таки сильно обработанное… а здесь…
В. ПЛУНГЯН - Нет, я думаю, что доступен. Какими-то вещами вполне легко научиться пользоваться. Скажем, сложные запросы не нужны обычному человеку, может, все возможности, все богатства корпуса – это очень сложно… но ведь микроскопом пользуются учёные… но вообще говоря, микроскопы и дети покупают, на день рождения даже хороший подарок такой.
О. СЕВЕРСКАЯ - Да, что-то разглядывают, букашечек.
В. ПЛУНГЯН - Или телескоп ещё интереснее.
М. КОРОЛЁВА - Телескоп, да.
В. ПЛУНГЯН - Звезды. Ну, вот, считайте, что заглядывая в корпус, вы приобретаете такой телескоп. Это, конечно, не астрономическая обсерватория, вы диссертацию не напишите, но и любитель с телескопом может много всего извлечь. Звёзды ближе. И слова тоже становятся понятнее. Ну, смотрите, вы в словарь заглядываете, например, чтобы узнать значение какого-то редкого слова, да, вот, вам встретилось слово в тексте, вы его не знаете, таких случаев много, значит, вы открываете словарь. А если словарь неполный, например? А если…
М. КОРОЛЁВА - Это такое часто бывает, кстати, это бывает часто.
В. ПЛУНГЯН - Здесь корпус может помочь. Что вам корпус даст? Он вам даст не толкование, а сразу подборку примеров, в которых это слово употребляется. Причём, сейчас, уже сейчас с XVIII по XXI век. Будет ещё больше, корпус развивается. Ну, вот, например, бывает… недавно как раз искал я в словаре, есть такое слово – «кУбовый». Многие ли знают…
М. КОРОЛЁВА - Кубовый?
В. ПЛУНГЯН - Многие ли знают. Кубовый, да. Слово, в принципе, считается устаревшим в русском языке, хотя в классической литературе оно встречается, и даже довольно активно где-то до 20-х…
М. КОРОЛЁВА - А что означает?
В. ПЛУНГЯН - Кубовый? Можно, конечно, не говорить, а сказать – посмотрите в корпусе.
О. СЕВЕРСКАЯ - Ну вы же уже посмотрели в корпусе.
М. КОРОЛЁВА - Специалист уже обработал сведения. Ну?
В. ПЛУНГЯН - Значит, «кубовый» - это прилагательное цвета, это интенсивный синий цвет, ярко-синий. Вообще, полезное слово… писатели XIX века его много… и в начале XX века… у Ивана Шмелёва, например, у Бунина встречается… вот, кубовый сарафан, кубовое платье, кубовый краситель, такая вот специальная краска.
М. КОРОЛЁВА - И вы его нашли в корпусе?
В. ПЛУНГЯН - В словаре это слово в принципе есть, но в словаре очень коротко написано, там, скажем, «ярко-синий», а в корпусе очень интересные примеры, и сразу видите специфику употребления, потому что чтобы понять цветовое прилагательное, нужно же контекст видеть: с чем сочетается, что обозначает: это как небо, как море, как чернила, как что, вот, так что верить – не верить словарю – это вопрос, а с корпусом примеры.
М. КОРОЛЁВА - Я просто хочу напомнить для всех, кто наш сейчас слушает, кто у нас в гостях. Это Владимир Александрович Плунгян, член-корреспондент Российской академии наук, завотделом корпусной лингвистики Института русского языка Российской академии наук, и вы можете звонить нам… ну, в смысле сейчас, пока присылаете СМС. +79859704545. Там посмотрим. Может быть, и вопросы по телефону тоже зададите. «Сетевизор» не забывайте. Ну что ещё? Пока все. Вопросы тут, кстати, уже идут.
О. СЕВЕРСКАЯ - У меня пока вопрос есть ещё такой. Можно ли проверить правильность по корпусам?
В. ПЛУНГЯН - Да, ну тут надо прямо честно сказать, что если в словарях и в справочниках вам скажут, как правильно, ну, чтобы под этим не понимать, потому что у специалиста слово «правильно» вызывает сложности…
М. КОРОЛЁВА - То есть вам нечто предписывают, правильно?
В. ПЛУНГЯН - Да, да. То в корпусе вы узнаёте, не как правильно, а как на самом деле.
М. КОРОЛЁВА - Как оно бывает в жизни.
В. ПЛУНГЯН - Как на самом деле. Ну, смотрите сами, что вам важнее. Иногда нужно получить, конечно, чёткий однозначный ответ «правильно вот так», и тогда можно не думать о сложной реальности, а иногда этого ответа совершенно недостаточно, особенно если человек просто интересуется. И вот тут корпус очень полезен. Но, конечно, проверять орфографию написания я бы по корпусу не советовал. Кстати, тоже, вот, один пример приведу. Мне недавно попалась книжка, изданная, между прочим, Российской академией наук. Называется она «Лукавая цыфирь». Книжка очень полезная. Она о вреде поспешного применения разных методов учёта научной продуктивности, которые ничего не учитывают. Но меня как лингвиста остановило не содержание книжки, а её заглавие: слово «цыфирь» было написано через «ы» на обложке. Издание Академии наук, напоминаю. Ну, с точки зрения современной орфографии это прямая ошибка, все знают – цыган, цыпочки, и всё…
М. КОРОЛЁВА - Никакой цыфири, да.
О. СЕВЕРСКАЯ - Цыплёнку цыц.
В. ПЛУНГЯН - Да. Но в то же время смотрится это не так уж дико, вот эта «цыфирь» через «ы». Даже я понимаю тех людей, которые написали так, не проверили… смотрим в корпусе. Конечно, «цыфирь»… слово «цыфирь» не самое частое, но встречается. Через «и», конечно, подавляющее большинство, около 100 примеров, это довольно много для такого редкого слова, но через «ы» - более 10, значит, примерно около 15.
М. КОРОЛЁВА - И это в литературных текстах?
В. ПЛУНГЯН - Да. В литературных текстах. Часть из них – старые тексты, в XIX веке так писали, действительно, довольно много. Это правило про «ц» - оно не сразу устоялось, там были колебания. Ну и проскальзывают… у некоторых пишущих… я даже не беру сейчас тексты Интернета, хотя они у нас в корпусе тоже есть. Ну, понятно, что там орфография более подвижная. Берём такие вполне нормативные тексты, прошедшие редакцию… встречаются… 100 на 10, примерно такое соотношение. Это интересный факт. То есть с точки зрения нормы этого не существует.
М. КОРОЛЁВА – Современной нормы.
В. ПЛУНГЯН - Да. Современной. И есть даже… вот, даже авторы Академии наук захотели так написать.
М. КОРОЛЁВА - То есть получается, что для того чтобы вам выяснить, что это слово писалось таким образом, вам нужно было бы, ну, не знаю, там, пойти в специальную библиотеку, найти словари…
В. ПЛУНГЯН - Что практически невозможно, это практически невозможно. Этот ответ я получил, ну, меньше чем за минуту. Попробуйте исследуйте, как в XIX веке, куда смотреть, где рыться, и будет ли гарантия, что… можно было бы, конечно, заглянуть наугад в какие-то авторитетные источники, словари, но это…
М. КОРОЛЁВА - Вот ещё, ещё вопрос. Вот, Дмитрий из Екатеринбурга, допустим, задаёт вопрос: «Как правильно писать – блогер или блоггер?». Это наш любимый с Олей вопрос, да, там, одно «г», два «г», и так далее. Вот, смотрите, здесь если вы набираете просто в Яндексе это слово, вам тоже выпадет огромное количество написаний с одним «г» и большое количество написаний с двумя «г» тоже.
В. ПЛУНГЯН - Да, совершенно верно.
М. КОРОЛЁВА - По такому же принципу в этом смысле работает корпус?
В. ПЛУНГЯН - Конечно, и корпус вам выдаст… я думаю, что в этом случае будет примерно 50 на 50, я не проверял с «блогером», но думаю, что… а очень может быть, что неправильного (так сказать неправильного) написания будет больше. Это, кстати, корпус был бы очень полезен для тех людей, которые придумывают орфографические правила, их же люди придумывают, надо же понимают, что нормы, правила – это не то, что существует в природе…
М. КОРОЛЁВА - Вот вы никому этого не говорите, потому что мы нашим слушателям обычно рассказываем, что на самом деле язык всё регулирует сам, а уж потом вы, лингвисты, это только фиксируете.
В. ПЛУНГЯН - Да, ну хорошо. Давайте так исправим положение. Те люди, которые придумывают правила, должны всё-таки чаще опираться на корпус, чтобы не получилось так, что рекомендуемое является редким неупотребительным вариантом. Вот это было бы очень неплохо здесь. Норма нужна. Поймите меня правильно. Совершенно не против. В обществе развитом, обществе цивилизованном, норма нужна. Но норма – это факт… это не явление природы, понимаете? Переходить улицу на красный свет – это же норма, её никто не призывает отменить. Но это не закон физики. Как раз зажигается красный свет светофора…
О. СЕВЕРСКАЯ - То все стоят.
В. ПЛУНГЯН - И машины останавливаются.
О. СЕВЕРСКАЯ - Машины, главное, останавливаются.
В. ПЛУНГЯН - Это правило.
О. СЕВЕРСКАЯ – Все-таки отвечу Дмитрию из Екатеринбурга, что орфографическая комиссия рекомендует писать «блогер» с одним Г, и на это есть свои причины. Нет у нас такого длинного звука Г. Но, тем не менее, хотелось бы еще вот о чем спросить, в связи с нормой. Все-таки Корпус – он показывает, например, как складывается новая норма, как она меняется, эволюционные эти…
В. ПЛУНГЯН - Особенно как меняется, конечно. Корпус вообще показывает, что язык – гораздо более сложное, хаотичное, непредсказуемое и, я бы сказал, интересное явление, чем нам иногда кажется из грамматик, словарей, где все так гладко причесано. Вот язык меняется непрерывно. Он меняется каждую секунду, не говоря уже о сменах поколений, потому что каждое следующее поколение, конечно, говорит немного на другом языке. Именно поэтому мы сейчас не понимаем того, что было написано на древнерусском языке, и даже на среднерусском, и даже на языке XVII века. В общем, мы понимаем, но…
М. КОРОЛЁВА - Вот я сейчас поняла, что мы забыли сказать. Мы все говорим «корпус», «корпус», а адрес-то в Интернете…
О. СЕВЕРСКАЯ - www.ruscorpora.ru. «Corpora» пишется через С.
М. КОРОЛЁВА - Но, впрочем, я думаю, любой, кто наберет в поисковой системе просто «Национальный корпус русского языка» - он получит это.
В. ПЛУНГЯН - В Yandex’e, в Googl’e.
М. КОРОЛЁВА - Хороший вопрос, между прочим, от Алексея Виноградова: «Можно ли добавить в Корпус свой текст, или вы отбираете тексты сами?» Хороший вопрос, по-моему.
О. СЕВЕРСКАЯ - И кстати, Алексей Виноградов спрашивал…
В. ПЛУНГЯН - Можете прислать нам. Нет, Корпус все-таки не так устроен, что каждый добавляет все, что хочет.
М. КОРОЛЁВА - А почему нет, кстати, Владимир Алексанрович?
В. ПЛУНГЯН - Ну, здесь есть некоторая наука, что надо добавить в первую очередь, с чем можно подождать…
М. КОРОЛЁВА - А что надо добавить в первую очередь, а с чем надо подождать?
В. ПЛУНГЯН - Ну, это сложный вопрос.
М. КОРОЛЁВА - Ну, так вот если, в общем. Что вы берете и что не берете?
В. ПЛУНГЯН - Ну, я бы так сказал. Все-таки, в первую очередь должны присутствовать тексты, которые прочно существуют в коллективной памяти носителей. Понимаете, то, что востребовано, на слуху, то, что каждый из нас много раз увидел или прочитал в жизни. Потому что такие тексты оказывают очень большое влияние на то, как мы говорим.
М. КОРОЛЁВА - Но вы говорите – XVIII век, например. Как это можно…
В. ПЛУНГЯН - Ну, классическая литература… То есть, нет, понимаете, не только это. Не только это. Но, например, то, что в свое время, в XVIII веке, было востребовано, а потом сошло на нет, забылось, но тогда-то это для людей было важно. Такие тексты, как… у нас есть указания Петра I, например, в корпусе. Вряд ли современные носители русского языка каждое утро перечитывают указы Петра I.
М. КОРОЛЁВА - Теперь есть такая возможность. Пожалуйста. Есть такая возможность?
В. ПЛУНГЯН - Ну, конечно, корпус существует…очень неформально говоря, в корпус включаются очень важные тексты для общества и все остальные, в общем, тоже может.
М. КОРОЛЁВА - Мы продолжим разговор. Я напомню, Владимир Плунгян, член-корреспондент Российской академии наук, сегодня гость нашей программы. Мы говорим о национальном корпусе русского языка. Программа «Говорим по-русски». Через несколько минут снова встречаемся.
НОВОСТИ
О. СЕВЕРСКАЯ - Ну что ж, 12 часов 35 минут. Продолжаем программу «Говорим по-русски». У нас в гостях, напомню, Владимир Александрович Плунгян, член-корреспондент Российской академии наук, заведующий отделом корпусной лингвистики Института русского языка РАН. И, вот, у нас тут от Алёны пришла СМС-ка, она пишет, что все её родственники старшего поколения активно употребляли прилагательное «кубовый» и никогда с ударением на первом слоге, чаще всего они говорили «кубовОй» или иногда «кубОвый». Вот, в принципе, корпус мог бы дать ответ на этот вопрос. И то, что даёт абсолютно однозначный ответ на вопрос, какое ставили раньше ударение, это поэтический подкорпус, потому что там вопросы рифмы и всего, и, вот, я как раз смотрела, очень такой забавный был пример из Некрасова, забавный и удивительный.
В. ПЛУНГЯН - КубовОй слово тоже есть, это прилагательное от «куб», в котором воду кипятят. Есть существительное «кубовая», может, сейчас забылось, но комната, в которой находится… так что, может быть, родственники другое имели в виду.
О. СЕВЕРСКАЯ - Возможно. О Некрасове. В своём знаменитом стихотворении «Поэт и гражданин» Некрасов говорит:
Иди в огонь за честь отчизны,
За убежденье, за любовь,
Иди и гибни безупрёчно,
Умрешь недаром. Дело прочно,
Когда под ним струится кровь.
О. СЕВЕРСКАЯ - Дело в том, что Некрасов очень так последовательно употреблял именно это ударение и, например,
Выручай. Надежда прочна.
Остаешься ты один.
Выручай, ты безупрёчный
Полноправный гражданин.
О. СЕВЕРСКАЯ - Можно было бы считать, что это такая особенность произношения Некрасова. В принципе, упрёк, да, если без упрёка, то безупрёчный, всё логично, если бы это было не так. Никитин, например, тоже писал:
Всё, от чего душа скорбит,
Вокруг меня весь день кипело.
Куда бежать от громких слов.
Мы все добры и непорочны.
Боготворить себя готов
Иной друг правды безупрёчный.
М. КОРОЛЁВА - Ну, может быть, это просто поэтическое отклонение. Такое может быть?
О. СЕВЕРСКАЯ - Да нет, судя по всему, была такая норма.
В. ПЛУНГЯН - Да, скорее всего.
О. СЕВЕРСКАЯ - Скорее всего, была такая норма. Вот, к вопросу о норме и как правильно, и как всё-таки правильнее, скажем так, тоже вот такой современный вполне вопрос… я думаю, что все получали раз или два в своей жизни в социальной сети «Facebook» сообщение «Интересуюсь о вас на Facebook». Вот, меня, честно говоря, такая форма, когда я её получила, она меня заставила просто, не знаю, смеяться, я думаю, господи, просто я знала, от кого пришла такое сообщение, думаю – ну уже совсем человек забыл русский язык. А вот корпус как раз даёт ответ на этот вопрос.
М. КОРОЛЁВА - То есть «интересоваться о…» - это нормально?
О. СЕВЕРСКАЯ - Да.
М. КОРОЛЁВА - Или может быть… или встречалось.
О. СЕВЕРСКАЯ - Это вопрос. Давай зададим Владимиру Александровичу этот вопрос. Встречалось?
В. ПЛУНГЯН - Да, это как раз у нас даже на портале «Студиорум» это обсуждалось… скажите два слова про наш портал «Студиорум».
О. СЕВЕРСКАЯ - Есть такой портал, действительно, который обучает русскому языку, это studiorum.ruscorpora.ru.
В. ПЛУНГЯН - Его можно найти и на сайте национального корпуса, он как раз предназначен для преподавателей русского языка, и именно там такие задания интересные…
М. КОРОЛЁВА - То есть это для преподавателей, а не для учащихся?
В. ПЛУНГЯН - Для учащихся тоже. В основном для преподавателей, там просто собраны разные материалы, которые можно подготовить с помощью корпуса, так что это тоже отчасти ответ на ваш вопрос «зачем корпус?».
О. СЕВЕРСКАЯ - Это как раз и было задание пытливым детям.
В. ПЛУНГЯН - Его делали такие энтузиасты, как раз внедрение корпуса в преподавание, которые говорят, что жизнь их радикально поменялась с появлением корпуса, просто состоит из двух частей – до корпуса и после. И, вот, studiorum можно найти на сайте… там много забавных таких вещей, про «интересоваться о…» как раз оттуда нашли мы случай. Значит, так говорили в XIX веке, «интересоваться о…», где-то к концу XIX века такие употребления исчезают постепенно, на корпусе это очень хорошо видно. Здесь как раз жалко, что это употребление исчезло, потому что различалось два значения, которые в современном русском языке совпали. Можно сказать «граф поинтересовался о здоровье графини», вот, вполне хорошее выражение XIX века, но «граф интересуется шахматами» никто не говорил, и тогда «граф интересуется о шахматах». Если граф хочет узнать, как здоровье графини, он «интересуется о…», а если он глубоко погружён в изучение чего-то, то он интересуется чем-то…
М. КОРОЛЁВА - То есть получается, что мы утратили какое-то значение в результате, какое-то употребление, вместе с ним такой тонкий оттенок значения.
В. ПЛУНГЯН - Да, да, то есть основной массив вот этих управлений творительного… он просто задавил это предложное управление, ну и оно, вот, сдалось… такое бывает в языке…
М. КОРОЛЁВА - А вот здесь Владимир ещё спрашивает, что в словарях ещё синонимы и рифмы удобно искать. А в корпусе?
В. ПЛУНГЯН - Ну, рифмы прекрасно в корпусе искать, поскольку у нас поэтический корпус – это отдельный подкорпус, отдельный продукт, и там очень удобная система поиска, и можно искать слова, как это называется, в зоне рифмовки. Поэтому, пожалуйста, рифмы к слову «берёза», «дорога», вот, всё можете найти.
О. СЕВЕРСКАЯ - А можно ли, скажем, по корпусу определить частоту употребления тех или иных слов в русском языке?
В. ПЛУНГЯН - Конечно, можно, потому что первое, что выдаётся на запрос о каком-то слове – это количество его употреблений в корпусе. Ну дальше можно с этой цифрой что-то делать, зная общее число слов, абсолютное, относительное, ну, конечно, это очень важно. Вообще, статистика – это очень важная часть изучения языка, и корпус сильно в этом помогает.
М. КОРОЛЁВА - Так. Ещё вопрос, который касается исторической части корпуса, который пришёл от нашей слушательницы по Интернету: «Как далеко вы рассчитываете продвинуться и как удаётся вводить в корпус, например, древнерусские тексты?». Как я понимаю, их там сейчас нет?
В. ПЛУНГЯН - Сейчас нету, но должны появиться в ближайшее время. Мы думаем об этой задаче. Всё-таки очень хотелось бы создать такой единый ресурс от самых первых памятников русского языка, XI век, когда фиксируются, и вплоть до современности такую непрерывную линейку, вот, через средние русские памятники, там, переписка Грозного с Курбским, и протопоп Аввакум. И вот уже потом Алексей Михайлович, указы Петра I, и постепенно к современному русскому языку. Значит, задача эта в принципе решаемая. Она очень трудоёмкая. До её завершения ещё пока далеко, пока даже и по современному языку у нас есть лакуны какие-то, но мы делаем это. И, ну, есть программные средства, способы, у нас очень хорошие программисты, вот, которые так справляются и с древнерусским языком.
О. СЕВЕРСКАЯ - Кстати, был вопрос – сколько…
В. ПЛУНГЯН - Так что следите за новостями, что называется.
О. СЕВЕРСКАЯ - Сколько человек работает над корпусом, попутно спрошу, был такой вопрос от наших…
М. КОРОЛЁВА - Да, наш слушатель Семён тоже говорил, что пользуется с самого того момента, когда только он появился, и, вот, ему интересно, сколько же работает над корпусом народу.
В. ПЛУНГЯН - Вы знаете, точного числа я не назову. Есть такое ядро – «актив корпуса» - это примерно 15-20 человек, которые всё время…
М. КОРОЛЁВА - Всего 15-20?
В. ПЛУНГЯН - Да, да. Нас мало. Ну есть люди, которые участвуют в отдельных программах, которые выполняют какие-то задачи, их, конечно, гораздо больше. Но это скорее технические сотрудники, хотя и не только. Но всё равно не очень много. Да, у нас небольшая команда.
О. СЕВЕРСКАЯ - Это ещё есть такой вопрос – планируется ли интеграция в поисковики, в Яндекс, например или в другие системы, но здесь, по-моему, нужно говорить об интеграции Яндекса в корпус.
В. ПЛУНГЯН - Мне кажется, что она уже существует, потому что с самого начала наш проект был очень активно поддержан именно Яндексом. Вот, мы очень благодарны этой компании, специалисты которой уже тогда знали, что такое корпус, понимали, что он нужен, ну, для их собственных задач, для улучшения их поиска, и нас очень активно поддержали, ну потом нас поддержала Российская академия наук на следующем этапе, но самый начальный… так что не то чтобы интегрирован, он изначально просто, вот, поисковый механизм в корпусе – это и есть поисковая машина Яндекс, ищет быстро и хорошо.
О. СЕВЕРСКАЯ - Просто войдя в Яндекс, вы не найдете там национальный корпус, но зато в национальном корпусе…
В. ПЛУНГЯН - Нет, вы знаете, там есть разные связки, например, из корпуса идёт ссылка на словари Яндекса. Вот, слово можно… пожалуйста, можно посмотреть в словарях. Вот, вы нашли слово «кубовый», да, вам примеров недостаточно, там очень легко одним щелчком… вы переходите в словарь Ушакова, который сейчас есть, и в разные другие словари.
М. КОРОЛЁВА - Но тем не менее, возвращаясь к одному из самых таких, знаете, болевых наших вопросов, которые касаются ударения… вот, Оля там упомянула, что можно вычислять ударения, допустим, в поэтических текстах, а во всём остальном, например…
В. ПЛУНГЯН - Вы знаете, у нас есть такой специальный подкорпус, потому что, видите, мы думали о разных задачах, которые встают перед исследователями, значит, про ударение, конечно, много думали. Сейчас есть так называемый акцентный корпус, корпус русского ударения, в котором собраны такие тексты… это не только стихи, которые дают информацию о реальном ударении, не о том, которые словарь предписывает, а о том, которые люди действительно ставят. Значит, это, кроме стихов, где можно увидеть ударение иногда, это устная речь. Например, речь кино. Вот, у нас затранскрибированы кинофильмы, причём, уже довольно много, почти вся такая классика XX века, где актёры, вот, произносят… и, кстати, довольно часто «с неправильными ударениями».
М. КОРОЛЁВА - А в каком это виде, простите? В звуковом просто?
В. ПЛУНГЯН - И в звуковом, и в видео можно посмотреть…
М. КОРОЛЁВА - То есть там есть подкаст…
В. ПЛУНГЯН - Лицо, руки…
М. КОРОЛЁВА - Так называемый звуковой. Там идёт подкаст.
В. ПЛУНГЯН - Есть транскрипция прежде всего, то есть, значит, это можно увидеть и услышать. Это мультимедийный корпус, это, кстати, просто совершенно передний край науки, современные мультимедийные корпуса, специалисты по языку давно поняли, что язык надо изучать не только и не столько на бумаге, а его реальное функционирование…
М. КОРОЛЁВА - Ну, да. Вы говорили, кстати, об устной речи. А это только кино? Вот, вы говорите, что кроме письменных текстов есть ещё и устная речь. А, вот, это как можно впихнуть?
В. ПЛУНГЯН - Большой массив. Просто это удобно, его легко интегрировать в корпус. В принципе мы записывали и обычную разговорную речь людей, ну, добровольцев… радиопередачи, кстати, присутствуют. По-моему, даже с «Эха Москвы»…
М. КОРОЛЁВА - Да! Как же вы забыли-то такой ресурс! Подкастов у нас много. Их можно в корпус загружать.
В. ПЛУНГЯН - Так что, ну, слава богу, люди довольно много сейчас говорят и довольно много себя записывают, так что здесь технических проблем особых нет, проблема в том, чтобы это правильно интегрировать в корпус. Вот это мы делаем. Вот, пожалуйста, можете узнавать, где стоит реальное ударение. Там очень много интересного.
О. СЕВЕРСКАЯ - Хотели мы сегодня разыгрывать книжки, но мы не успеем это сделать точно, потому что у нас до выпуска альманаха осталось 3 минуты.
М. КОРОЛЁВА - Ну, чуть больше, но, во всяком случае, мы ещё успеем, наверное, задать несколько вопросов, которые тут пришли по СМС, да? Я только напомню, что у нас в гостях Владимир Плунгян, мы говорим сегодня о национальном корпусе русского языка, не тот, который кадетский, а тот, который даже в Интернете ruscorpora.ru…
В. ПЛУНГЯН - Русского языка всё-таки.
М. КОРОЛЁВА - Да. У нас Николай тут спрашивает, например, опять-таки, вы знаете, у нас самый распространённый вопрос, вы представляете себе, это как правильно, вот, как правильно, спрашивает он, рАзвитый или развитОй. Вот, Николай может в корпусе получить вообще в принципе ответ на вопрос – как правильно. Или всё-таки, как вы говорите, только на вопрос, как это есть на самом деле.
В. ПЛУНГЯН - Как можно получить в корпусе ответ на вопрос – как правильно? Там же нету пометок. Здесь нужно, вот, как правильно, нужно посмотреть в словаре. Считаются современные словари… я думаю, там будет написано что-то вроде, что развитОй в одном значении, рАзвитый в другом. Это норма немножко искусственная, но рекомендация такая.
М. КОРОЛЁВА - А знаете, что вам пишут? «Блогера или блоггера в корпусе нет», - пишет вам Алексей Виноградов.
О. СЕВЕРСКАЯ - Мне хочется просто сейчас взять и проверить.
М. КОРОЛЁВА - Ну, вот, Ольга попробует сейчас это сделать. Может такое быть?
В. ПЛУНГЯН - Маловероятно.
О. СЕВЕРСКАЯ - Маловероятно.
В. ПЛУНГЯН - Все-таки у нас довольно много современной прессы. Может быть, просто не там искал Алексей. Дело в том, что у нас, например, есть особый подкорпус современных русских газет. Их сто миллионов словоупотреблений. Неужели в стомиллионном корпусе современной русской газеты нет ни одного вхождения слова «блогер». У меня это вызывает…
О. СЕВЕРСКАЯ - Значит, просто в основном корпусе я уже нашла 2 документа с тремя вхождениями.
В. ПЛУНГЯН - Да, да, да.
О. СЕВЕРСКАЯ - Это слово блоггер через два «г».
В. ПЛУНГЯН - А если в газетном смотреть.
О. СЕВЕРСКАЯ - А если в газетном, сейчас мы посмотрим…
В. ПЛУНГЯН - Понятно, что…
О. СЕВЕРСКАЯ - А если в газетном, то блоггер с двумя «г» 71 документ, 42 вхождения.
М. КОРОЛЁВА - А с одним «г»?
О. СЕВЕРСКАЯ - А с одним «г» сейчас мы посмотрим.
В. ПЛУНГЯН - Корпус наш развивается, там многие его участки в экспериментальном режиме работают, там многого может не быть, многое может быть не отлажено, всё так, но, вот, надо всё-таки, ну, чуть-чуть просто уметь правильно искать, это… кстати, есть инструкция на сайте. Если потратить полчаса, его внимательно прочесть, то…
О. СЕВЕРСКАЯ - Прочесть. Найдено 9 документов с одним «г» и 15 вхождений только в газетном корпусе.
В. ПЛУНГЯН - Вот, а рекомендуют написание с одним.
О. СЕВЕРСКАЯ - С одним.
В. ПЛУНГЯН - Вот о чём и речь.
О. СЕВЕРСКАЯ - Но дело в том, что… после одной нашей дискуссии с Владимиром Владимировичем Лопатиным как раз с прямым включением статистика Яндекса резко изменилась… то есть…
В. ПЛУНГЯН - Владимир Владимирович убедил, что…
О. СЕВЕРСКАЯ - Убедил, что надо писать так.
М. КОРОЛЁВА - Всё-таки по поводу Интернета русского, вот, опять-таки, Алексей спрашивает: «А Интернет русский в каком объёме входит в корпус?».
В. ПЛУНГЯН - Входит не в очень большом, мы всё-таки его дозируем.
М. КОРОЛЁВА - Почему?
В. ПЛУНГЯН - Значит, с одной стороны, эти тексты и так достаточно хорошо растут, то есть если я захочу проверить, как что-то в Интернете устроено, я и без корпуса это могу сделать, ну, там, хуже, менее комфортно, но смогу. С другой стороны, всё-таки надо понимать, что русский язык Интернета – это довольно специфический русский язык, и он не может представлять в целом, но он должен быть. Вот так… у нас сейчас где-то на уровне, может быть, там, 5-10% от общего массива.
М. КОРОЛЁВА - 5-10.
В. ПЛУНГЯН - 5-10, да. Вот, ну, мы считаем, что этого пока достаточно. Но в принципе это интересные тексты как таковые, вот, мы думаем даже сделать особый подкорпус.
М. КОРОЛЁВА - И думаю, что будут всё более интересные.
В. ПЛУНГЯН - Да. Да. Тексты электронной коммуникации. Кстати, для теории полезно – это устные тексты или письменные, как вы думаете?
М. КОРОЛЁВА - Ну, что-то среднее.
В. ПЛУНГЯН - Вот именно, да, да, да…
М. КОРОЛЁВА – Действительно. Что-то среднее.
В. ПЛУНГЯН - Видимо, правильный ответ – и те, и другие. У них есть черты и устных текстов, потому что человек пишет спонтанно, себя не контролирует.
М. КОРОЛЁВА - То есть это разговорная речь, переданная на письме.
В. ПЛУНГЯН - Но всё-таки это тексты не звучащие, да, это такие гибридные тексты, очень интересно, раньше такого не было.
М. КОРОЛЁВА - Должна вам сказать, что именно такими являются тексты наших альманахов с Ольгой Северской «Говорим по-русски», это тот самый гибрид разговорно-письменного текста, но, вот, альманах все смогут оценить буквально уже через несколько секунд, а мне остаётся напомнить, что у нас у Оли Северской, у Марины Королёвой сегодня в гостях был Владимир Плунгян, член-корреспондент Российской академии наук, мы говорили о живом языке именно в вашем компьютере, именно о национальном корпусе русского языка. Спасибо.
В. ПЛУНГЯН - Спасибо вам.