Скачайте приложение, чтобы слушать «Эхо»
Купить мерч «Эха»:

«Говорим по-русски!» - 15 и 19 февраля - Говорим по-русски. Радио-альманах - 2015-02-15

15.02.2015
«Говорим по-русски!» - 15 и 19 февраля - Говорим по-русски. Радио-альманах - 2015-02-15 Скачать

О.: Теперь, когда мы устроили в своих сетях без пяти минут информационный хаос, давайте попробуем переработать его во что-нибудь полезное, – предлагают компьютерные лингвисты. В постоянно растущей свалке слов, которую представляет собой интернет, закопаны информационные сокровища. Они достаются тому, кто умеет искать.

М.: Тому, как компьютеры учатся добывать из текста смысл, посвящена опубликованная в журнале «Наука и жизнь» статья Елены Вешняковской «Читать 2.0». Вот ее мы с вами сегодня и почитаем.

О.: Прочитать текст (в человеческом смысле слова) далеко не то же самое, что извлечь из него смысл. Западная школа учит трём типам чтения: не только обычному — подробному, ничего не упускающему, но и сканирующему (scanning) и суммирующему (skimming) — у нас это называется «читать по диагонали». Задача сканирующего чтения — найти в тексте именно те «места», которые актуальны для текущей задачи; суммирующего — быстро, в один взгляд, понять суть сказанного в статье, главе или разделе в целом.

М.: От машинной обработки информационного потока специалисты хотят добиться примерно такого же — функционального результата. Стандартная задача – Named Entity Recognition, распознавание, или извлечение именованных сущностей (поиск персон, организаций, географических мест и т.д.) более или менее решена. Однако, конечно, никому не интересно извлекать сущности просто так. Чаще всего нам нужно знать: а что с этой сущностью происходит, например: «Кто, где, когда, с кем что делал и что планирует делать дальше?».

О.: Факты, события, связи — это, например, наличие или отсутствие чего-то, чьи-то рождение или смерть, встреча между двумя людьми, когда один что-то купил, а другой продал, или противоправное действие и судебное решение, а также кто кому кем приходится, - всё это не так просто извлечь, потому что одна и та же ситуация может описываться разными текстами: например, «Вася украл у Пети кошелёк», «Василий вытащил у Петра Иваныча бумажник» и «Деньги пропали из кармана П. Иванова». Задача в том, чтобы программа увидела в этом случае одно событие, а не три разных.

М.: «Я вызвал доктора на дом, и он пришёл» — для человека очевидно, что пришёл не дом, а доктор, а как должна об этом узнать машина? «Оля заказала мороженое, Марина – кофе». Что произошло, задумывается компьютер, между Мариной и кофе?

О.: «Эти типы стали есть в литейном цехе» – какие-то типы достали в цехе бутерброды? или речь идёт о промышленном ресурсе? «Он видел их семью своими глазами» – неужели наблюдатель…семиглазый? «Интересно писать просто»: писать просто — это интересная задача или писать интересно под силу любому?

М.: С неоднозначностью вроде «типы стали есть…» или «видел семью…» современные машинные переводчики, «обременённые» кое-какими знаниями о мире, уже неплохо справляются. Но о многочисленные «это» и «свои» машина, как правило, мучительно спотыкается: с чем из упомянутого ранее их соотнести?

***

О.: К компьютеру слово «понимание» применимо условно. Машинное «чтение» — это способность с некоторой степенью точности «понять смысл»: идёт в тексте речь об одном и том же или о разных вещах? Если о разных, то о похожих или нет? Если похожих, то до какой степени? Что говорится в текстах о конкретном лице или объекте — вызывают ли они у людей эмоции (а в идеале ещё и какие)?

М.: Это любопытство можно удовлетворить, если формализовать смысл так, чтобы он стал «видимым» для машины: разложить его на компоненты и обучить систему их распознавать. Обычно выделяют три единицы смысла, связанного с конкретным значением.

О.: Первая — общее понятие, к которому подключается конкретное значение. «Листочком» дерева, на котором ветвятся значения, может быть, например, «стол», а «веткой», узлом, от которого значение «стол» наследует смысловые признаки, — «мебель», она в свою очередь будет входить в более общую категорию «предмет», «объект» и так далее.

М.: Вторая единица — это дополнительная характеристика, например, съедобное — несъедобное, искусственное — природное и им подобные. Это характеристика, которая для данного значения дополняет информацию чем-то важным для понимания смысла. Иногда одно и то же значение может быть и «съедобным» и «несъедобным». Например, слово «печёный» может относиться и к торту — и тогда оно «съедобное», и к технологии производства кирпича.

О.: И наконец, третья — основная — это связь между значениями, она же — глубинная позиция. «Кошка съела колбасу» и «Колбаса съедена кошкой» — синтаксически разные структуры, а по смыслу — одна, и система должна это понимать.

М.: А есть ещё один уровень формализации смысла — онтология. Когда онтоинженеры пишут правила извлечения информации, они как раз объясняют, как то, что мы видим в реальном мире, связано со смыслом: мы всё время что-то узнаём, что-то забываем, и под эти концепты в нашем сознании постоянно «подшиваются» слова...

***

О.: Гамлетовский вопрос лингвистической науки: достаточно ли интуиции носителя языка, чтобы адекватно описывать устройство своего языка, или лингвистическое описание требует объективного подтверждения? Для второго нужна представительная коллекция примеров, взятых из реальных текстов, т.е. языковой корпус. Главное, что его отличает от любого собрания текстов, — это разметка. Даже миллион словоупотреблений — это океан, и, чтобы в нём не утонуть, необходимо привести его в какую-то систему, разбить на группы по параметрам, приписать каждой единице комплекс данных, с которыми потом будет работать математический алгоритм. Это делают лингвисты вручную.

М.: Фактически количество — это качество корпуса, чем он больше, тем, при прочих равных, надёжнее работает. В самом конце восьмидесятых в Советском Союзе начали создавать «Машинный фонд русского языка», но по ряду причин эта работа прервалась и началась снова в конце девяностых. У лингвистов уже было чёткое понимание того, что для корпусов нужны не только тексты, но и классификация по жанрам, выделение частей речи, выделение рем («новой» информации в структуре высказывания), восстановление до леммы (исходной формы слова)... В этом контексте и появился проект Национального корпуса русского языка.

О.: Корпус — это в каком-то смысле «лингвистический адронный коллайдер», вокруг которого толпятся лингвисты и думают, что бы ещё туда кинуть и посмотреть, что получится, на какие части разлетится и в какие группы соберётся? Возможно, у функциональных текстовых жанров есть признаки, которые можно «потрогать руками» и научиться распознавать машинным образом? А может быть, такие лингвистические «отпечатки пальцев» есть и у разных групп говорящих, например объединённых гендером, возрастом или местом жительства?

М.: Последние эксперименты над русскоязычным сегментом интернета (прежде всего, блогами, потому что социальные сети часто содержат информацию о возрасте, поле и месте жительства блогера) показали, что такого исключать нельзя. Так, совершенно неожиданно оказались «феминизированными» выражение «каждый раз» и количественные оценки с «так» и «очень» (так много, очень быстро), а «маскулинизированными» —«по меньшей мере» и «гораздо...» и «в(о) n раз».

О.: «Когда следующий раз занесёте пальцы над клавиатурой, чтобы твитнуть несколько слов или откомментировать пост во френдленте, задумайтесь. В потоке ерунды, которую мы порождаем за чашкой кофе, прячутся удивительные реалии языка, способные перевернуть наше представление о его устройстве настолько же, насколько один взгляд на живого слона перетягивает тысячи его тщательных и корректных описаний», завершает свою статью «Читать 2.0» Елена Вешняковская.

М.: К автору этой интересной публикации в «Науке и жизни» присоединяемся мы – О.С., М.К. и звукорежиссер… До встречи!


Напишите нам
echo@echofm.online
Купить мерч «Эха»:

Боитесь пропустить интересное? Подпишитесь на рассылку «Эха»

Это еженедельный дайджест ключевых материалов сайта

© Radio Echo GmbH, 2025
Сейчас в эфире
«Всё сложно» с Александром Дмитриевым: Как война в Украине изменила наш взгляд на войну с Гитлером?
Далее в 14:00Все программы