В проекте ScienceHub главный редактор проекта ПостНаука Ивар Максутов беседует с учеными в их лабораториях о новых технологиях, перспективах исследований и новых профессиях, которые появятся благодаря научным открытиям.

ПостНаука побеседовала с Анатолием Старостиным, руководителем группы семантического анализа в ABBYY, преподавателем кафедры «Компьютерная лингвистика» в МФТИ, чтобы разобраться, как работает семантический поиск, какие основные направления компьютерной лингвистики есть сегодня и кто важнее, математики или лингвисты.

Компьютерная лингвистика — это область научного знания. Это наука, с одной стороны, о языке, а с другой стороны, о том, как работать с языком (не всегда естественным) с помощью компьютерных методов. Это наука, возникшая на стыке лингвистики и computer science. Компьютерная лингвистика под разными углами рассматривает естественный язык, формальный язык. В центре этой науки — понятие языка, которое можно рассматривать с разных сторон. Его можно рассматривать, например, формально.

Рекомендуем по этой теме:
20355
Корпусная лингвистика
Подготовка лингвистов с оглядкой на компьютерную лингвистику существенно влияет и на самих лингвистов. Более или менее современные лингвисты сегодня (если говорить о людях, которые занимаются естественным языком, пишут теоретические работы об этом) давно перешли на представления о компьютерных методах. В качестве примера я могу упомянуть «Национальный корпус русского языка». Это известный публичный ресурс, который был создан лет десять назад. Это корпус русского языка, размеченный разной лингвистической метаинформацией. Там есть морфологическая разметка, синтаксическая разметка и так далее.

Грубо говоря, компьютерная лингвистика становится инструментом извлечения информации оттуда, откуда мы ее до этого не могли извлечь. Если кто-то положил в структурированную базу данных, мы взять можем, потому что они структурированы. Надо только разобраться в формате, то есть в том, как они их выложили. А если это написано текстом, то, казалось бы, это может понять только человек. Оказывается, что с помощью таких методов можно написать программы, которые поймут вместо человека. Это, грубо говоря, конвертеры неструктурированной информации в структурированную.