Автоматизированное реферирование и информационный поиск

Машинный перевод

Вопрос об использовании ЭВМ для перевода текстов с одного языка на другой впервые возник в 1947 году. В 1954 году в США с помощью ЭВМ было переведено шестьдесят фраз. Этот знаменитый "Джорджтаунский эксперимент" произвел неизгладимое впечатление на специалистов. И хотя его результаты оказались весьма скромными, они вселили в ученых уверенность в том, что имеются хорошие перспективы использования ЭВМ для работы с текстами на естественном языке. Дальнейшее развитие работ в области машинного перевода было цепью небольших побед и больших разочарований. В пятидесятых годах представления о том, как должны делаться большие программные системы, были еще весьма наивными, а точные лингвистические модели практически отсутствовали. На первом этапе работ по машинному переводу в единый алгоритм пытались поместить как информацию о тех двух языках, между которыми осуществлялся перевод, так и описание самих правил перевода. На смену им в начале шестидесятых годов пришли системы, в которых между входным и выходным языком появился специальный язык-посредник, облегчающий сопоставление между собой конструкций различных языков. В системах третьего поколения, появившихся во второй половине семидесятых годов, этот язык-посредник превратился в модель глубинной семантики, описывающей семантические универсалии, присущие всем естественным языкам.В СССР работы в области машинного перевода начались с 1955 года. Становление и развитие этого направления во многом связано с работами А.А.Ляпунова, Ю.Д.Апресяна, О.С.Кулагиной и др. В области машинного перевода отечественные работы всегда находились и находятся на переднем крае исследований. Созданные в нашей стране системы машинного перевода во многих отношениях превосходят соответствующие им во времени зарубежные образцы.Какие же достижения из области машинного перевода оказались полезными для искусственного интеллекта?Прежде всего, это понимание, что анализ естественно-языковых особенностей невозможен без создания семантической модели, в которой в явной форме содержались бы словарные статьи, интерпретирующие смысл слов, используемых в тексте, а также устойчивых комбинаций из них. Такая семантическая модель должна отображать реальные отношения объектов и явлений внешнего мира, преломляемые через средства языка. Практически, в работах по машинному переводу впервые возникла идея отделения процедурных знаний от декларативных, которая нашла свое развитие на первом этапе исследований по искусственному интеллекту. Отделение того "с чем делать" от того "как делать" было свойственно программированию на ЭВМ с самого начала. Данные и программы всегда существовали, как отдельные компоненты: Но отделение "почему так делать" от того "как делать", т.е. отделение модели от программы произошло, по-видимому впервые в исследованиях по машинному переводу на втором этапе их осуществления.Вторым достижением работ по переводу с одного языка на другой явилось введение промежуточного внутреннего представления всех необходимых для перевода сведений. Появление языка-посредника знаменовало собой первую попытку создания языка внутреннего представления знаний, отличного от входного языка, на котором записан текст, подлежащий переводу, и выходного языка, на который тот текст должен был быть переведен. Активность внутренних представлений знаний получила в дальнейшем в системах искусственного интеллекта большое развитие.И, наконец, третьим достижением работ в области машинного перевода, важным для искусственного интеллекта, можно считать разделение этапов анализа текстов на ряд последовательных шагов: морфологический анализ, поверхностный семантический анализ, глубинный семантический анализ, поверхностный синтаксический анализ, глубинный синтаксический анализ и прагматический анализ. Выделение этих шагов позволило поставить перед лингвистами задачи по созданию языковых моделей для целей машинного перевода, стимулировать эти исследования и получить нужные результаты, благодаря чему стала возможной волна исследований в этой области, завершающаяся сейчас созданием практически эффективных систем перевода научно-технических текстов с помощью ЭВМ. Для работ в области искусственного интеллекта эти исследования сыграли свою роль при создании систем общения пользователей с интеллектуальными системами. Не менее важным оказалось и понимание того, что синтез текстов может рассматриваться как обращение тех шагов, которые были выделены и изучены при анализе текстов.

Автоматизированное реферирование и информационный поиск

Почти одновременно с работами по машинному переводу начались исследования по использованию ЭВМ для целей автоматического реферирования научно-технических текстов. Первый машинный эксперимент такого рода был проведен в 1957 году в США. В отличие от машинного перевода, где внимание исследователей, по крайней мере на начальном этапе, было сосредоточено на отдельных предложениях, т.к. машинный перевод мыслился как перевод "фраза за фразой", в области автоматизированного реферирования внимание было обращено на более крупные участки текста, в которых концентрировались рассуждения на одну и ту же тему. Другими словами, внимание исследователей в этой области с самого начала было ориентировано на выявление закономерностей, организующих смысловое единство текста. На первом этапе этих работ наиболее популярными были подходы, основанные на выявлении тех или иных статистических закономерностей распределения терминов в тексте или их взаимного расположения в нем. В дальнейшем исследования в области автоматизированного реферирования сместились в сторону использования внутренних структур текста, выявления той информационной основы, которая организует весь текст. Работы в этом направлении оказали существенное влияние на использование ЭВМ для сочинения искусственных текстов.Развитие информационно-поисковых систем, опирающихся на использование ЭВМ, также сыграло свою роль в формировании ряда парадигм искусственного интеллекта. Идея выделения и использования дескрипторов при поиске релевантных ответов на запросы многократно использовалась в вопросно-ответных системах, традиционно включавшихся в область интеллектуальных систем на начальном этапе их развития. Идея вычленения системы связей-отношений между отдельными фактами, воплощенная в понятии тезауруса, развилась впоследствии в идею семантической сети, столь важную для работ в области искусственного интеллекта.