Понятие информационных технологий в отеч. Лингвистике

Социолингвистика

Изучение диалектов, жаргонизмов. Развитие мышления, обучение языку.

Терминоведение - наука о терминах.

Компьютерная лингвистика

  1. машинный перевод
  2. корпусная лингвистика
  3. информационно-поисковые системы
  4. автоматические обучающие системы (ОЛА – обучающий лингвистический автомат)
  5. диалоговые системы
  6. вопросно-ответные системы (скорее изучаются искусственным интеллектом)
  7. генерация текстов
  8. синтез и распознавание речи
  9. компьютерная лексикография (машинная, автоматическая)
  10. онтологии (способ представления информации в системах искусственного интеллекта)
  11. человеко-машинное взаимодействие (ЧМД – человеко-машинный диалог)
  12. гипертекст и Интернет
  13. интерлингвистика (раздел социолингвистики изучающий языки программирования и искусственные языки типа Эсперанто)

 

Компьютерная лингвистика – к ней относятся все лингвистические исследования, проводимые с помощью компьютера.

Компьютерная лингвистика это область исследований связанная с обработкой естественного языка/языков.

Существует два подхода: Есть комп. лингв. которая занимается формализованным описанием языка для решения каких-либо задач. А есть направление искусственного интеллекта - автоматическая обработка естественного языка, которая занимается непосредственно созданием прикладных программ для обработки языка.

Компьютерная лингвистика в разных странах: computational linguistics

NLP – natural language processing

Computer linguistic - на немецком

 

Начало прикл лингвистики - конец 19 века – 90-е года. С 1895-1897 год – лев Владимирович Щербов купил во Франции и организовал в Питере фонетическую лабораторию. В начале 10 годов 20го века была создана орфографическая комиссия при императоре. Главным действ лицом был академик Шахматов и эта комиссия занималась реформой алфавита. Итогом стал декрет совета народных комиссаров (1917) года о реформе алфавита. Затем появилась другая задача а именно создание письменности. Этим занимался Яковлев. Он впервые применил математический метод для описания алфавита – математическую формулу, причем в начале алфавиты создавались на латинице, даже существовал проект перевода русского языка на латиницу.

Полеванов в 20х годах занимался письменностью в средней Азии. Он крупнейшей специалист по Японским языкам – создатель системы транслитерации японского языка – системы Палеванова.

В 30-е года А.А, Реформатский занимался в то время лингвистикой текста и в 1933 написал первый серьезный труд по лингвистике текста.

Затем появился инженер Лоте – пришла в голову идея как унифицировать все термины, так зародилась научно-техническая терминология. Несколько позже Г.О. винокур предложил лингвистическое ведение на терминологию и явился создателем Лингвистической терминологии.

В 1933 Петр Петрович Смирнов-Троянский предложил идею машинного перевода, а именно автоматический словарь. В конце 1940-х появился меморандум Уивера, который заявил, что все тексты записаны на английском языке, поэтому задача машинного перевода сводится к лингвистическому переводу. В начале января 1954 состоялся Джорджтаунский эксперимент – первый эксперимент по машинному переводу, система со словарем из 6 правил и 250 слов смогла перевести 39 предложений с русского языка на английский. В 1955 в сов союзе прошли первые опыты по машинному переводу. Это была группа в институте научной информации, директором которого был Д.Ю. Панов. И,К, Ленская и он в 1955 провел первый советский опыт по машинному переводу а в конце того же года другая группа с академиком Ляпуновым и О.С. Кулагиной и студентом мгу И.А. Мельчуком – они создали систему Ф-Р -1. Переводила эта системам математический текст.

В 1966 году – черная книга машинного перевода и комп лингвистики (Machine translation black book)- доклад ALPАC – эта группа постановила что машинный перевод в наст время экономически не эффективен, поэтому исследования во всем мире были свернуты.  

В начале 80 годов. Произошла компьютерная революция. Второй революцией была вторая когнитивная революция т.е. стали больше обр. внимание на ментальную сферу человека, стали различать разл. Концептуальные отношения. Третья революция- статистическая – начало на конец 80-х годов. В 1993 году – работа по статистическому машинному перевода – Brown  etall, в которой были описаны первые 5 IBM-овских моделей. Это заключался в том, что брался огромный массив данных, и на этом массиве создавалась система машинного перевода.

В 2000-не годы наблюдалось две тенденции: корпусная лингвистика (занимается созданием лингвистических баз данных и массивов текстов) и …

 

 

Понятие информационных технологий в отеч. Лингвистике

 

Изначально это все зародилось в работе Поспелова в работах 1985-1986 появилось понятие перспективных информационных технологий- технологий обработки информации с исп. ПК. В то же время примерно в1989 году С,А, Старостин сказал, что комп нужен ллингвистуне только для того чтобы заменить печатную машину. В 1987 году вышла книга прикладная лингвистика и новые информационные технологии. Авторами были А.И. Новиков и Р.Г. Котов и Скокова Ю.П. в этой раюоте они высказали те идеи, которые у них были относительно будущей лингвистики.

 

Понятие лингвистического алгоритма. Алгоритм имеет три осн свойства

  1. детерминированность (четкое определение цели)
  2. массовость (решается не конкретная задача а класс подобных задач)
  3. результативность (на каждом этапе работы алгоритма должен быть какой-либо результат)
  4. алгоритмы бывают численные и логические

 

нечеткость языка один из парадоксов языка. Например количество слов в русском языке постоянно меняется. Очень много нечетких множеств в семантике (наука о значениях).

Спектральный анализ: красный цвет, желтый – где граница между ними – ее не существует

Лингвистический знак: впервые идею ввел Фердинант де Соссю. Он говорил, что знак состоит из двух частей: форма и значение, звуковая оболочка и смысл.

Семиотический треугольник (треугольник Огдена-Ричардса). Вверху мы пишем имя знака, в левом углу мы пишем денотат, а в правом пишем десигнат.

В компьютерной лингвистики Р.Г, Пиотровский ввел четырехкомпонентную модель лингвистического знака, тот есть представляется как ромб то же что и в треугольники только снизу коннотат.                                                                             

 

Модель это искусственно воспроизведение объекта который не доступен прямому наблюдению. Например экономический рост. Есть два типа моделей:

  1. Объяснительная (Пр. модель склонения)
  2. Инженерные воспроизводящие модели (ИВМ). От модели идет стрелка к гипотезе, согласно гипотезе мы пытаемся воспроизвести объект, если неудача то возвращаемся к началу.

Три основынх метода комп лингвистики: анализ синтез

 

 

Какие осн задачи реш

Осн разделы комп лингвистики

Причины сопутств появлению инф технологий

Основные форматы текстовых документов

Что такое алгоритм

Каково деление информационных систем по функциональному признаку

Прочитать в Зубове с 3 по 23 страницц.

 

Colorless green Ideas sleep furiously. –

 

Щерба: Глокая куздря штэко будланула бокра и кудрячит бокренка

Мельчук: Улыбка попрекала космос чернилами.

 

 

.

 

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: