Социолингвистика
Изучение диалектов, жаргонизмов. Развитие мышления, обучение языку.
Терминоведение - наука о терминах.
Компьютерная лингвистика
- машинный перевод
- корпусная лингвистика
- информационно-поисковые системы
- автоматические обучающие системы (ОЛА – обучающий лингвистический автомат)
- диалоговые системы
- вопросно-ответные системы (скорее изучаются искусственным интеллектом)
- генерация текстов
- синтез и распознавание речи
- компьютерная лексикография (машинная, автоматическая)
- онтологии (способ представления информации в системах искусственного интеллекта)
- человеко-машинное взаимодействие (ЧМД – человеко-машинный диалог)
- гипертекст и Интернет
- интерлингвистика (раздел социолингвистики изучающий языки программирования и искусственные языки типа Эсперанто)
Компьютерная лингвистика – к ней относятся все лингвистические исследования, проводимые с помощью компьютера.
Компьютерная лингвистика это область исследований связанная с обработкой естественного языка/языков.
Существует два подхода: Есть комп. лингв. которая занимается формализованным описанием языка для решения каких-либо задач. А есть направление искусственного интеллекта - автоматическая обработка естественного языка, которая занимается непосредственно созданием прикладных программ для обработки языка.
Компьютерная лингвистика в разных странах: computational linguistics
NLP – natural language processing
Computer linguistic - на немецком
Начало прикл лингвистики - конец 19 века – 90-е года. С 1895-1897 год – лев Владимирович Щербов купил во Франции и организовал в Питере фонетическую лабораторию. В начале 10 годов 20го века была создана орфографическая комиссия при императоре. Главным действ лицом был академик Шахматов и эта комиссия занималась реформой алфавита. Итогом стал декрет совета народных комиссаров (1917) года о реформе алфавита. Затем появилась другая задача а именно создание письменности. Этим занимался Яковлев. Он впервые применил математический метод для описания алфавита – математическую формулу, причем в начале алфавиты создавались на латинице, даже существовал проект перевода русского языка на латиницу.
Полеванов в 20х годах занимался письменностью в средней Азии. Он крупнейшей специалист по Японским языкам – создатель системы транслитерации японского языка – системы Палеванова.
В 30-е года А.А, Реформатский занимался в то время лингвистикой текста и в 1933 написал первый серьезный труд по лингвистике текста.
Затем появился инженер Лоте – пришла в голову идея как унифицировать все термины, так зародилась научно-техническая терминология. Несколько позже Г.О. винокур предложил лингвистическое ведение на терминологию и явился создателем Лингвистической терминологии.
В 1933 Петр Петрович Смирнов-Троянский предложил идею машинного перевода, а именно автоматический словарь. В конце 1940-х появился меморандум Уивера, который заявил, что все тексты записаны на английском языке, поэтому задача машинного перевода сводится к лингвистическому переводу. В начале января 1954 состоялся Джорджтаунский эксперимент – первый эксперимент по машинному переводу, система со словарем из 6 правил и 250 слов смогла перевести 39 предложений с русского языка на английский. В 1955 в сов союзе прошли первые опыты по машинному переводу. Это была группа в институте научной информации, директором которого был Д.Ю. Панов. И,К, Ленская и он в 1955 провел первый советский опыт по машинному переводу а в конце того же года другая группа с академиком Ляпуновым и О.С. Кулагиной и студентом мгу И.А. Мельчуком – они создали систему Ф-Р -1. Переводила эта системам математический текст.
В 1966 году – черная книга машинного перевода и комп лингвистики (Machine translation black book)- доклад ALPАC – эта группа постановила что машинный перевод в наст время экономически не эффективен, поэтому исследования во всем мире были свернуты.
В начале 80 годов. Произошла компьютерная революция. Второй революцией была вторая когнитивная революция т.е. стали больше обр. внимание на ментальную сферу человека, стали различать разл. Концептуальные отношения. Третья революция- статистическая – начало на конец 80-х годов. В 1993 году – работа по статистическому машинному перевода – Brown etall, в которой были описаны первые 5 IBM-овских моделей. Это заключался в том, что брался огромный массив данных, и на этом массиве создавалась система машинного перевода.
В 2000-не годы наблюдалось две тенденции: корпусная лингвистика (занимается созданием лингвистических баз данных и массивов текстов) и …
Понятие информационных технологий в отеч. Лингвистике
Изначально это все зародилось в работе Поспелова в работах 1985-1986 появилось понятие перспективных информационных технологий- технологий обработки информации с исп. ПК. В то же время примерно в1989 году С,А, Старостин сказал, что комп нужен ллингвистуне только для того чтобы заменить печатную машину. В 1987 году вышла книга прикладная лингвистика и новые информационные технологии. Авторами были А.И. Новиков и Р.Г. Котов и Скокова Ю.П. в этой раюоте они высказали те идеи, которые у них были относительно будущей лингвистики.
Понятие лингвистического алгоритма. Алгоритм имеет три осн свойства
- детерминированность (четкое определение цели)
- массовость (решается не конкретная задача а класс подобных задач)
- результативность (на каждом этапе работы алгоритма должен быть какой-либо результат)
- алгоритмы бывают численные и логические
нечеткость языка один из парадоксов языка. Например количество слов в русском языке постоянно меняется. Очень много нечетких множеств в семантике (наука о значениях).
Спектральный анализ: красный цвет, желтый – где граница между ними – ее не существует
Лингвистический знак: впервые идею ввел Фердинант де Соссю. Он говорил, что знак состоит из двух частей: форма и значение, звуковая оболочка и смысл.
Семиотический треугольник (треугольник Огдена-Ричардса). Вверху мы пишем имя знака, в левом углу мы пишем денотат, а в правом пишем десигнат.
В компьютерной лингвистики Р.Г, Пиотровский ввел четырехкомпонентную модель лингвистического знака, тот есть представляется как ромб то же что и в треугольники только снизу коннотат.
Модель это искусственно воспроизведение объекта который не доступен прямому наблюдению. Например экономический рост. Есть два типа моделей:
- Объяснительная (Пр. модель склонения)
- Инженерные воспроизводящие модели (ИВМ). От модели идет стрелка к гипотезе, согласно гипотезе мы пытаемся воспроизвести объект, если неудача то возвращаемся к началу.
Три основынх метода комп лингвистики: анализ синтез
Какие осн задачи реш
Осн разделы комп лингвистики
Причины сопутств появлению инф технологий
Основные форматы текстовых документов
Что такое алгоритм
Каково деление информационных систем по функциональному признаку
Прочитать в Зубове с 3 по 23 страницц.
Colorless green Ideas sleep furiously. –
Щерба: Глокая куздря штэко будланула бокра и кудрячит бокренка
Мельчук: Улыбка попрекала космос чернилами.
.