Корпусная лингвистика

Наступний кроком в освоєнні ресурсів Інтернету може стати цілеспрямоване формування спеціалізованих корпусів текстів на жорсткому диску Вашого комп'ютера.

Преимущества специализированных корпусов:

1) Вы сами - а не поисковая система - определяете, что именно вы хотите проиндексировать. Здесь следует иметь в виду несколько моментов:

Индексы поисковых систем очень обширны, вас же может интересовать употребление того или иного слова в текстах строго определенного типа (американские юридические документы или английские памфлеты XVII в.)

Не все сайты индексируются на 100%: ограничения на глубину индексирования накладываются по разным причинам как владельцами поисковых систем, так и владельцами сайтов. Такие сайты, тем не менее, поддаются скачиванию оффлайновыми браузерами.

Существует феномен т.н. "невидимой Сети" (invisible Web): все большее число сайтов переходит от статического формирования вэб-страниц к динамическому и размещает всю основную информацию в базах данных. Страницы в этом случае формируются "на лету" в зависимости от запросов или "профилей" пользователей. Этот метод особенно удобен для сайтов с постоянно обновляемой информацией (новости, развлечения и т.д), однако большая часть материалов при этом становится недоступной для поисковых машин, которые в результате как бы скользят по поверхности. Такие сайты могут содержать уникальную информацию, которую вполне можно сохранить на жестком диске вручную или с помощью программы докачки.

Все основные поисковые системы имеют т.н. "stop lists", т.е. списки сверхчастотных слов (the, and, is, to), которые не подлежат индексации. Переводчика же зачастую интересуют особенности употребления выражений, содержащих такие служебные слова.

2) Профессиональные поисковые программы предоставляют гораздо более широкий набор функций, чем онлайновые поисковые системы: поиск с заданным интервалом между ключевыми словами, варианты интерпретации дефиса, многочисленные логические операторы и маски, "нечеткий поиск" (fuzzy search), одновременный поиск по нескольким корпусам и проч.

3) Наличие корпуса на жестком диске, естественно, не требует выхода в Интернет. Переход от одного результата поиска к другому также происходит на порядок быстрее, при этом все результаты поиска автоматически подсвечиваются.

Технические рекомендации:

1) Для формирования корпусов текстов лучше всего использовать популярный оффлайновый браузер Teleport Pro. Он позволяет создать на жестком диске компьютера точную копию какого-либо сайта для его последующего просмотра в режиме оффлайн, либо скачать с данного сайта файлы определенного типа исходя из заданных пользователем параметров. Работает автоматически и позволяет за ночь загрузить на жесткий диск несколько сотен мегабайтов данных.

2) В тех случаях, когда сайт не поддается автоматическому скачиванию, интересующие вас материалы можно загрузить вручную, используя программу докачки ReGet или ее аналоги. Программы докачки позволяют возобновлять загрузку файла после обрыва связи без потери ранее скаченной информации, запоминают адрес, с которого необходимо скачать файл, и могут проделать это автоматически в указанное вами время. Незаменимы для загрузки больших файлов или большого числа мелких файлов.

3) Для индексации и поиска информации можно рекомендовать программу dtSearch (ее полнофункциональную демо-версию можно бесплатно скачать из Интернета: www.dtsearch.com/download.html). Программа поддерживает все основные типы файлов (htm*, doc, txt (ANSI и ASCII), xls), индексирует zip-архивы с минимальной потерей скорости, может работать с любыми языками на основе латиницы, с кириллицей и греческими шрифтами. Платная версия также поддерживает формат pdf.

Источники материалов для создания корпусов:

Новостные сайты содержат самые свежие материалы на все мыслимые темы, а также архивы за последние 5-6 лет; идеально подходят для создания большого общелингвистического корпуса. Следует, однако, иметь в виду, что у многих изданий доступ к архивам платный, другие предоставляют бесплатно номера за последние 7-14 дней плюс разнообразные тематические подборки.

Англоязычные СМИ о России:

Moscow Times
ежедневно, текущий номер бесплатно, архив платный.

http://www.moscowtimes.ru/

St. Petersburg Times
дважды в неделю, те же условия.

http://www.sptimes.ru/

The Russia Journal
еженедельно, бесплатно.

http://www.russiajournal.com/

Yahoo News Russia
ежедневный дайджест материалов о России в международной прессе, масса ссылок.

http://headlines.yahoo.com/Full_Coverage/World/Russia

Russia Today
новости на российскую тематику.

http://www.russiatoday.com/

Инопресса
перевод зарубежных статей о России на русский язык.

http://www.inopressa.ru/

Бумажные и онлайнове СМИ, информационные порталы:

New York Times

http://www.nytimes.com/

The Times

http://www.the-times.co.uk/

Le Monde

http://tout.lemonde.fr/

Frankfurter Allgemeine Zeitung

http://www.faz.de/

Известия

http://www.izvestia.ru/

Yahoo News
мировые новости на основных европейских языках.

http://dailynews.yahoo.com/

CNN

http://www.cnn.com/

BBC News

http://news.bbc.co.uk/

ABCNews

http://www.abcnews.com/

E&P Media Links
ссылки на 12 400 СМИ по всему миру.

http://emedia1.mediainfo.com/emedia

SMI.RU
дайджест и каталог отечественных СМИ (4700 ссылок).

http://smi.ru/

Find Articles - бесплатный архив статей из 300 журналов разнообразной тематики.

http://www.findarticles.com/

Национальная служба новостей
новости, интервью, аналитика.

http://www.nns.ru/

Национальная электронная библиотека
огромный электронный архив российской периодики (500 СМИ, более 6 млн. документов, доступ платный ($0,40/документ, мин. аванс $40).

http://nel.nns.ru/

ZDNet
компьютерные новости на основных европейских языках.

http://www.zdnet.com/

Художественные тексты:

Bartleby.com
отличная коллекция художественной и справочной литературы на английском языке.

http://www.bartleby.com/

Project Gutenberg
- огромная коллекция англоязычных художественных и научных текстов, включая переводы с других языков (в формате ASCII txt).

http://promo.net/pg

BookHive
множество художественных и нехудожественных текстов, в т.ч. переводы (на англ.).

http://www.bookhive.com/

Bibliomania
большой выбор художественной, справочной и учебной литературы (англ.).

http://www.bibliomania.com/

Perseus Project
античные авторы на языке оригинала и в английском переводе.

http://www.perseus.tufts.edu/

Universal Library
множество разнообразных текстов.

http://www.ul.cs.cmu.edu/

Electric Library
огромная коллекция справочных, научных, художественных текстов и статей (2000 книг, 150 газет, 700 журналов) с полнотекстовым поиском (доступ платный, $10/мес., $60/год)

http://www.elibrary.com/

ODP/Google EText Links
ссылки на электронные библиотеки и архивы.

http://directory.google.com/Top/Arts/Literature/
Electronic_Text_Archives

Internet Public Library
каталог ссылок на тексты и литературные ресурсы.

www.ipl.org/reading/books

Books Online
то же.

http://digital.library.upenn.edu/books

EServer
художественные, публицистические, научные тексты, классические и современные, по 42 темам.

http://eserver.org/

ARTFL (University of Chicago)
ссылки на сайты, посвященные французской литературе.

http://humanities.uchicago.edu/ARTFL/ARTFL.html

Библиотека Максима Мошкова
самая известная и обширная библиотека в русском Интернете (28,000 текстовых файлов).

http://lib.ru/

Машинный фонд русского языка
библиотека классической русской прозы и поэзии 19-20 вв. (проект Института русского языка РАН).

http://www.irlras-cfrl.rema.ru/

Новости электронных библиотек ("Русский журнал")
обширный список библиотек, новые поступления.

www.russ.ru/krug/biblio

Текстовые ресурсы Рунета
большой список ссылок.

www.cl.spb.ru/iptill/library

Журнальный зал (InfoArt)
российские толстые литературные журналы онлайн.

www.infoart.ru/magazine

Рейтинг литературных сайтов России

http://rating.rinet.ru/

The Daily Script
множество англоязычных кино- и телесценариев

http://dailyscript.efront.com/

Drew's Script-O-Rama
англоязычные киносценарии.

http://www.script-o-rama.com/

Специализированные сайты и порталы:

Find Law
поиск юридических ресурсов.

http://www.findlaw.com/

Lectric Law Library
образцы юридических документов, справочные материалы.

http://www.lectlaw.com/

EUR Lex
параллельные тексты официальных документов ЕС на языках всех стран-членов.

http://europa.eu.int/eur-lex/en/index.html

Legifrance
французский юридический портал.

http://www.legifrance.gouv.fr/

International Monetary Fund - МВФ

http://www.imf.org/

FreightGate
справочная информация по экспорту/импорту и международным перевозкам.

www.freightgate.com/reference

TenLinks.com
каталог специализированных порталов по отраслям промышленности и отдельным видам технологиий.

http://www.tenlinks.com/

Для переводчика немалый интерес представляют также готовые одно- и многоязычные корпусы текстов, доступные в режиме онлайн через Интернет:

TIS Corpus
параллельные тексты разнообразной документации ЕС на нескольких (от 2 до 11) языках.

http://tis.consilium.eu.int/isowebtis/welcomeEN.htm

TransSearch
двуязычный конкордансер к корпусу Hansard 1986-93 (стенограммы заседаний канадского парламента на английском и французском языках).

www-ali.iro.umontreal.ca/
TransSearch

Wordtheque
(итал. перев. агентство Logos)
корпус худож. и нехудож. текстов, 112 языков, 530 млн. слов.

http://www.wordtheque.com/

Bank of English / COBUILD
(Birmingham Uni/Collins)
пополняемый корпус совр. языка, 320 млн. слов,
онлайн - 56 млн., доступ платный (J50/мес., J300/год).

http://titania.cobuild.collins.co.uk/

British National Corpus (Oxford University)
100 млн. слов современного языка, онлайн доступ (J60/год) и на CD-ROM (J220).

http://info.ox.ac.uk/bnc

Университетская информ. система Россия
постоянно пополняемый корпус российских законодат. актов, стенограмм Госдумы, материалов прессы и отчетов Госкомстата, поиск по тезаурусу, доступ бесплатный для некоммерческих организаций.

http://www.cir.ru/

Сайты, посвященные вопросам корпусной лингвистики:

W3-Corpora Project
справочные материалы, ссылки, конкордансер к текстам Project Gutenberg.

http://clwww.essex.ac.uk/w3c

Corpus Linguistics,
E-book by Tony McEnery and Andrew Wilson (University of Lancaster).

www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: