Заключение

Создание системы анализа мнений является сложной задачей, но вполне посильной, если имеются данные для обучения и заранее определен домен (тема). При использовании машинного обучения важно тестировать разные параметры, чтобы подобрать те, которые работают лучше на тестовых данных. В частности нужно тестировать разные алгоритмы классификации (NB, SVM), набор признаков (униграммы, биграммы, символьные N-граммы), функцию взвешивания признаков. Существует еще куча способов для улучшения классификации тональности, такие как использование тональных словарей, дополнительные лингвистические признаки (например, части речи), так и общие способы улучшение машинного обучения (бустинг, баггинг и др.). В этой статье я постарался описать лишь основные методы.

FAQ:

В демо неправильно классифицируются отзывы!
— да, это всего лишь прототип написанный за день

А что если в тексте присутствует и положительный, и отрицательный отзыв?
— текущий алгоритм классифицирует только один из них

А если я специально напишу негативный отзыв положительными словами?
— он будет неправильно классифицирован (а что вы ожидали от компьютера?)