В качестве примера практического применения классификатора тональности, я реализовал на скорую руку классификатор твитов, схема работа которой следующая:
1. производим поиск в Твиттере по названию фильмов
2. пропускаем твиты через классификатор тональности
3. получаем положительные и отрицательные высказывания о фильмах из Твиттера
Пример работы анализатора:
Как видно, результаты не особо удовлетворительные. Классификатор делает 2 типа ошибок:
1. Классифицирует нейтральные твиты (описание фильма, новости, спам) как положительные/отрицательные
2. Неправильно классифицирует тональность отзывов
Первый тип ошибок можно исправить, если добавить дополнительный классификатор, который будет фильтровать нейтральные твиты. Это непростая задача, но вполне осуществимая. Второй тип ошибок возникает в основном из-за того, что твиты сильно отличаются от коллекции обучения: присутствует сленг, орфографические ошибки, отличается манера высказывания. Тут надо либо искать другую коллекцию для обучения классификатора (взять те же твиты, например), либо улучшить набор признаков (например, добавить смайлы). Но в целом, этот пример показывает, что создать систему анализа мнений в Твиттере вполне возможно.