Взвешенный вектор

Следующим шагом в составлении вектора признаков является присваивание каждому признаку его вес. Для некоторых классификаторов это является необязательным, например, для байесовского классификатора, т.к. он сам высчитывает вероятность для признаков. Но если вы используете метод опорных векторов, то задание весов может заметно улучшить результаты.

В информационном поиске наиболее распространенным методом оценки веса признаков является TF-IDF. Для анализа тональности этот метод не дает хороших результатов. Причиной этому является то, что для анализа тональности не настолько важны слова, которые часто повторяются в тексте (т.е. слова с высоким TF), в отличие от задачи поиска. Поэтому обычно используют бинарный вес, т.е., признакам (если используем униграммы, то словам) присваивается единичный вес, если те присутствуют в тексте. В противном случае вес равен нулю. Например, «я люблю черный кофе» будет представлен в виде следующего вектора (мы опускаем слова с весом = 0):

Однако, существуют методы оценки важности слов, которые вычисляют веса слов, дающие гораздо лучшие результаты при классификации тональности, например, дельта TF-IDF.