Выбор признаков


Качество результатов напрямую зависят от того, как мы представим документ для классификатора, а именно, какой набор характеристик мы будем использовать для составления вектора признаков. Наиболее распространенный способ представления документа в задачах комп. лингвистики и поиска — это либо в виде набора слов (bag-of-words) либо в виде набора N-грамм. Так, например, предложение «Я люблю черный кофе» можно представить в виде набора униграмм (Я, люблю, черный, кофе) или биграмм (Я люблю, люблю черный, черный кофе).

Обычно униграммы и биграммы дают лучшие результаты чем N-граммы более высоких порядков (триграммы и выше), т.к. выборка обучения в большинстве случаев недостаточна большая для подсчета N-грамм высших порядков. Всегда имеет смысл протестировать результаты с применением униграмм, биграмм и их комбинации (Я, люблю, черный, кофе, Я люблю, люблю черный, черный кофе). В зависимости от типа данных униграммы могут показать лучшие результаты чем биграммы, а могут и наоборот. Также иногда комбинация униграммов и биграммов позволяет улучшить результаты.

Другой способ представления текста — символьные N-граммы. Текст из примера можно представить в виде следующих 4-символьных N-грамм: «я лю», " люб", «юблю», «блю», и т.д. Несмотря на то, что такой способ может показаться слишком примитивным, т.к. на первый взгляд набор символов не несет в себе никакой семантики, тем не менее этот метод иногда дает результаты даже лучше чем N-граммы слов. Если присмотреться, то можно увидеть, что N-граммы символов соответствуют в какой-то мере морфемам слов, а в частности корень слова («люб») несет в себе его смысл. Символьные N-граммы могут быть полезны в двух случаях:

1. при наличии орфографических ошибок в тексте — набор символов у текста с ошибками и набор символов у текста без ошибок будет практически одинаков в отличие от слов.

2. для языков с богатой морфологией (например, для русского) — в текстах могут встречаться одинаковые слова, но в разных вариациях (разные род или число), но при этом корень слов неизменяется, а следовательно и общий набор символов.


Символьные N-граммы применяются гораздо реже чем N-граммы слов, но иногда они могут улучшить результаты.

Также можно использовать дополнительные признаки, такие как: части речи, пунктуация (наличие в тексте смайлов, восклицательных знаков), наличие в тексте отрицаний («не», «нет», «никогда»), междометий и т.д.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: