Статьи : Фильтрация спама по стоп-словам в теме писем

При фильтрации писем на сервере по заголовкам большая часть спама удаляется с использованием DNSBL, то есть проверяется наличие IP отправителя в онлайновых черных списках. Этот метод работает достаточно хорошо, но все таки часто встречается явный спам, IP отправителя которого нет ни в одном из черных списков.

Для таких случаев предусмотрен дополнительный метод - определение явного спама по ключевым словам в теме писем. В плагине есть база стоп-слов из темы писем. Каждому слову соответствует коэффициент спамности, который определяется количеством писем, в которых это слово встретилось. Спамность для слов, которые хоть раз встретились в нормальном письме, равна 0 и из списка такие слова исключаются автоматически.

Если включена фильтрация по стоп-словам, то база ключевых слов обновляется автоматически при обучении плагина. Т.е. происходит следующее:

  • В базу добавляются отсутствующие в ней слова из тем писем, помеченных как спам.
  • Если некоторое слово из спамного письма в базе уже есть, то для него увеличивается коэффициент спамности.
  • Если встречается слово из нормального письма, которое имеет некоторый коэффициент спамности, то из базы оно удаляется.


По умолчанию фильтрация по стоп-словам выключена и база слов пустая. Включить ее можно в окне свойств фильтрации по стоп-словам, доступном по нажатию клавиши "Стоп-слова..." на вкладке "Фильтрация" конфигурационного окна плагина.



Минимальный коэффициент спамности для стоп-слов определяет минимальное значение этого коэффициента, при котором слово начинает использоваться для классификации сообщений. Слова, для которых коэффициент спамности меньше заданного, при классификации игнорируются.

Минимальное количество стоп-слов для блокировки письма определяет сколько должно встретиться стоп-слов в теме письма, чтобы письмо было распознано как спам.


Для того чтобы фильтрация по стоп-словам заработала, надо заполнить базу стоп-слов. Сделать это можно несколькими способами:

  • Заполнить базу вручную в соответствующем окне.
  • Импортировать стоп-слова из файла.
  • Обучить плагин на своей почте и позволить ему заполнить список автоматически.





Вы можете скачать готовый список стоп-слов для импортирования здесь:
http://antispamsniper.com/ru/misc/stop_words.txt


Имейте в виду, что стоп-слова используются для удаления писем на сервере! Нужно очень аккуратно подойти к созданию списка и не добавлять слова, которые могут хоть раз встретиться в нормальной почте. После импортирования готового списка желательно обучить плагин на своей нормальной почте, чтобы он исключил из списка встреченные слова из темы нормальных писем.