Статья: Методы борьбы с почтовым спамом

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

Для определения спама Робинсон предложил рассчитать подобным образом не только вероятность спамности документа (H), но и вероятность того, что письмо не является спамом (S), и использовать показатель I, рассчитываемый по формуле: I=(1+H-S)/2.

Если показатель I достаточно близок к 0, то письмо считается не спамом; если I достаточно близок к 1, письмо считается спамом. В противном случае письмо считается спорным. Таким образом, в работе [10] вводится классификация не по двум категориям, а по трем.

4.ПРОГРАММНЫЕ РЕШЕНИЯ
Trend Micro Spam Prevention Solution
Компания Trend Micro была основана в 1988 году в Калифорнии Стивом Ченгом. С самого начала деятельности основным фокусом компании стала антивирусная безопасность. Компания заслужила высокую репутацию как производитель современного антивирусного программного обеспечения, а также средств фильтрации информационного наполнения и соответствующих сервисов. Инновации компании, как правило, опережают свое время и задают новые направления в защите информации.
Решение компании Trend Micro для защиты от спама - Trend Micro Spam Prevention Solution (SPS) [11] - появилось на рынке в марте 2003 года и основано на лицензированном ядре компании Postini. Данное решение представляет собой защиту от вредоносной почты на уровне интернет-шлюза. SPS работает в тесном взаимодействии с решениями компании для защиты от вирусов и фильтрации контента, что позволяет создать единую структуру защиты электронной почты для организации любого масштаба.
Spam Prevention Solution использует ряд методов для проверки почты и позволяет рассчитать вероятность того, что конкретное сообщение является спамом, исходя из совокупности целого ряда его характеристик. Trend Micro Spam Prevention Solution рассчитан на обработку и анализ 40-90 и более сообщений в секунду, что позволяет удовлетворить потребности организаций с большим трафиком при минимальных необходимых инвестициях в оборудование. Функции переключения при сбоях и блокировании машин-ретрансляторов помогают обеспечить надежность и доступность продукта. SPS функционирует в режиме «прозрачного» прокси-сервера, обрабатывая сообщения во внутренней памяти для обеспечения производительности и масштабируемости, необходимых в сетях больших предприятий. Многоплатформенная поддержка, включающая Windows, Linux и Solaris, позволяет легко встроить продукт в существующую корпоративную инфраструктуру, не требуя дополнительных инвестиций.
BayesIt! 0.6.0
Данный фильтр является плагином к известному почтовому клиенту The Bat! и с третьей версии включен в стандартную поставку. Судя по описанию и генерируемым отчетам, он целиком основан на работах Пола Грэма [7 ,8], то есть учитывает расположение слов (тело письма или заголовок) и техническую информацию; имеет ограничение на количество слов, выбираемых из документа для анализа. Результаты тестирования данного фильтра приведены в Таблице 1.
Таблица 1 - Результаты тестирования фильтра BayesIt! 0.6.0
Количество

неспамерских писем

Объем спама в почтовом ящике

25%

50%

80%

процент ложных срабаты-ваний

процент распознан-ного спама

процент ложных срабаты-ваний

процент распознан-ного спама

процент ложных срабаты-ваний

процент распознан-ного спама

180

4%

85%

2%

90%

71%

92%

500

3%

89%

4%

93%

43%

92%

1600

--

--

--

--

--

--

Большие количества писем не тестировались, потому что их обработка в большинстве случаев заканчивалась аварийно. Тем не менее, можно выделить две проблемы:

- количество ложных срабатываний;

- явное переобучение фильтра во время тестирования почтовых ящиков, содержащих 80% спама от всех сообщений, когда более половины нормальных сообщений были ошибочно опознаны как спам.

В почтовом ящике info количество спамерских писем было уменьшено до 800, чтобы его удалось обработать. После обучения фильтр допустил 10% ложных срабатываний и распознал 51% спама.

PopFile 0.21.2

Фильтр спама, работающий как pop3-прокси между любым почтовым клиентом и провайдером (в качестве почтового клиента был выбран MS Outlook Express), в отличие от остальных фильтров, поддерживает классификацию более чем по одной категории (спам или не спам), основываясь на использовании нескольких двоичных классификаторов для каждой из категорий. Дает возможность пользователю заводить свои собственные категории. Тем не менее, во время тестирования использовался только как бинарный классификатор.

В связи с тем, что веб-интерфейс фильтра PopFile не позволяет удобно выбрать одновременно несколько сообщений для ручной классификации, опробовать его на больших почтовых ящиках не удалось. Ниже приведены числа только для тех из них, на которых это удалось сделать. Мало того, общее количество ящиков, на которых проверялся PopFile, было еще меньше, чем у остальных.

Даже при двух категориях (спам и не спам) PopFile имеет третью - Unclassified. При вычислениях считалось, что все содержимое этой категории было отнесено к нормальной почте. Результаты тестирования фильтра приведены в Таблице 2.

Таблица 2 - Результаты тестирования фильтра PopFile 0.21.2

Количество не спамерских писем

Объем спама в почтовом ящике

25%

50%

80%

процент ложных срабаты-ваний

процент распознан-ного спама

процент ложных срабаты-ваний

процент распознан-ного спама

процент ложных срабаты-ваний

процент распознан-ного спама

180

5%

97%

4%

98%

--

--

500

--

--

--

--

--

--

1600

--

--

--

--

--

--

Данный фильтр также имеет недопустимо большое количество ложных срабатываний. Вероятно, использование дополнительных возможностей распознавания более чем одной категории уменьшило бы их количество, но маловероятно, чтобы оно снизилось до приемлемых величин.

Почтовый ящик info не проверялся из-за неудобства пользовательского интерфейса.

ВЫВОДЫ

Рассмотренные в данной статье алгоритмы являются лишь малой частью во всем многообразии средств борьбы с нежелательной корреспонденцией. Следует отметить, что эффективного решения в области борьбы с почтовым спамом на сегодняшний день не существует: «война» спамеров и сил, им противодействующих, идет с переменным успехом - обе стороны постоянно варьируют методы и тактику ведения борьбы. Однако приведенные примеры программных реализаций алгоритмов Байеса и Chung-Kwei позволяют сделать краткосрочный прогноз развития в этом противостоянии. Если программное обеспечение основанное на положениях Байесовского метода, является нашей реальностью и на данный момент несмотря на постоянное усовершенствование не дает должных результатов из-за большого числа ложных срабатываний, которое не может составлять более 0.001 процента от общего количества почты, то средства анализа корреспонденции, основанные на алгоритме Chung-Kwei, с учетом возможной многоплатформенной поддержки могут стать серьезным прорывом в данной области.

ЛИТЕРАТУРА

алгоритм спам teiresias chung kwei

1. I. Rigoutsos, A. Floratos. Combinatorial pattern discovery in biological sequences: the TEIRESIAS algorithm. Bioinformatics, Vol .14, no. 1, 1998.

2. A. Floratos, I. Rigoutsos. Research report: On the time complexity of the TEIRESIAS algorithm. IBM Research division, RC21161(94582)21APR98, 1998.

3. I. Rigoutsos, T. Huynh. Chung-Kwei: a pattern-discovery-based system for the automatic identification of unsolicted e-mail messages (SPAM).

4. David D. Lewis. Naive (Bayes) at forty: the independence assumption in information retrieval, 2000.

5. Fabrizio Sebastiani. Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, No. 1, 2002.

6. M.E. Maron, J.L. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, July 1960.

7. Paul Graham, A plan for spam, http://paulgraham.com/spam.html.

8. Paul Graham, Better Bayesian filtering, http://paulgraham.com/better.html.

9. В. С. Пугачев. Теория вероятностей и математическая статистика. М.: Физматлит, 2002.

10. Gary Robinson, A statistical approach to the spam problem, 2003, http://www.linuxjournal.com/article.php?sid=6467.

11. http://www.spamtest.ru/document.html?context=15932&pubid=19208