Бесплатная защита от спама на почте с помощью ИИ фильтрации без VPN: многоуровневый метод с BERT и 550 МБ RAM / Комментарии / Хабр

Mне кажется, это overkill
Вы держите относительно мощный сервер для хостинга LLM и это явно не бесплатно. Кроме того, вам надо поддерживать этот сервер и обновлять. Всегда есть угроза взлома сервера.

У мена похожая конфигурация (почта с нескольких ящиков собирается в Gmail), но мне удалось настроить фильтры (в первую очередь, Gmail) таким образом, что спама в Inbox-e практически нет (не чаще, чем одно сообщение в месяц)

У меня другая проблема: папки Спам и Корзина переполняются мусором, который надо чистить вручную, чтобы не пропустить false positives. Это происходит редко (одно-два сообщения в месяц, но неприятно). Кроме того, часто происходит, что в Корзине сообщения живут гораздо больше 30 дней, а это уже потенциальная проблема для privacy и security.

Для очистки Gmail-овских Спама и Корзины я использую скрипт на https://script.google.com , который бежит раз в 15 минут. Скрипт бесследно уничтожает гарантированный спам с адресов типа kjreigde@ysnh47dnw.com (проверяется валидность домена) плюс используются другие фильтры, имеющие смысл в моем случае (фильтрация по географическим доменам, например). Я настроил уведомления на Телеграм для статистики.

Кроме того, скрипт стирает сообщения из Корзины старше, чем 10 дней.

В первоначальной версии я использовал AI, но оказалось, что это просто не нужно: встроенные фильтры Gmail-a уничтожают весь спам практически без ошибок (как я уже писал, максимум одно соообщение в месяц прорывается через фильтры, последние несколько месяцев - вообще ни одного).

Такой же подход я использую для своего аккаунта hotmail,но там я использую Graph API и остальных аккаунтов по IMAP. Спам-фильтры Майкрософта тоже работают очень неплохо. У Yahoo - значительно хуже, и там есть смысл использовать AI, но для меня аккаунт на Yahoo - мусорный аккаунт для регистраций на сервисах, которым я не доверяю.

Кроме того, я пока не понял, как отсеивать (с помощью AI) спам, состоящий из картинок или если в тексте eсть "невидимые" символы. Фильтры Гугла и Майкрософта справляются с такими сообщениями, а вот модели OpenAI - не очень. Я бы, конечно, решил и эту проблему, но как я уже сказал, в моем случае (Gmail) это для меня не критично благодаря фильтрам Гугла и скриптам на Google Script, Graph API и IMAP. Таккие сообщения стираются используя обычный скрипт на Питоне через IMAP (в случае с Yahoo).

По какой-то странной причине, пароль для приложений продолжает работать для моих аккаунтов на mail.ru и Yandex Mail. Возможно, из-за того, что я живу не в РФ и сервис понимает, что я физически не могу оплатить из-за границы.

Добавлено:

Особенно важно заблокировать то, что не является полностью спамом: приглашения на конференции, партнёрские предложения, кредиты — формально не нарушение, поэтому байесовский фильтр такие вещи плохо ловит.

Это очень странно: у меня этот спам блокируется на ура баесовскими фильтрами Gmail-a и моими собственными кастомными фильтрами. Причем блокируется именно спам: например, если я использую сервис XYZ и получаю легитимные email-ы от этого сервиса, то Gmail не блокирует приглашения на конференцию от XYZ, но блокирует приглашения на конференции от сервисов, с которыми я не имею дела.

Бесплатная защита от спама на почте с помощью ИИ фильтрации без VPN: многоуровневый метод с BERT и 550 МБ RAM

Комментарии 2

Публикации