spam et trackbacks
Par kim le vendredi, juillet 21 2006, 16:50 - Général - Lien permanent
lutte contre le spam, une idée... encore.
Pour lutter contre les trackbacks a spam, plusieurs solutions (imaginons que l'on soit sur dotclear) :
- le filtre spamplemousse filtre par mots, on interdit alors tel mot d'apparaitre dans le message envoye par trackback. Defaut : "cialis" est par defaut interdit, et le mot "specialiste" par exemple rejettera le trackback.
- le filtre par referent : on bloque la provenance de la requete. Defaut : il faut maintenir une liste a jour, c'est tres chiant.
- le filtre "a la ploum" : on bloque si l'adresse IP du posteur est celle de l'hebergeur ( son remarquable billet sur linuxfr, son blog). Defaut : Si mon blog est heberge chez moi (par exemple, et c'est le cas pour pas mal de gens en fait), plus de trackbacks. C'est pas top.
- interdire les trackbacks : ouais bon...
azathoth_a recemment mis en place un captcha accessible. Le defaut etait qu'il interdisait l'utilisation de spamplemousse (apparemment). Dans les (peu de temps) qui ont suivi, des spams par trackbacks sont arrives, et sont passes. En effet, un trackback n'est par definition pas adapté au captcha : l'intervention humaine sur un test de ce type n'est pas possible. Il faut de l'interactivite, or le systeme de trackbacks n'est pas adapte pour.
Une idee de solution ?
Ce qui pourrait se faire, c'est envisager un systeme parallele de "sites de trackbacks de confiance", genre : j'inscris mon site sur un site, qui collecte des "sites de confiance", avec un systeme de cles (un peu comme fait google sitemaps pour autoriser un utilisateur du service a referencer un domaine, le site doit poser un fichier accessible sur le web, ayant pour nom (quelque chose qui est donne a l'inscription)).
Ensuite, on considere sur un site qu'on a le droit de poser le trackback si et seulement si les deux sont "de confiance". Si ce n'est pas le cas, le site qui devrait afficher le trackback le filtre comme il veut (disons qu'il peut par exemple le mettre en quarantaine...).
Au lieu de donner l'URL du site comme adresse a pinger, on donnerait l'URL du service, le nom du blog, le billet. Le systeme qui va autour reste le meme.
Le site qui s'occupe du service de verification verifie, et transmet au site de reference le trackback avec un parametre indiquant si oui ou non la verification est passee.
Le site de reference peut alors prendre ces informations et aviser : ce trackback est de confiance, je laisse passer !
Si un site "de confiance" fait du spam (il suffit finalement de s'inscrire, comme les autres sites... Un peu comme on peut spammer sur hotmail malgre le sender id, il suffit de creer une adresse hotmail), un systeme de "plainte" (ou denonciation, pour ceux qui aiment le cote tortionnaire de la chose) pourrait etre mis en place. Alors une armada d'administrateurs releveraient cette plainte et la verifierait.
Interet ? On cree une sorte de reseau de confiance (un orkut/weblogues/... des trackbacks quoi ^^). Ca peut creer des liens, on peut decouvrir de nouveaux blogs, etc.
Inconvenient ? Il faut... faire confiance au site qui propose le service.
Difficulte du projet : le promouvoir / diffuser, le developper (mouais pas trop dur ca va, il faut juste etre tres attentif a l'aspect securite de la chose). Avoir a disposition un serveur SSL pourrait etre une excellente chose.
Des personnes interesses par ce genre d'idee ?
Commentaires
(je constate que les puces de liste n'apparaissent pas... Et UNE CSS a changer, UNE :D)
De toute façon, si tu proposes ça, tout le monde suivra, vu que maintenant tu es célèbre.
Ben oui, en tant que l' << Infatigable Bienfaiteur >> de Flaoua :D
roooooooooooooooh
(en plus j'aime pas quand elle fait ça, parce qu'elle met le lien sur sa page, je préfère pas, question de... d'intimité blogesque qu'est celle qu'on peut trouver ici, je l'espère, depuis le début du blog)
Cela dit, je suis d'accord avec moi même, celui qui lance ça devra avoir de sacrés bons contacts si il veut que ça marche...
Ce genre d'article devrait contenir un chapeau, pour que ceux qui n'aiment pas les articles techniques (moi par exemple ^^) puissent voir le reste du blog sans avoir à scroller comme des porcs... Les autres peuvent cliquer sur "lire". Think about it ;).
Vrai, mais je n'ai pas trouvé de chapeau adéquate :)
Spamplemousse utilise déjà une liste de confiance. C'est la liste noire. Et celle-ci s'applique tant aux commentaires qu'aux trackbacks. En quoi le système que tu proposes changera quoi que ce soit (vraie question) ?
Spamplemousse est revu de fond en comble dans DotClear 2. C’est donc une bonne idée de parler de ton idée aux manitous.
Pour finir, il y a aussi ma solution, mis en place quand je me suis rendu compte que j'avais trop de faux négatifs (d'IP qui passent). Inconvénient, je risque aussi d'avoir beaucoup de faux positifs (des innocents qui se font choper) sans même le savoir.
blog.empyree.org/?2731-un...
J'étudie de changer le deny en redirect.
Haha.... Tu prends le probleme dans l'autre sens :)
C'est vrai d'ailleurs que ce que je propose pourrait aussi etre applique aux commentaires, quoique ce soit plus difficile a mettre en oeuvre.
J'ai essaye de retrouver le billet linuxfr qui parlait d'un systeme de gestion distribue d'authentification par reseaux de serveurs en confiance entre eux. Tu t'authentifies pour un service, ton authentification est valable pour d'autres.
Donc, ce que je pense c'est plus une whitelist qu'une blacklist.
La blacklist de spamplemousse est faite sur la base de RBLs a ce que j'ai vu. C'est deja pas mal. Mais comme ta methode par htaccess, vous travaillez par blacklist, chacune ayant son avantage et ses inconvenients :
* RBLs : je n'en ai pas le controle, je ne suis pas "actif" sur l'etablissement de la list. Je dois en faire une confiance aveugle. Et les RBLs ont aussi leurs faux positifs (du moins pour les mails j'ai souvent rencontre le cas).
* htaccess : tu maintiens une liste d'IP, c'est bien, mais pas suffisant. Free propose tout plein de pages persos, hebergees sur plusieurs serveurs. Chaque serveur peut potentiellement mettre a disposition un *tres* grand nombre de blogs susceptibles de te faire des trackbacks. Des bienveillants comme des mal veillants, pourquoi pas ! Ensuite, l'IP ne caracterise pas forcement l'adresse d'un blog (meme si c'est (tres) souvent le cas). Je n'ai pas les outils sous la main pour verifier d'ici, mais je pense que blog.msdn.com par exemple (bon ok, du spam qui vient de chez eux, humhum... mais bon) a un petit load balancing derriere. Ce que je veux dire c'est que le couple 1 IP == 1 blog n'est pas forcement bon. Sans compter que le spam venant d'ips dynamiques, ma foi, hein, ca peut se faire ! Comme tu le dis : tu prends le risque d'interdire des faux positifs, aucun moyen de filtrage n'est possible.
Ensuite, le htaccess est "personnel" dommage de ne pas en faire profiter d'autres !
Mon idee n'est pas du tout incompatible avec la blacklist. Elle consiste a proposer (en plus, pourquoi pas) une whitelist. Geree par chacun, puisque chacun a le droit de s'inscrire ou non a la whitelist. Et le droit de rapporter des fraudes. Dans un sens, c'est ce que font les RBLs, sauf que les blogeurs n'ont pas vraiment de controle dessus (va faire re-autoriser une IP bannie sur une RBL. Pour certaines, c'est meme payant !)
Ce que ca change, c'est que tu crees, comme dit, un reseau de confiance, dont l'inscription doit etre suffisamment peu triviale pour un spammeur (login, pass, pose d'un fichier dans l'arborescence du site contenant le blog prouvamt que ton inscription et le blog vise sont bien "lies" me semblent un minimum), dont la gestion est distribuee a l'ensemble des utilisateurs (utilisateur ACTIF contre le spam !!)
Pour les whitelisté, tu consideres alors que le message n'est (a priori) pas malveillant de nature, tu lui permets donc de passer outre certains checkins (spamclear, captcha, spamplemousse). Si le trackback (on peut se limiter a ca au depart) est un faux negatif, alors tu le mets hors ligne, tu denonces le blog de provenance.
La denonciation pourrait entrainer deux choses :
* suppression des confiances "personnelles"
* denonciation aux admins en vue de suppression (si confirmation de la bonne foi de la denonciation) des confiances globales (suppression du compte du blog sur le reseau de confiance).
Enfin, une note finale concernant dotclear2. dotclear2, c'est bien, MAIS php5 ET en beta. Il reste encore beaucoup d'hebergeurs de masse qui n'y sont pas encore passé.
Et mon systeme aurait un avantage : proposer une API qui permet la compatibilite avec d'autres systemes de blogs que dotclear, pourquoi pas. (wordpress...)
Cela dit ce n'est qu'une idee lancee comme ca, soumise aux idees des autres, pour voir si ce genre de choses pourrait "percuter", avoir un public, des defauts, etc.
Je suis faux positif RBL parce qu'un temps, mon serveur de mail perso (Sendmail sur mon Mac OS X, qui permet d'envoyer un mail de n'importe sans avoir à changer de SMTP) était un temps mal configuré. J'ai demandé une modif, toujours rien.
Mon .htaccess, c’est quand je me suis pris 80000 spams, ce qui fait que même spamplemousse était spammé à un niveau où je ne pouvais détecter de faux positifs. Il y a eu de la rage et j'avoues que ma solution ne me plait guère. Plutôt que 1 IP = 1 blog, je considère que 1 IP = 1 zombie Windows qui sert de relais à spam.
Pour la liste du htaccess, et bien, je publie de temps en temps les mises à jour, je ne peux faire mieux avec mes moyens. Ça pourrait être intégré dans un algo, comme « élément à charge » (qui fait baisser le niveau de confiance sans pour autant invalider. C'est ainsi que fonctionne Spamassassin).
À partir du moment, où tu donnes un accès libre, les plus gros contributeurs seront justement les spammeurs, pour se dédouaner. Esquive possible : facile d'ajouter, difficile d'enlever. Mais même ainsi, ça veut dire un gros travail d'autentification, de confiance... On en revient à un système quasi-fermé (pas autant que les RBL, cependant).
Pour le réseau de confiance, comme tu dis, on peut s'inspirer de ce qui se pratique sur ciao.fr, 2xmoinscher, eBay… Mais je ne connais pas la technique.
Enfin, je n'aime pas les captchas, parce que c'est de la présomption de culpabilité (blog.empyree.org/?2458-pr...
Quoi qu'il en soit, le Réseau est définitivement humain : des utopistes font quelques choses, des casseurs/spammeurs/connards/verreux/profiteurs essaient d'en abuser et on se met à fliquer tout le monde (authentification, clés de sécurité/PKI) pour que ça redevienne jouable. Une minorité de connards qui font la loi. L’anti-démocratie. Ce n'est pas un reproche, mais un constat désolé et pour lequel je n'ai pas de solution. blog.empyree.org/?2736-pr...
Bon, d’un autre côté, ce qui ne me tue pas me rends plus fort. Peut-être un peu trop, d'ailleurs blog.empyree.org/?2181-de...
"Enfin, je n'aime pas les captchas, parce que c'est de la présomption de culpabilité."
D'ou le fait que je sois en train de modifier le module captcha accessible pour que je puisse m'auto entretenir une whitelist, basee par exemple sur l'adresse mail du contributeur. Et que le genre de concept enonce ici pourrait s'etendre, pourquoi pas, aux commentaires, donc annulation de la necessite du captcha pour les personnes "de confiance".
"Quoi qu'il en soit, le Réseau est définitivement humain : des utopistes font quelques choses, des casseurs/spammeurs/connards/verreux/profiteurs essaient d'en abuser et on se met à fliquer tout le monde (authentification, clés de sécurité/PKI) pour que ça redevienne jouable."
Tout a fait.
"À partir du moment, où tu donnes un accès libre, les plus gros contributeurs seront justement les spammeurs, pour se dédouaner. Esquive possible : facile d'ajouter, difficile d'enlever. Mais même ainsi, ça veut dire un gros travail d'autentification, de confiance... On en revient à un système quasi-fermé (pas autant que les RBL, cependant)."
Admettons que l'acces soit libre (modulo l'authentification de chaque blog : les deux doivent etre "de confiance" pour que le trackback soit note comme "OK"). Pour qu'un "gros" contributeur devienne spammeur, il faut qu'il suive les etapes suivantes :
* enregistrement (scriptable, facile)
* recuperation de la liste des blogs "de confiance" (scriptable, facile)
* action (facile, ils font deja)
Bien. Donc, on a un enfoire qui est rentre dans la boite "de confiance". Il est identifiable par le blog de provenance (y'a toujours le fichier qui a servi a la creation de son compte, qui pourrait contenir le pass de creation + le nom du blog, y'a son ip, y'a le reverse, y'a...).
La, deux choses :
* ca passe, les utilisateurs ne le remarquent pas ou ne le signalent pas. Dans ce cas on peut rien y faire.
* quelqu'un le signale. Cet utilisateur passe automatiquement en "deny" sur sa liste perso de confiance (qui contient la liste globale moins les deny. Pas d'ajouts personnels a priori). Cet utilisateur peut maintenant etre sur que le blog signale ne lui fera plus passer de spam. De plus, ce signalement est transmis a d'autres (moderateurs, qui sont membres de la "communaute de confiance", avec un systeme democratique, elections, tout ca, histoire d'annihiler l'aspect anti democratie et passivite, si vraiment c'est necessaire). Ceux-ci peuvent supprimer le compte de l'utilisateur.
Apres, des systemes de verification un peu plus "taches de fond" pourrait etre envisageables (mails de relance de compte active si on n'est jamais trackbacké -pour eviter les blogs zombis-, surveillance "active" des blogs, etc.)
Le concept la dessous, pour moi, c'est maintenir une communaute active qui lutte positivement contre le spam. Que tous se sentent concernes, et aient l'impression et la conviction que ce qu'ils font aide non seulement leur site, mais aussi les autres, a lutter contre cette plaie.
Note que ce n'est pas une solution "absolue" dans le concept de base ici indique, puisque ca ne propose que de la whitelist. On ne peut pas rejeter non plus (a priori) tout ce qui n'est pas du reseau de confiance. C'est une aide, probablement complementaire a des choses comme spamassassin et/ou spamclear.
mouarf, les commentaires sont plus longs que l'article de base :D Du rarement vu ^^
Ce qui semble accréditer la thèse de la nécessité de pouvoir mettre des tags de présentation dans les commentaires, histoire de pouvoir les rendre plus lisibles!
Ton système peut (je dis bien peut) fonctionner pour des blogs. Mais les spamblos se créent très rapidement, de manière automatique. Donc tsoin-tsoin.
"mouarf, les commentaires sont plus longs que l'article de base :D Du rarement vu ^^"
Lis cet article : blog.empyree.org/?1414-vi...
Sur embruns.net, c'est même le fonctionnement normal
_ezak : c'est ce que fait (mal) cocomment. Voir les commentaires chez Pep (callmepep.org)
Quentin a commencé à faire un système de ce genre pour les trackbacks : TrackManager, que vous trouverez ici.
qsupernant.info/nessi/ind...
A noter que deux mises à jours ont déjà été faites.
C'est une bonne idée qu'il a eu. Moi j'avais envie d'ajouter une notion de "réseau de confiance" : ces temps-ci c'est à la mode...