Quelques statistiques sur Planet LibreJ’avais il y a une semaine posté un article sur le filtrage des commentaires WordPress avec Math Comment Spam Protection. Comme Akismet est gratuit (mais demande quand même une clef) et payant pour un usage professionnel, je me suis demandé comment faire un plugin qui soit également capable de filtrer intelligemment les commentaires. Je me suis donc mis en quête de statiques sur les mots les plus couramment utilisés, mais n’ayant rien trouvé de bien concluant, j’ai décidé d’analyser les 300 dernières pages du Planet, ce qui représente 3000 articles repartis sur environ 1 an. Voyons rapidement, les résultats obtenus. 10 mots les plus utilisés :de En utilisant ses mots clefs du français, on doit sans doute pouvoir détecter assez facilement si le commentaire est bien en français (et pas en anglais comme la majorité du spam). On peut également regarder les mots en lien avec l’informatique. 20 mots les plus utilisés en rapport avec l’informatique :version On pourrait alors éventuellement, mais cela risque d’être assez délicat, utiliser ce type de mots pour savoir si le commentaire parle bien d’informatique. Pour finir, on peut regarder par simple curiosité les mots les moins utilisés. Parmi les mots les moins utilisés, on trouve :Dannois Pour ceux que ça intéresse, voici le dump de la liste, sous la forme (mot, nombre d’occurrences) qui contient les résultats. Vous pouvez facilement la lire en Python avec le code suivant :
################# import pickle # On charge le fichier # On affiche les 20 iers éléments |
Les livres saints
Aujourd’hui, il n’est pas question de religion (non, non, non !) mais juste des quelques guides, manuels, tutoriaux, … (appelez ça comme vous voudrez !) qui selon moi valent le coup !
J’ai personnellement utiliser ces documents et j’ai beaucoup appris grâce à eux, j’espère que certains pourront vous aider !
GNU/Linux :
- Installation, configuration et utilisation de Ubuntu : Simple comme Ubuntu (sources en LaTeX disponibles)
- Installation, configuration et utilisation de Debian : Formation Debian GNU/Linux
- Bien configurer son source.list pour Debian : Debian Testing : comment l’utiliser efficacement ?
- Installation de Archlinux : Installation d’Archlinux 0.8
Logiciels Libres :
- Utilisation de Thunderbird : Utilisez Thunderbird 2.0 !
- Utilisation de OpenOffice : Changer pour OpenOffice.org
Formats :
- Audio – Ogg/Vorbis : Ogg Vorbis
- Photo – HDR : Le HDR sous GNU/Linux (v.2)
Programmation :
- Bash : Guide avancé d’écriture des scripts Bash
- LaTeX : Apprends LaTeX !
- Python : Apprendre à programmer avec Python
Divers :
- Typographie française : Petites leçons de typographie
chaoswizard
ezaeza