GNU-vautés

Blog sur les nouveautés du pôle sud…

Quelques statistiques sur Planet Libre

J’avais il y a une semaine posté un article sur le filtrage des commentaires WordPress avec Math Comment Spam Protection.
En commentaires, plusieurs personnes ont mentionné Akismet : il analyse les commentaires et décide s’il s’agit ou non de spam.

Comme Akismet est gratuit (mais demande quand même une clef) et payant pour un usage professionnel, je me suis demandé comment faire un plugin qui soit également capable de filtrer intelligemment les commentaires.

Je me suis donc mis en quête de statiques sur les mots les plus couramment utilisés, mais n’ayant rien trouvé de bien concluant, j’ai décidé d’analyser les 300 dernières pages du Planet, ce qui représente 3000 articles repartis sur environ 1 an.
Les résultats permettent d’extraire les mots les plus utilisés de la langue française et du jargon informatique (du moins, pour nous blogeur).
On pourrait ensuite choisir un certain nombre de ces mots et décider qu’au-dessus d’un pourcentage de mots présents dans le commentaire, celui-ci est valide.

Voyons rapidement, les résultats obtenus.

10 mots les plus utilisés :

de
le
la
et
à
les
un
des
en
pour

En utilisant ses mots clefs du français, on doit sans doute pouvoir détecter assez facilement si le commentaire est bien en français (et pas en anglais comme la majorité du spam).

On peut également regarder les mots en lien avec l’informatique.

20 mots les plus utilisés en rapport avec l’informatique :

version
libre
fichier
logiciel
serveur
Ubuntu
logiciels
système
site
source
fichiers
Linux
commande
données
configuration
libres
réseau
utilisateurs
sudo
web
code
Google
basé
machine
Firefox
Windows
distribution
licence
développement
installer

On pourrait alors éventuellement, mais cela risque d’être assez délicat, utiliser ce type de mots pour savoir si le commentaire parle bien d’informatique.
Les défenseurs du « GNU/Linux, ce n’est pas que Ubuntu ! » pourront noter qu’on retrouve plus souvent le mot Ubuntu que le mot Linux…

Pour finir, on peut regarder par simple curiosité les mots les moins utilisés.

Parmi les mots les moins utilisés, on trouve :

Dannois
Irrlicht
Lithium
Guadalajara
auvergnates
sociopathe

Pour ceux que ça intéresse, voici le dump de la liste, sous la forme (mot, nombre d’occurrences) qui contient les résultats.

Vous pouvez facilement la lire en Python avec le code suivant :


#!/usr/bin/env python
# -*- coding:Utf-8 -*-

#################
#### Modules ####
#################

import pickle

# On charge le fichier
fichier = open( ‘ListeOki.dat’ ,’rb’ )
listeMots = pickle.load( fichier )
fichier.close()

# On affiche les 20 iers éléments
print listeMots[ :20 ]

Catégorie : Logiciels libres,Python
Par chaoswizard
Le 30 juin 2010
À 14:30
Permalien
Commentaire(s) : 2
 

Les livres saints

Aujourd’hui, il n’est pas question de religion (non, non, non !) mais juste des quelques guides, manuels, tutoriaux, … (appelez ça comme vous voudrez !) qui selon moi valent le coup !

J’ai personnellement utiliser ces documents et j’ai beaucoup appris grâce à eux, j’espère que certains pourront vous aider !

GNU/Linux :

Logiciels Libres :

Formats :

Programmation :

Divers :

Catégorie : Audio,Bash,Debian,GNU/Linux,LaTeX,Logiciels libres,Multimédia,Photo,Programmation,Python,Ubuntu
Par chaoswizard
Le 13 juillet 2008
À 20:02
Permalien
Commentaire(s) : 2
 

Amarok et CopyCover : récupérez toutes les pochettes

Mise en situation :

Vous avez sur votre ordinateur une belle bibliothèque musicale ; elle est parfaite : bien rangée, bien triée et bien taguée mais le seule problème, c’est que vous n’avez pas les pochettes et vu le nombres d’albums que vous avez, impossible de les chercher une par une sur Internet ou même de scanner la pochette d’origine…

Heureusement, le couple Amarok/CopyCover se charge de tout !

Amarok :

On va d’abord commencer par récupérer toutes les pochettes grâce à Amarok (il récupère pour cela les pochettes disponibles sur Amazon).

Allez donc dans Outils > Gestionnaire de jaquettes > Télécharger les jaquettes manquantes.
Là, Amarok se charge de récupérer toutes les jaquettes qu’il vous manque automatiquement. Vérifier quand même que ce sont les bonnes rapidement, à vu d’œil (un bon 80% réussite chez moi).

Maintenant, Amarok a « en mémoire » les pochettes d’album, mais nous, on aimerai bien les avoir dans le dossier de l’album en question !

CopyCover :

Commencez par télécharger le script.

Ensuite, décompressez le dans un dossier puis :

cd copycover

pour vous placer dans le dossier du script, et enfin, un petit

python copycover-offline.py -c Cover.png

et vous voilà avec un fichier Cover.png dans chacun de vos album qui contient la pochette de l’album en question !

Trop facile !

Catégorie : Audio,Logiciels libres,Python
Par chaoswizard
Le 2 juillet 2008
À 13:38
Permalien
Commentaire(s) : 0