(tldr en version : a tool to search for french words based on various parameters)
Souvent en cherchant par exemple des rimes pour des chansons, je cherche des mots bien précis qui remplissent des critères de nombre de syllabes, nature, rimes, mais aussi champ lexical.
J'ai fait ce prototype d'outil qui marche à peu près comme un dictionnaire des rimes mais sur lequel on peut préciser un mot de référence et qui trie les résultats en fonction de la proximité en utilisant des vecteurs word2vec.
Toutes les infos sont stockées dans un XML de 300Mo environ.
La version offline actuelle : chercheMots01.zip
il vous faudra pour l'utiliser installer python et lancer un .bat (pour windows) ou créer un serveur local via python.
C'est un prototype, la base de donnée utilisée croise différentes sources dont une version française de word2vec réunies dans un XML.
Plusieurs erreurs et limitations sont connues, par exemple :
- les attributs des mots ne sont pas toujours exacts
- le filtrage des rimes est trop strict
- il manque certains mots ou variations
- il manque parfois des infos de genre, nombre, prononciation, etc
- la version en ligne est lente
- la version en ligne a tendance à privilégier le début de la base de donnée
Ma todo list actuelle contient aussi :
- des suggestions ajax dans le formulaire
- mieux gérer les verbes à l'infinitif
- possibilité d'entrer plusieurs mots à évoquer ou éviter
- par défaut trier la liste par fréquence
- des options relatives au nombre de lettres
- une champ similaire aux logiciels pour le scrabble ou les mots croisés
- refaire le champ de rimes en choisissant les rimes plutôt qu'un mote de référence
- une version locale wrappée à partir du php