~9 400 mots restent sans prononciation : ajouter dans build_data.py une propagation morphologique plus large (formes verbales régulières, pluriels/féminins, composés avec tiret comme "couche-tôt"), puis un fallback graphème->phonème offline type phonemizer/espeak. Conserver l'alphabet interne pour les calculs et convertir seulement l'affichage en API/IPA côté interface.

~14 200 mots sans fréquence connue : d'abord propager/lisser depuis le lemme ou une forme proche quand c'est fiable, puis envisager une source externe type wordfreq. Côté interface, prévoir une option "inclure les fréquences inconnues" au lieu de les assimiler uniquement à 0.

clairement séparer les homographes/homophones pour les fréquences et les natures : par exemple "est" ne devrait pas apparaître comme le nom commun le plus fréquent si la fréquence provient surtout du verbe conjugué. Vérifier les fréquences par catégorie Lexique avant de les copier sur toutes les entrées XML d'une même graphie.