Préparation


Découper ses données

Le découpage du jeu de données dans un projet de Machine Learning est une étape très importante qu’il ne faut pas négliger faute de quoi vous risquer de sur évaluer votre modèle (over-fitting) ou tout simplement le contraire (under fitting). Dans cet article nous allons parcourir les étapes indispensables à cette opération délicate.


Gérer les chaînes de caractères

Si vous désirez avoir une approche analytique de vos données, vous avez bien sur été confronté à la difficulté d’exploiter des chaînes de caractères. A tel point que bien souvent vous avez certainement dû en mettre de coté certaines. Manque d’outillage, complexité de gérer des sémantiques complexes … Dans cet article (premier d’une série) nous allons aborder ces problèmes et surtout voir comment les résoudre.