Ce projet vise à créer un mini-guide et/ou une méthodologie de découverte des problèmes de la qualité des données. Après une introduction sous forme de jeu des 20 erreurs, le projet présente les erreurs les plus communes, les moyens de les repérer et de les traiter.
Aujourd'hui ce document est encore à l'état de projet. N'hésitez pas à le commenter !
Kirix est un logiciel d'analyse et de traitement de données structurées pour Windows, conçu spécifiquement pour l'usage plus que pour la gestion de données. Kirix sait lire de nombreux formats (CSV, XLS, SQL, HTML, etc.) depuis de nombreux outils (Oracle, SQL Server, le web, etc.) presque sans limitation de volume (60 milliard de lignes et 18 Peta octets par table). Kirix propose de puissantes fonctions de traitement, rapprochement et nettoyage de données, ainsi que des rapports.
OpenRefine (ex-Google Refine) est un puissant outil pour travailler avec des données désordonnées, les nettoyer, les transformer depuis un format vers un autre, les enrichir avec des web services et les lier avec des bases de données comme Freebase.