Dans le cours : Utiliser SQL pour l'analyse de données
Accédez à ce cours grâce à un essai gratuit
Inscrivez-vous aujourd’hui pour accéder à plus de 24 900 cours dispensés par des experts.
Gérer les doublons - Tutoriel SQL
Dans le cours : Utiliser SQL pour l'analyse de données
Gérer les doublons
Il y a aussi une chose qu'on va régulièrement retrouver dans nos données, c'est de la duplication des doublons. Par exemple sur mes contacts, je pourrais avoir des doublons de prénoms et de noms, ça peut se retrouver, ça peut être des homonymes. Comment savoir s'il s'agit bien de la même personne ou d'une personne différente ? Eh bien, on va analyser nos données, on va regarder si le téléphone est le même ou si l'e-mail est le même, ou si l'adresse est la même, ou si la société est la même et on va affiner comme ça notre recherche. Bon, prenons l'exemple de l'e-mail, l'e-mail c'est quand même quelque chose qui devrait identifier uniquement quelqu'un. Alors, il se trouve que dans ma base de données, je n'ai pas de contrainte d'unicité sur l'e-mail, c'est dommage. À partir du moment où il n'y a pas de contrainte, on peut avoir un peu tout et n'importe quoi. On va analyser ça. Comment d'abord savoir si on a des doublons dans les e-mails ? Bon, la technique la plus classique est…
Table des matières
-
-
-
(Verrouillé)
Comprendre le langage SQL3 m 39 s
-
(Verrouillé)
Utiliser SQL dans différents contextes2 m 8 s
-
(Verrouillé)
Assimiler la syntaxe SQL3 m 44 s
-
Vérifier les résultats de nos requêtes3 m
-
(Verrouillé)
Gérer les données de mauvaise qualité5 m 55 s
-
(Verrouillé)
Vérifier les incohérences5 m 2 s
-
(Verrouillé)
Formater et convertir les données4 m 19 s
-
(Verrouillé)
Traiter les données manquantes5 m 4 s
-
(Verrouillé)
Gérer les doublons5 m 18 s
-
(Verrouillé)
-
-