Fichier de 47104 personnes.
doublons pôtentiels environ 150
Bonjour,
Je commence à comprendre.
J'ai une base dont j'ignore l'origine qui me sert uniquement à tester la durée de certains traitements, elle contient 40000 individus.
J'ai voulu faire un test en lançant hier soir la recherche de doublons. Je l'ai arrêté ce matin après 13 heures de fonctionnement sans être arrivé au résultat. Comme le contrôle de parenté prend beaucoup de temps, j'ai modifié la procédure pour que ce contrôle soit couplé avec la recherche approfondie sur les prénoms. J'ai pu ainsi relancer le test depuis Ancestrologie sans contrôler la parenté. Au bout de peu de temps, le test s'est arrêté avec le message "Mémoire insuffisante" (mon AMD3500+ à 1Go de RAM
).
J'ai alors relancé la procédure en direct depuis un requêteur. Elle est arrivée assez rapidement à son terme, mais n'a pu s'afficher car je n'avais pas prévu d'afficher plus de 100000 paires de doublons (le n° qui figure en tête du prénom). J'ai quand même pu vérifier que la table comportait 342151 paires de doublons
Comme la recherche de parenté prend environ 0.15s par paire de doublons, vous comprenez pourquoi 13h de calculs n'ont pas suffi.
Un nombre considérable de doublons est provoqué par des individus ayant pour seul nom "
?" et un prénom vide ou lui aussi "
?", évidemment sans aucune date, parfois un conjoint ou des enfants.
J'en déduis qu'il est illusoire de vouloir contrôler la présence de doublons dans des bases où on semble s'être plus soucié de la quantité que de la qualité des informations.
Concernant les performances des autres logiciels, là aussi il serait intéressant de parler de qualité, comme le rappelle Philippe. Il est très simple et rapide de rechercher les doublons sans intégrer des possibilités de variations des prénoms, ni les approximations sur les dates. Mais peut-on dire dans ce cas qu'on obtient la liste des doublons?
J'ai remis en ligne les fichiers de cette b4.059. Le contrôle sur la parenté des doublons potentiels et la recherche approfondie sur les prénoms ne sont effectués que si la case "Elargir la recherche" est cochée. Et "au cas où" la limite du nombre de paires de doublons affichables a été portée à 999999.
A+
André