Auteur Sujet: Base [b4.058] b4.059 en test avec Bêta [V605] V606  (Lu 33249 fois)

plus minus reset

0 Membres et 1 Invité sur ce sujet

Hors ligne Ransac

  • Modérateur Global
  • AncestroGrandMaitre
  • *****
  • Messages: 3 015
  • Remercié: 1 fois
    • bases des villes
  • Programme: 2015-1996.3
  • Base: 5.131
  • Système: Windows vista, Windows 7, Windows 10
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #39 le: 15 Novembre 2006 à 17:56:30 »
Citation de: "Facon"
:arrow: Je sais, c'est facile d'insister quand ce sont les autres qui doivent faire le travail, André penses-tu examiner la distinction des doublons par les parents? Autant la méthode précédente n'était pas représentative, autant la nouvelle travaille par excès.
j'ai bien l'impression que la nouvelle routine élimine les doublons parents/enfants !



si c'est pour comparer les parents des doublons, je ne suis pas pour !

il suffit d'une différence d'orthographe dans le nom du père ou de la mère pour que le doublon ne soit pas visible.



vaut mieux en avoir plus et tous les avoir, qu'en avoir moins et en louper !
N'oubliez jamais que le mieux est l'ennemi du bien  et que la perfection n'est pas de ce monde !
Les définir est un défi, les réaliser est un leurre !    ... mais on aimerait tellement y croire!
 

Hors ligne Facon

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #40 le: 15 Novembre 2006 à 18:14:55 »
Bonsoir

Citation de: "Ransac"
Citation de: "Facon"
:arrow: Je sais, c'est facile d'insister quand ce sont les autres qui doivent faire le travail, André penses-tu examiner la distinction des doublons par les parents? Autant la méthode précédente n'était pas représentative, autant la nouvelle travaille par excès.
j'ai bien l'impression que la nouvelle routine élimine les doublons parents/enfants !



si c'est pour comparer les parents des doublons, je ne suis pas pour !

il suffit d'une différence d'orthographe dans le nom du père ou de la mère pour que le doublon ne soit pas visible.



vaut mieux en avoir plus et tous les avoir, qu'en avoir moins et en louper !




 :arrow: Premièrement, je ne remets pas en cause tes compétences en matière de test, plus nous sommes testeurs et plus nous avons de chance de trouver les éventuelles anomalies. :D

J'ai moi aussi une tripotée de FACON Jean Baptiste bien et convenablement renseignés mais j'ai malheureusement aussi un FACON Jean Baptiste du caniveau ou d'ailleurs non renseigné ce qui se traduit par une possibilité de doublon.



 :arrow: Pour ce qui concerne la nouvelle routine qui était en réaité la mouture n°2, elle concerne si j'ai bien compris les possibilités de doublons père-fils puisqu'à une certaine époque le premier garçon prenait presque systématiquement le/les prénoms de son père, même chose pour la fille.

Pour le coup,  si père et fils n'ont pas le même nom (FACON, FASCON par exemple) je pense que la possibilité de doublon ne sera pas affichée.



 :arrow: Je parlais d'homonymes (nom et prénom) pour lesquels les deux parents ne sont pas les mêmes. C'est surtout le cas pour les garçons doublons de pères avec des prénoms différents.

Je pense que cela seraient d'ailleurs réintégrés doublons dans le cadre d'une recherche large.
Christian
 

Hors ligne Facon

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #41 le: 15 Novembre 2006 à 19:12:38 »
Bonsoir André,

Sur une recherche normale de doublons potentiels j'ai examiné le cas d'un patronyme représenté 5 fois dans le listing (et il y a prescription):

DECOTTIGNIES Jacques °1600 +12-04-1681

DECOTTIGNIES Marie Joseph  +11-10-1828

DECOTTIGNIES Marie Joseph °11-10-1686

DECOTTIGNIES Martin

DECOTTIGNIES Martin °1480



Les dates sont celles rentrées dans la base, l'absence de date est l'image de la base.



 -1- Je ne trouve pas le binome de Jacques qui est peut-être un autre Jacques °vers 1595 et présent dans la base. Je pense que les nouvelles fourchettes font de lui un candidat possible mais il n'est pas repris dans le listing.

 -2- Les deux Marie Joseph sont uniques dans la base mais je les vois mal être "doublon" en raison de l'espérance de vie. L'espérance de vie de chacune fait qu'il peut y avoir un recouvrement entre ces deux personnes mais en aucun cas ce sont les mêmes. D'autre part les parents de l'une sont DEC... Louis Joseph et PICAVET Marie Anne Joseph, quant à l'autre ils sont DEC.... Pasquier et DESQUIENS Jeanne.

 -3- Pour les deux Martin, mea culpa, l'un est sans renseignement. Le doublon potentiel est avéré encore que pour l'un les parents sont DEC... Alphonse et CASTEL Jeanne et pour l'autre j'ai DEC... Jean et LEFEBVRE Nn.



Il y a éventuellement une explication à trouver. Je continue à chercher.
Christian
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #42 le: 15 Novembre 2006 à 19:17:25 »
Pour les doublons "uniques" j'ai dû faire une erreur en mettant à jour le script, car je l'avais déjà réparé hier ou avant hier.

Les "Marie" que Ransac croient en trop, ne le sont pas. Elles doivent être en réalité en double avec une qui ne s'affiche pas pour la même cause que ci-dessus.

Cette fois ci çà doit être bon sur mon site.

Je pense également qu'il est préférable de pècher par excès plutôt que par défaut dans la liste des doublons. C'est pour celà qu'il ne faut pas supprimer de la liste les individus insuffisamment renseignés. L'anomalie, c'est qu'ils ne sont pas renseignés.

Je vais voir s'il est possible, sans trop compliquer, d'éliminer des doublons ayant un lien de parenté plus lointain que la relation parent-enfant.

A+

André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne Ransac

  • Modérateur Global
  • AncestroGrandMaitre
  • *****
  • Messages: 3 015
  • Remercié: 1 fois
    • bases des villes
  • Programme: 2015-1996.3
  • Base: 5.131
  • Système: Windows vista, Windows 7, Windows 10
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #43 le: 15 Novembre 2006 à 19:26:28 »
pour aller un peu dans le même sens que Facon, il est vrai que la recherche élargie peut être un paliatif aux doublons qui auraient été suppimés par erreur lors d'une recherche normale.



Je pense au cas des "faux doublons" car ils n'ont pas les même parents. Actuellement, ils ne sont pas supprimés d'une recherche simple.

Si tu décides de modifier la routine afin de les supprimer, on risque de passer à coté des "vrais doublons" dont l'orthographe des parents est différente.

Ce n'est finalement pas trop grave puisqu'ils devraient être affiché en recherche élargie.



pour ne pas alourdir la routine si tu décides d'ajouter cette modif, il peux être possible de ne comparer que le prénom du père et le nom de la mère. En effet, le nom du père devrait être de toute façon le même et il est peu probable d'avoir un "faux doublon" issue de parent homonyme.
N'oubliez jamais que le mieux est l'ennemi du bien  et que la perfection n'est pas de ce monde !
Les définir est un défi, les réaliser est un leurre !    ... mais on aimerait tellement y croire!
 

Hors ligne Ransac

  • Modérateur Global
  • AncestroGrandMaitre
  • *****
  • Messages: 3 015
  • Remercié: 1 fois
    • bases des villes
  • Programme: 2015-1996.3
  • Base: 5.131
  • Système: Windows vista, Windows 7, Windows 10
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #44 le: 15 Novembre 2006 à 19:28:38 »
Citation de: "Facon"
:arrow: Pour ce qui concerne la nouvelle routine qui était en réaité la mouture n°2,
t'en fait pas, je suis les modifs !  :lol:

quand je parle de la nouvelle version, je parle de la 2e routine. La 1ere étant l'ancienne version.

Je ne parle pas de la version originale qui de toute façon ne trouvait jamais de doublon !  :lol:
N'oubliez jamais que le mieux est l'ennemi du bien  et que la perfection n'est pas de ce monde !
Les définir est un défi, les réaliser est un leurre !    ... mais on aimerait tellement y croire!
 

Hors ligne Facon

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #45 le: 15 Novembre 2006 à 19:32:39 »
Rebonsoir André,

Le Jacques de vers 1595 est bien retenu maintenant comme doublon potentiel.

Et il doit y en avoir d'autres car la liste s'est allongée de quelques unités.

Merci



PS: Il va peut-être falloir songer à la phonétique......
Christian
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #46 le: 15 Novembre 2006 à 20:13:50 »
Bonsoir,

Si Ransac craint l'absence de détection du doublon, à cause de parents dont le nom serait écrit différemment, il peut la craindre tout autant à cause du nom de l'individu lui-même (j'admet que le risque est 2 fois moins important, il y a 2 parents). Et pour les prénoms, il y a les risques dûs à l'orthographe, mais plus fréquemment peut-être, l'utilisation courante du 2ième ou 3ième prénom, quand il n'est pas complètement différent (même la phonétique ne peut résoudre ce cas...).

Pour la recherche "étendue", j'ai fait des essais en intégrant dans la liste des doublons possibles ceux qui avaient au moins un prénom commun. Ma liste était presque 2 fois plus longue. Dans la méthode actuelle, tous les prénoms de l'un doivent appartenir à la liste des prénoms de l'autre, pour prendre en compte un ou deux prénoms "oublié" ou pas dans l'ordre.

Pour le moment, je pense qu'il vaut mieux travailler à éliminer de la liste les doublons qu'un raisonnement logique (la parenté) doit éliminer. La liste est déjà bien longue...

A+

André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne Facon

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #47 le: 15 Novembre 2006 à 20:42:31 »
Bonsoir,

D'autant que tout cela dépend aussi de la logique de saisie: nom et prénoms tels que repris dans l'acte ou nom et prénoms "normalisés". Sans compter que le même individu peut être gratifié de nom et prénoms différents (légérement ou ordre) à divers moments de sa vie: naissance, union, décès.



Pour élaguer cette liste il reste aussi la piste du lieu mais il faut y aller pas à pas avant de construire un mastodonte.
Christian
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #48 le: 15 Novembre 2006 à 23:09:59 »
Les lieux de naissance et décès sont déjà utilisés. S'ils ne sont pas vides, ils doivent être identiques, sinon il n'y a pas de doublon.

J'ai modifié la procédure en utilisant le résultat de la PROC_GROUPE (celle qui permet d'élaguer ou supprimer une famille complète). Elle permet de regrouper tous les individus du dossier ayant un lien de parenté avec l'individu central. Son utilisation est très efficace, celà a supprimé tous mes 34 individus en doublons précédemment (sur 3000 sans doublon réel).

Elle double le temps d'exécution, mais qu'est ce temps à côté de celui qu'il faut pour vérifier un à un chaque doublon?

Je me pose seulement la question de l'opportunité d'exclure des doublons s'il y a lien de parenté. Un même homme a pu se marier successivement avec 2 soeurs. Les 2 "maris" qui pourtant n'en font qu'un ont un lien de parenté, donc ne seront pas détectés comme doublons? Et je ne vous parle pas des mariages entre cousins.

Votre avis.

A+

André

PS: vous avez toute la nuit pour y réfléchir :lol:

Bonne nuit
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne Pierre Garnier

  • AncestroExpert
  • *****
  • Messages: 545
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #49 le: 15 Novembre 2006 à 23:57:45 »
Je débarque et n'ai pas bien suisvis tout les arguments. Cette recherche ne pourrait'elle pas être para métrable par l'utilisateur. (Même nom, même premier prénom, mêmes prénoms, date de naissance identique ou au mois près ou à l'année prés ou à x années près, ...,  même ville de naissance, ...
 

Hors ligne BLefebvre

  • AncestroExpert
  • *****
  • Messages: 885
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #50 le: 16 Novembre 2006 à 08:23:16 »
Ou bien quelque chose comme : comparaison de l'information si elle est présente. Par ex : si l'une des fiches a une date et pas l'autre, on ne compare pas. Idem prénoms, ville, etc.

Avec une case à cocher ou l'utilisateur choisit ce qu'il veut comme comparaison. Ca permettrait de de faire des comparaisons succintes, puis d'affiner si le besoin s'en fait sentir.

Et tant qu'on y est, le fin du fin : ne rechercher les doublons que sur une partie de la base : seulement les descendants de Dupond Titi ou les ascendants de Durand Tata.
XP SP3 V1360 B5.130
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #51 le: 16 Novembre 2006 à 08:56:53 »
Bonjour Pierre,

Je pense que tu devrais lire le premier message du fil pour comprendre que tous les paramètres dont tu parles sont déjà pris en compte, dans la forme actuellement téléchargeable. Les seules évolutions notables concernent la prise en compte de la relation parent-enfant pour éliminer des doublons de la liste.

Car le vrai problème, c'est que malgré la prise en compte de ces paramètres, il y a trop de doublons. La cause principale est l'absence d'informations sur les dates de naissance et décès (informations même approximatives souvent connues, mais non écrites).

On cherche donc un moyen, suffisamment rapide, d'éliminer des doublons par une méthode complémentaire. Et dans la logique qui veut qu'il ne peut pas y avoir de doublon entre un enfant et ses parents, il ne peut y avoir de doublons dans l'ascendance ou la descendance d'un individu. Mais exécuter ce test pour chaque individu risque d'être long.

Quand à rendre tout paramètrable, celà implique une plus grande complexité du code, avec presque toujours un ralentissement de l'application.

Il est possible d'introduire dans une requête une condition optionnelle. Le système adopte alors un plan d'exécution de la requête permettant d'exécuter cette option, mais qui n'est pas optimisé pour le cas où cette option n'est pas activée. D'où le ralentissement. Il est donc préférable de créer autant de requêtes qu'il y a d'options possibles, le choix de la requête se faisant en amont. D'où la complexité du code.

A+

André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #52 le: 16 Novembre 2006 à 09:08:42 »
Citation de: "blefebvre"
Ou bien quelque chose comme : comparaison de l'information si elle est présente. Par ex : si l'une des fiches a une date et pas l'autre, on ne compare pas. Idem prénoms, ville, etc.
Bonjour,

Que veut dire "on ne compare pas"? On élimine de la liste des doublons possibles? Ce qui signifie qu'on ne met dans la liste des doublons que ceux dont on a la certitude.

Je préfère le principe inverse: on élimine de la liste des doublons que si on a la preuve qu'ils ne le sont pas. On a le maximum de chances d'avoir les doublons dans la liste.

A+

André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne Joël AUGUSTE

  • AncestroSenior
  • *****
  • Messages: 1 348
  • Remercié: 4 fois
    • http://gw.geneanet.org/joelauguste
  • Programme: v2015-1996.3.2
  • Base: 5.131
  • Système: W11
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #53 le: 16 Novembre 2006 à 09:14:12 »
Citation de: "DDdeberdeux"
Je préfère le principe inverse: on élimine de la liste des doublons que si on a la preuve qu'ils ne le sont pas. On a le maximum de chances d'avoir les doublons dans la liste.


Bonjour,



Je préfère également cette démarche qui resserre les mailles du filet
Cordialement,

Joël


Ancestrologie version  v2015-1996.3 b5.131
Intel Core i3-2100, 6144M°, Ecran 21,5" (1440*900)
Windows 10 Famille
 

Hors ligne Facon

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #54 le: 16 Novembre 2006 à 10:51:22 »
Bonjour André,

J'ai vu les derniers messages et merci encore pour toutes ces explications.

Jusqu'ici tout le monde était heureux et fier de sa base de données car il n'y avait pas de doublon et voilà que sur une question de Bernadette tu modifies la manière de rechercher les doublons. La conséquence est terrible, nous sommes tous ou presque devenus soudainement mauvais et pas un petit peu. :cry:

A l'évidence également ce sujet qui ne soulevait pas ou peu de questions devient, comme certains autres, celui dont il faut parler. :wink:



Mon sentiment est que la méthode initiale était fausse de 95 à 99% et que la nouvelle est bonne à 50%. Il ne faut pas me demander la méthode de calcul ou d'appréciation.

Je pense également qu'il vaut mieux pêcher par excès plutôt que par omission et tenter de trouver des astuces (vérifiables) qui permettent de réduire cette litanie de doublons.

Tu as déjà mis en oeuvre quelques méthodes, une autre est sur le feu et pourquoi pas poursuivre si les idées fusent.

La difficulté avec une liste trop longue est qu'elle devient dissuasive.



Ainsi que tu l'as dit à plusieurs reprises, une source manifeste de doublon est l'absence d'information. Un seul cas est de nature à faire rentrer 1 à 10 innocents parfaitement renseignés.

Je maintiens ainsi la possibilité de pouvoir éditer la liste des individus pas du tout renseignés. Elle devrait être sensiblement plus courte que celle des doublons et ainsi plus agréable à consulter pour procéder aux ajustements nécessaires quand cela est possible.



Si tu mets en oeuvre la recherche par la famille, les doublons seront minorés (un peu, beaucoup?) et même si les cas particuliers cités dans ton message passent à la trappe, ils doivent à mon avis représenter un faible pourcentage.

La combinaison des deux moyens devrait permettre à chacun d'assainir la situation.



Pour ce qui est des lieux, je n'avais pas perçu ce point. Je me fiais à l'inscription sur la fenêtre des doublons qui indique que la recherche est effectuée sur les nom, prénoms, naissance et décès.
Christian
 

Hors ligne Facon

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #55 le: 16 Novembre 2006 à 15:03:53 »
Bonjour André,

Citation de: "DDdeberdeux"
J'ai modifié la procédure en utilisant le résultat de la PROC_GROUPE (celle qui permet d'élaguer ou supprimer une famille complète). Elle permet de regrouper tous les individus du dossier ayant un lien de parenté avec l'individu central. Son utilisation est très efficace, celà a supprimé tous mes 34 individus en doublons précédemment (sur 3000 sans doublon réel).

Elle double le temps d'exécution, mais qu'est ce temps à côté de celui qu'il faut pour vérifier un à un chaque doublon?

Je me pose seulement la question de l'opportunité d'exclure des doublons s'il y a lien de parenté. Un même homme a pu se marier successivement avec 2 soeurs. Les 2 "maris" qui pourtant n'en font qu'un ont un lien de parenté, donc ne seront pas détectés comme doublons? Et je ne vous parle pas des mariages entre cousins.

Votre avis.




Je ne suis pas certain que tu ais mis cette nouvelle version en ligne. Tu attendais sans doute les avis.
Christian
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #56 le: 16 Novembre 2006 à 16:09:15 »
Non, ce n'est pas en ligne.

Je suis en train d'essayer en ne comparant qu'avec les ascendants ou descendants, une relation parents-enfants étendue en quelque sorte. Cà ne semble pas excessivement pénalisant. Je règle également d'autres problèmes dû aux comparaisons avec des champs qui peuvent être null. FB est assez embêtant pour celà car la comparaison avec la valeur d'un champ qui est null n'est ni vrai, ni fausse. Il faut donc traiter ce cas à part à chaque fois.

A+

André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne DDdeBerdeux

Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #57 le: 16 Novembre 2006 à 23:19:44 »
Bonsoir,

J'ai remis en ligne une version où j'utilise la procédure PROC_PARENTE. En effet 2 individus qui ont du sang commun sont définis l'un par rapport à l'autre, donc l'un ne peut être un doublon de l'autre. Il ne reste donc dans la liste des doublons que des personnes sans relation.

Cà allonge sérieusement la durée du traitement (environ le double) mais d'une façon relativement irrégulière, peut plus importante pour les grosses base. Mais le nombre de doublons (parce que non documentés) a une grosse influence. Il faut 10 s sur ma base de 3000 individus.

Cà a dû diminuer le nombre de doublons, mais comme auparavant certains doublons n'apparaissaient pas à cause d'un problème avec les champs null (des individus sans parents n'apparaissaient pas). Le total a peut-être augmenté.

A+

André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne JRFloquet

  • AncestrArbres -Test
  • AncestroExpert
  • *****
  • Messages: 414
    • Ma genealogie sur Geneanet
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #58 le: 17 Novembre 2006 à 10:19:19 »
bonjours à tous,



Je viens de tester cette version avec une base de données qui compte 47104 personnes.

j'ai obtenu une liste de 69 pages de doublons potentiels.



Pouvez vous me dire pourquoi sont désignés comme doublons les personnnes suivantes:



-  05 FORQUIGNON Jean qui ont chacun une date de naissance correcte et différente qui vont de 1739 à 1820



-12 FORQUIGNON François avec des dates correctes et différentes de 1722 à 1823



Ce ne sont absolument pas des doublons



Cordialement
Cordialement

JR
----------------------------------------------------
PC de bureau HP - Core i5 - RAM 06 Giga - Windows 10 - 64bits
PC portable HP - Core i3 - RAM 06 Giga  - Windows 10 - 64bits
Tablette androïde - nexus 7 - version 5.0.1.
 

Hors ligne Roger 1

  • AncestroExpert
  • *****
  • Messages: 627
Base [b4.058] b4.059 en test avec Bêta [V605] V606
« Réponse #59 de la page précédente: 17 Novembre 2006 à 10:20:59 »
Constat identique sur une base de 2600 personnes environ.je vais essayer sur une base plus conséquente.

A+