Pouvez vous me dire pourquoi sont désignés comme doublons les personnnes suivantes:
- 05 FORQUIGNON Jean qui ont chacun une date de naissance correcte et différente qui vont de 1739 à 1820
Bonjour,
Comme le note Christian, il suffit qu'il y ait un FORQUIGNON Jean qui n'ait pas suffisamment de précisions dans les dates et lieux de naissance et décès, pour qu'il puisse être doublon de chacun des autres FORQUIGNON Jean. De ce fait tous ces autres apparaissent dans la liste, sans pour celà être doublons entre eux.
Pour répondre à Christian à sa question concernant les fourchettes sur les dates, elle dépend des tokens utilisés et de la précision de la date (exacte, au mois près, à l'année près).
Pour chaque date formulée il est déduit une date au plus tôt APT et une date au plus tard APD. Ce sont ces limites de dates qui sont ensuites comparées entre individus pour trouver des doublons possibles (en plus des autres paramètres sur le sexe, le nom, le ou les prénoms, les lieux de naissance et décès et dans cette version le coefficient de parenté).
Si la date est exacte "1 janvier 1900", la fourchette est nulle (les dates au plus tôt et au plus tard sont identiques à la date exacte)
Si "janvier 1900", APT=1/1/1900, APD=APT+31 jours
Si "1900", APT=1/1/1900, APD=APT+366 jours
Si "cal ou est ou vers 1/1/1900", APT=1/1/1900 -31j, APD=1/1/1900 +31j (+/- 1 mois)
Si "cal ou est ou vers janvier 1900", APT=1/1/1900 -183j, APD=1/1/1900+215j (+/-6 mois)
Si "cal 1900", APT=1/1/1900-1000j, APD=1/1/1900+1400j (+/-3 ans)
Si "est ou vers 1900", APT=1/1/1900-4000j, APD=1/1/1900+4400j (+/-11 ans)
Si "entre 1/1/1900 et 1/1/2000" ( ou "de xxx à xxx", ou "avant xxx après xxx"), APT=1/1/900, APD=1/1/2000
Si "entre 1/1900 et 1/2000", APT=1/1/1900, APD=1/1/2000+31j
Si "entre 1900 et 2000", APT=1/1/1900, APD=1/1/2000+366j
Si "de xxx" ou "après xxx", APT= j/m/a ou 1/m/a ou 1/1/a, APD=APT+10000j (27 ans ~ une génération)
Si "à xxx" ou "avant xxx", APD=j/m/a ou 1/m/a+31j ou 1/1/a+366j, APT=j/m/a-10000j ou 1/m/a-10000j ou 1/1/a-10000j
Bien sûr certaines valeurs sont arbitraires, mais je l'espère assez logiques.
A+
André
PS: ta FRANCHOMME Marie Anne Joseph sans renseignements doit être doublon avec chacune des 3 autres prises individuellement car il n'est pas trouvé de parenté avec chacune. L'algorythme ignore que les parents sont différents; ce serait un filtre à ajouter, à condition de vérifier que les parents ne sont pas eux-même des doublons (à étudier car pas simple à programmer...).
Pour les cas où l'orthographe est différente, je ne vois pas de possibilité de reconnaissance si ce n'est la phonétique (il faut bien nous laisser quelque chose à faire... ). Mais s'il y a plusieurs noms dans le même champ, il n'y a qu'en les étudiant un à un qu'on peut trouver une solution. J'utilise souvent le surnom pour noter le nom utilisé à l'époque, gardant le champ Nom pour identifier le patronyme de toute la lignée. Mais pour résoudre ce problème, il faudrait pouvoir saisir plusieurs noms pour le même individu, dans une table séparée.