Auteur Sujet: Temps import GEDCOM et gestion des doublons  (Lu 9920 fois)

plus minus reset

0 Membres et 1 Invité sur ce sujet

Hors ligne bhochedez

  • Débutant
  • *
  • Messages: 7
Temps import GEDCOM et gestion des doublons
« le: 21 Octobre 2007 à 18:01:40 »
Bonjour,

Je viens d'acquérir la dernière version d'Ancestrologie avec licence et ne suis pas très satisfait pour l'instant.

Mon PC a tourné 2 H 30 pour importer un fichier GEDCOM de 65.000 individus puis est resté figé sur import terminé à 100%. Il m'a fallu redémarrer le système et j'ai constaté ensuite que le nombre d'individus présents dans la base était correct. 

Avec une ancienne version il me fallait entre 20 et 30 minutes sur le même PC.

Lors du contrôle de doublons, j'obtiens une liste interminable alors que les personnes ne figurent qu'une fois.

Merci pour vos explications, car dans l'immédiat je renonce à utiliser  ce logiciel.

Bruno Hochedez

 
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #1 le: 23 Octobre 2007 à 15:12:25 »
Bonjour

je t ai demandé hier de bien vouloir me transmettre ton fichier gedcom, pour tester et voir ces pb de lenteurs

suis toujours en attente
PCM
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #2 le: 23 Octobre 2007 à 21:07:48 »
Re

tu viens de me répondre par mail que pour des raisons de confidentialité tu ne peux m'envoyer ton gedcom
la ca va etre dur de faire des tests

d'autre part, tu dis ceci
Citer
Bref, je vais en rester là sans poursuivre une discussion où chacun veut
avoir raison et ne poserait plus aucune question sur le forum.

J'ai beaucoup de respect pour ceux qui mettent à la disposition des
généalogistes certains outils, le plus souvent de façon bénévole, mais dès
lors où le produit est soumis à licence payante, la critique doit être
admise et examinée.

J'ai toujours écouté et examiné toutes critiques ou demandes


Aussi si qq un à un gedcom de 65000 indis ou plus, peux t il me l envoyer pour faire des tests de perf

Merci
PCM
 

Hors ligne Charlet

Temps import GEDCOM et gestion des doublons
« Réponse #3 le: 24 Octobre 2007 à 07:35:42 »
Philippe,
Sous ce lien un gedcom du Sud de la région des Weppes (j'avais donné ce lien dans la rubrique recherches) en 2005 il y avait plus de 50000 individus. Je ne sais si celui ci à été mis à jour.
http://www.deleplanque.org/download/lorg.zip
Cela pourra peut être t'aider pour les tests
Cordialement Roger
 

Hors ligne Facon

Temps import GEDCOM et gestion des doublons
« Réponse #4 le: 24 Octobre 2007 à 10:55:47 »
Bonjour Roger, bonjour Philippe,
Je connaissais ce gedcom de B.Deleplanque mais il était passé aux oubliettes.
J'ai téléchargé à nouveau ce fichier afin de l'importer dans une base Ancestrologie. Pour mémoire j'ai un PC très moyen, P4, 2,6 Ghz avec le point faible de 512 Mo RAM.
J'ai procédé à l'opération une première fois, la fenêtre de fin de chargement a indiqué une durée d'import de 16'23"". J'ai répété l'opération une seconde fois après avoir vidé la base. J'ai lancé l'import et je suis allé faire autre chose.
A mon retour, le chargement était terminé et la même fenêtre indiquait 11'28".

J'en suis resté là et je suis venu à la conclusion que mon PC avait un meilleur comportement quand je n'étais pas là.  :roll:  J'ai compris ce qui me reste à faire.

Le gedcom Lorg créé avec BASGEN contient 43383 individus, 13924 unions, 65972 événements individuels et 15704 événement familiaux.
A l'examen des lieux favoris j'ai découvert deux lieux anormaux, il y avait des dates dans le champ Ville.
L'opération s'est déroulée sans anomalie. La base Lorg (b5.044) fait un peu moins de 40 Mo après optimisation.

Si bhochedez souhaite des explications pour ce qui concerne les doublons, il n'y a aucun problème.
Christian
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #5 le: 24 Octobre 2007 à 11:46:35 »
Bonjour à tous

Je viens de downloader le fichier et ai fait l'import

j ai un portable toshiba core duo avec 2 gigas de memoire

import : 10min et 37 sec

j ai
49 733 indis
28054 hommes
21679 femmes

15720 unions
72912 evenements
1451 villes


donc sur mon pc plus puissant que celui de Christian le gain de temps n'est pas considérable

pour 50000 individus 10 min c est pas bcp, et donc pour 65 000 ca devrait mettre 3 à 4 minutes de plus

on est loin des 2h30

Merci de vos test
PCM
 

Hors ligne Facon

Temps import GEDCOM et gestion des doublons
« Réponse #6 le: 24 Octobre 2007 à 12:27:19 »
Bonjour,
J'ai vérifié et je confirme les indications de Philippe pour ce qui concerne le contenu du gedcom. Je ne sais pas où je suis allé chercher les valeurs indiquées dans mon message.
Désolé
Christian
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #7 le: 24 Octobre 2007 à 14:27:14 »
Christian

y a quand meme un petit pb

fait la manip suivante
par de ta base vide
importe le gros gedcom
puis reimporte le, en demandant d ecraser le dossier

dis moi combien de temps ca prends

Mais prends d'abord la beta à l'endroit habituel
PCM
 

Hors ligne Roger 1

  • AncestroExpert
  • *****
  • Messages: 627
Temps import GEDCOM et gestion des doublons
« Réponse #8 le: 24 Octobre 2007 à 17:24:49 »
Bonsoir,
V763 B5.044
Pour un gedcom de 74896 personnes: Export : 15m 32s , Import : 22 m 39 s
A+
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #9 le: 24 Octobre 2007 à 17:30:12 »
Roger

maintenant avec cette meme base, importe a nouveau le meme fichier en demandant d ecraser le dossier

et dis nous les temps

merci
PCM
 

Hors ligne bhochedez

  • Débutant
  • *
  • Messages: 7
Temps import GEDCOM et gestion des doublons
« Réponse #10 le: 24 Octobre 2007 à 18:48:10 »
Bonsoir Philippe,

Je viens de faire un nouvel essai, montre en main en espérant que les indications ci-dessous pourront être utiles.

Dans la fenêtre importation GEDCOM je n’ai coché aucune des cases, sauf «  Ecraser le contenu du dossier courant »

Détail du fichier GEDCOM

65336 individus
24187 unions
1349 lieux
4387 noms
24781 familles

Temps travail avec l’icône poubelle : 10 minutes
Temps import jusque 99 % : 14 minutes

Soit au total 24 minutes, donc jusque là rien d’anormal.

Ensuite de 99 % au message de fin d’import : 1 H 10 minutes

Durée totale pour un simple import sans aucune autre opération 1 H 34 minutes.

Que dire d’autre, sinon attendre.

Bruno Hochedez.

 
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #11 le: 24 Octobre 2007 à 18:53:42 »
Bonsoir Bruno

J'ai je pense trouver une annomalie lors de l import, mais cette annomalie ne surviens que si tu as deja bcp de données dans ta base, car la rpocedure qui purge le dossier prends bcp de temps

Donc ce que tu pourrais essayer de faire c est de partir d'une base vierge et dy importer ton gedccom, car comme tu peux le voir Roger pour ses 75000 indis a mis 22 min

moi le plus gros gedcom que j ai fait 50 000 indis

A++
PCM
 

Hors ligne Roger 1

  • AncestroExpert
  • *****
  • Messages: 627
Temps import GEDCOM et gestion des doublons
« Réponse #12 le: 24 Octobre 2007 à 20:11:23 »
Les 22 minutes c'est en rechargeant le gedcom et en écrasant l'ancien.Sans optimisation, j'avais un export en 16 minutes 20 est un import en 26 minutes 27.
Après optimisation les temps donnés plus haut (15m32 et 22 m 39).
Pour l'import, il y a un temps de latence relativement long entre la comptabilisation des individus et le démarrage du décompte en %, ainsi qu'a la fin entre 99 et 100%.
Est-ce que la base après l'import en 2h 30 a été optimisée avant de réimporter le gedcom.
Il me semble avoir le souvenir que par le passé j'avais eu un délai très long sur l'import d'un gros gedcom, délai réduit après optimisation.
A+
 

Hors ligne Ancestrologie

  • AncestroGrandMaitre
  • *******
  • Messages: 5 083
  • Remercié: 3 fois
    • Ancestrologie
  • Programme: 1995
  • Base: 5.130
  • Système: Windows 8
Temps import GEDCOM et gestion des doublons
« Réponse #13 le: 24 Octobre 2007 à 20:53:40 »
Une chose importante à faire apres chaque import gedcom

UNE OPTIMISATION de la BDD

il faut savoir qu'une BDD n'a pas du tout le meme comportement que des fichiers datas qu'utilisent d'autres programmes de généalogie

ex

une base avec 100 indis va faire (chiffres pas du tout reels)
2 megas

tu importes 50 000 indis
ta base va faire 42 megas

tu vide ta base de tous tes indis, pour n'avoir que 0 indis
Ta base fera toujours 42 megas

Les BDD ne rendent pas automatiquement l'espace vide
C est pour ca qu il faut passer pas l'optimisation

toutes les bdd ont ce genre de comportement et c'est normal

On fait aussi l'optimisation si on voit que les perfs se dégradent
« Modifié: 24 Octobre 2007 à 20:57:02 par Philippe Cazaux-Moutou »
PCM
 

Hors ligne DDdeBerdeux

Temps import GEDCOM et gestion des doublons
« Réponse #14 le: 25 Octobre 2007 à 00:12:53 »
Bonsoir,
AMD3500, RAM: 1Go, HD: 160Go SATA XP pro, Firebird serveur 2.0.3

Import du ged de 49733 indis en 9mn46s (à 99% au bout de 5mn) en partant de la dernière ancestrovide5044.bdd.
Temps pour vider le dossier: 47s. (à ajouter dans le cas du remplacement du dossier).

Import du ged à Roger de 74896indis en 21mn34s (à 99% au bout de 13mn).
74896 individus - 37489 unions - 88438 ev_ind - 25696 ev_fam - pas d'adresses - 3863 patronymes.

A+
André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne Facon

Temps import GEDCOM et gestion des doublons
« Réponse #15 le: 25 Octobre 2007 à 13:54:20 »
Bonjour,
En définitive, il serait intéressant que Bruno (Hochedez) fasse le même exercice en important le même gedcom afin de comparer des choses comparables.
Ce qui n'est pas dit dans l'histoire, c'est l'origine logiciel) du gedcom qui n'en finit pas de s'importer ainsi que son contenu (notes, adresses, ....).
D'un autre côté je comprends que la durée de l'import de son gedcom soit un tantinet excessive.

A l'instar de Philippe, j'ai de nouveau importé le gedcom Lorg en venant écraser celui qui était déjà présent dans le dossier. Pour mémoire le premier import vers une base vide avait pris un peu plus de 16 minutes. Une opération analogue avait pris alors entre 11 et 12 minutes (en mon absence  :grin: ) enfin l'import du même gedcom sur le premier chargement accompagné d'un écrasement a duré environ 13 minutes. Tout ceci reste raisonnable et sans commune mesure avec les temps réclamés pour son gedcom.
Christian
 

Hors ligne Facon

Temps import GEDCOM et gestion des doublons
« Réponse #16 le: 25 Octobre 2007 à 14:06:28 »
Bonjour,
J'aborde cette fois-ci le second volet du message initial: les doublons.
Par le passé, la recherche des doublons se traduisait presque inexorablement par le message Bravo il n'y a pas de doublon dans vos données.
C'était en quelque sorte du trompe c....n car tout est lié à la nature de l'algorithme qui pratique la recherche des doublons.
Dans la version Ancestrologie en cours, la recherche de doublon se traduit le plus souvent par une liste interminable si la généalogie ou la base de données comporte beaucoup d'individus peu ou mal renseignés. Au moment de la mise en place de la nouvelle approche, nous parlions plus de doublons potentiels que de doublons.

En effet, un DUPONT Jean sans plus d'information a toutes les chances d'être en doublon avec tous les autres DUPONT Jean parfaitement et clairement renseignés.
L'utilisation des mots clefs dans les dates prend également toute son importance. La détermination des dates au plus tôt ou des dates au plus tard varie beaucoup selon la précision des dates. Une date "calculée" et plus précise qu'une date "vers" ou "estimée".

Quelques indications sont reprises ici:
http://www.ancestrologie.org/forum/index.php?topic=6818.60

Le sujet avait emballé le forum lors des mises au point principalement parceque tout le monde pensait avoir une base fort pointue et déclarée sans doublon alors que la nouvelle approche faisait tomber tous les espoirs.  :wink:
Christian
 

Hors ligne DDdeBerdeux

Temps import GEDCOM et gestion des doublons
« Réponse #17 le: 25 Octobre 2007 à 22:37:59 »
Bonsoir,
Il serait intéressant que bhochedez nous dise s'il a beaucoup de médias dans sa base. A la fois en quantité et en taille.
Pour connaître la taille, il suffit de faire un export gedcom, en précisant "chemin relatif" pour exporter les médias. Celà crée un sous-répertoire de même nom que le fichier .ged, contenant une copie de toutes les images contenues dans la base, et dans le format où elles y sont stockées.
Sur mon ged "familial" de 3000 individus et 300 photos, importé en 50s, 30s sont passées uniquement pour importer les photos.
Ceci expliquerai peut-être la différence rencontrée entre l'import de son gedcom, et l'import des gedcom de 50000 et même 75000 individus, mais sans aucun média.
A+
André
Une application pleinement satisfaisante est toujours complétée par une mise à jour buggée. (Loi des Mises à Jour)
 

Hors ligne bhochedez

  • Débutant
  • *
  • Messages: 7
Temps import GEDCOM et gestion des doublons
« Réponse #18 le: 26 Octobre 2007 à 16:43:56 »
Bonjour Philippe,

Pour réponse aussi à Christian et André.

Détail du fichier GEDCOM généré par Heredis 9.3

65342 individus
24191 unions
1350 lieux
4388 noms
24785 familles

Voici ce que je viens de faire :

Désinstallation complète d’Ancestrologie.

Téléchargement de la v763 – Base v5.044, installation et réglage des paramètres. Rien d’activé dans réseau.

Suppression des données BDD de l’installation et optimisation. Taille de la BDD sans fiche 13.380 Ko.

Génération d’un fichier GEDCOM au format Ansel au lieu de Ansi pour compatibilité avec les options proposées par Ancestrolgie.

Les cases export Notes – Evénements mineurs – Témoins et liens – Adresses ont été décochées. Il n’y a aucun Média.

Le GEDCOM ainsi obtenu fait 17.115 Ko au lieu de 17.188 Ko avec les mêmes cases cochées. La différence n’est pas énorme.

Import de ce GEDCOM par ajout (Puisque la base est vide) en ne cochant que la case importer les événements.

Taille de la BDD après import 68.240 Ko et 56.432 après optimisation.

Informations du dossier courant :

Individus 65342
Hommes 32965
Femmes 32377
Sexe indéterminé 0
Unions 24191
Evénements individus 73404
Evénements Familles 15933
Adresses 0
Patronymes 4388
Images/Documents 0
Pays 22
Régions 46
Départements 112
Villes 1349

Au final, je n’ai pas progressé d’un pouce, 14 minutes jusque 99 % puis 1 H 10 jusqu’au message de fin.

Au total 1 H 24 m 34 s

A titre indicatif j’ai fait hier un essai sans rien cocher dans la fenêtre import, l’opération a duré 23 minutes, mais bien sur je n’avais ni dates ni lieux.

En ce qui concerne les doublons, j’avoue ne connaître aucun logiciel qui exécute cette tache de façon pointue et plus le fichier est important plus la liste de doublons risque d’être longue.

Je crois avoir tout essayé et me demande pourquoi avec une ancienne version que j’ai malheureusement supprimée, le temps de traitement était inférieur à 30 minutes.

Au plaisir.

Bruno Hochedez

PS : A l’occasion je vais faire un test avec ce même fichier mais avec un GEDCOM généré par BASGEN98

 




 

Hors ligne Facon

Temps import GEDCOM et gestion des doublons
« Réponse #19 le: 27 Octobre 2007 à 00:05:54 »
Bonsoir,
Pour tenter d'avancer un peu plus dans cet exercice d'import gedcom, j'ai procédé à deux essais, toujours au travers du gedcom lorg.ged pour le quel il n'est plus nécessaire de rappeler le contenu. Pour mémoire, ce gedcom fait un peu plus de 11 Mo.

Ces essais ont été conduits sur une machine d'essai de faible performance: PIII, 1 GHz, 256 Mo SDRAM. C'est une machine sur laquelle l'application Ancestrologie a été installée et désinstallée des dizaines de fois mais elle est bien suffisante pour commencer à y voir quelquechose.

Les deux essais ont consisté à importer le gedcom lorg.ged sur Ancestrologie v763 b5.044 (base vide) et sur Hérédis 9.2 en version évaluation.

Hérédis 9.2
L'import a été réalisé au travers de la commande Ouvrir, Gedcom, dans la configuration standard, le seul réglage en cours de route a été de faire prendre les indications Fr (France) dans la catégorie Pays.
Du début de l'opération à la fin du chargement et finalement l'ouverture de la généalogie Lorg.hr9, il s'est écoulé en tout 1h15min. Le rapport Lorg.log indique quant à lui un temps de conversion de 54min58sec.

Ancestrologie v763
L'import a été réalisé dans les conditions standards avec la même remarque que ci-dessus en ce qui concerne le Pays.
Du début de l'opération à la fin de l'import il s'est écoulé 38min54sec. Il a fallu quelques secondes de plus pour voir apparaître la généalogie.

 :arrow: Le chargement sur Ancestrologie a pris approximativement 50% du temps nécessaire pour Hérédis.

Dans des conditions similaires, l'import de ce gedcom dans Ancestrologie sur une machine un peu plus puissante (2.6 GHz, 512 Mo RAM) avait pris entre 12 et 16 minutes.
On voit bien l'impact des performances du PC

Je compte faire un export gedcom depuis Hérédis pour pouvoir importer ce gedcom dans Ancestrologie.
Dormez bien.  :wink:
Christian