forum Ancestrologie

Ancestrologie - Le Programme => Ancestrologie - Rapports d'anomalies => Discussion démarrée par: bhochedez le 21 Octobre 2007 à 18:01:40

Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 21 Octobre 2007 à 18:01:40
Bonjour,

Je viens d'acquérir la dernière version d'Ancestrologie avec licence et ne suis pas très satisfait pour l'instant.

Mon PC a tourné 2 H 30 pour importer un fichier GEDCOM de 65.000 individus puis est resté figé sur import terminé à 100%. Il m'a fallu redémarrer le système et j'ai constaté ensuite que le nombre d'individus présents dans la base était correct. 

Avec une ancienne version il me fallait entre 20 et 30 minutes sur le même PC.

Lors du contrôle de doublons, j'obtiens une liste interminable alors que les personnes ne figurent qu'une fois.

Merci pour vos explications, car dans l'immédiat je renonce à utiliser  ce logiciel.

Bruno Hochedez

 
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 23 Octobre 2007 à 15:12:25
Bonjour

je t ai demandé hier de bien vouloir me transmettre ton fichier gedcom, pour tester et voir ces pb de lenteurs

suis toujours en attente
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 23 Octobre 2007 à 21:07:48
Re

tu viens de me répondre par mail que pour des raisons de confidentialité tu ne peux m'envoyer ton gedcom
la ca va etre dur de faire des tests

d'autre part, tu dis ceci
Citer
Bref, je vais en rester là sans poursuivre une discussion où chacun veut
avoir raison et ne poserait plus aucune question sur le forum.

J'ai beaucoup de respect pour ceux qui mettent à la disposition des
généalogistes certains outils, le plus souvent de façon bénévole, mais dès
lors où le produit est soumis à licence payante, la critique doit être
admise et examinée.

J'ai toujours écouté et examiné toutes critiques ou demandes


Aussi si qq un à un gedcom de 65000 indis ou plus, peux t il me l envoyer pour faire des tests de perf

Merci
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Charlet le 24 Octobre 2007 à 07:35:42
Philippe,
Sous ce lien un gedcom du Sud de la région des Weppes (j'avais donné ce lien dans la rubrique recherches) en 2005 il y avait plus de 50000 individus. Je ne sais si celui ci à été mis à jour.
http://www.deleplanque.org/download/lorg.zip
Cela pourra peut être t'aider pour les tests
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Facon le 24 Octobre 2007 à 10:55:47
Bonjour Roger, bonjour Philippe,
Je connaissais ce gedcom de B.Deleplanque mais il était passé aux oubliettes.
J'ai téléchargé à nouveau ce fichier afin de l'importer dans une base Ancestrologie. Pour mémoire j'ai un PC très moyen, P4, 2,6 Ghz avec le point faible de 512 Mo RAM.
J'ai procédé à l'opération une première fois, la fenêtre de fin de chargement a indiqué une durée d'import de 16'23"". J'ai répété l'opération une seconde fois après avoir vidé la base. J'ai lancé l'import et je suis allé faire autre chose.
A mon retour, le chargement était terminé et la même fenêtre indiquait 11'28".

J'en suis resté là et je suis venu à la conclusion que mon PC avait un meilleur comportement quand je n'étais pas là.  :roll:  J'ai compris ce qui me reste à faire.

Le gedcom Lorg créé avec BASGEN contient 43383 individus, 13924 unions, 65972 événements individuels et 15704 événement familiaux.
A l'examen des lieux favoris j'ai découvert deux lieux anormaux, il y avait des dates dans le champ Ville.
L'opération s'est déroulée sans anomalie. La base Lorg (b5.044) fait un peu moins de 40 Mo après optimisation.

Si bhochedez souhaite des explications pour ce qui concerne les doublons, il n'y a aucun problème.
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 24 Octobre 2007 à 11:46:35
Bonjour à tous

Je viens de downloader le fichier et ai fait l'import

j ai un portable toshiba core duo avec 2 gigas de memoire

import : 10min et 37 sec

j ai
49 733 indis
28054 hommes
21679 femmes

15720 unions
72912 evenements
1451 villes


donc sur mon pc plus puissant que celui de Christian le gain de temps n'est pas considérable

pour 50000 individus 10 min c est pas bcp, et donc pour 65 000 ca devrait mettre 3 à 4 minutes de plus

on est loin des 2h30

Merci de vos test
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Facon le 24 Octobre 2007 à 12:27:19
Bonjour,
J'ai vérifié et je confirme les indications de Philippe pour ce qui concerne le contenu du gedcom. Je ne sais pas où je suis allé chercher les valeurs indiquées dans mon message.
Désolé
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 24 Octobre 2007 à 14:27:14
Christian

y a quand meme un petit pb

fait la manip suivante
par de ta base vide
importe le gros gedcom
puis reimporte le, en demandant d ecraser le dossier

dis moi combien de temps ca prends

Mais prends d'abord la beta à l'endroit habituel
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Roger 1 le 24 Octobre 2007 à 17:24:49
Bonsoir,
V763 B5.044
Pour un gedcom de 74896 personnes: Export : 15m 32s , Import : 22 m 39 s
A+
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 24 Octobre 2007 à 17:30:12
Roger

maintenant avec cette meme base, importe a nouveau le meme fichier en demandant d ecraser le dossier

et dis nous les temps

merci
Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 24 Octobre 2007 à 18:48:10
Bonsoir Philippe,

Je viens de faire un nouvel essai, montre en main en espérant que les indications ci-dessous pourront être utiles.

Dans la fenêtre importation GEDCOM je n’ai coché aucune des cases, sauf «  Ecraser le contenu du dossier courant »

Détail du fichier GEDCOM

65336 individus
24187 unions
1349 lieux
4387 noms
24781 familles

Temps travail avec l’icône poubelle : 10 minutes
Temps import jusque 99 % : 14 minutes

Soit au total 24 minutes, donc jusque là rien d’anormal.

Ensuite de 99 % au message de fin d’import : 1 H 10 minutes

Durée totale pour un simple import sans aucune autre opération 1 H 34 minutes.

Que dire d’autre, sinon attendre.

Bruno Hochedez.

 
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 24 Octobre 2007 à 18:53:42
Bonsoir Bruno

J'ai je pense trouver une annomalie lors de l import, mais cette annomalie ne surviens que si tu as deja bcp de données dans ta base, car la rpocedure qui purge le dossier prends bcp de temps

Donc ce que tu pourrais essayer de faire c est de partir d'une base vierge et dy importer ton gedccom, car comme tu peux le voir Roger pour ses 75000 indis a mis 22 min

moi le plus gros gedcom que j ai fait 50 000 indis

A++
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Roger 1 le 24 Octobre 2007 à 20:11:23
Les 22 minutes c'est en rechargeant le gedcom et en écrasant l'ancien.Sans optimisation, j'avais un export en 16 minutes 20 est un import en 26 minutes 27.
Après optimisation les temps donnés plus haut (15m32 et 22 m 39).
Pour l'import, il y a un temps de latence relativement long entre la comptabilisation des individus et le démarrage du décompte en %, ainsi qu'a la fin entre 99 et 100%.
Est-ce que la base après l'import en 2h 30 a été optimisée avant de réimporter le gedcom.
Il me semble avoir le souvenir que par le passé j'avais eu un délai très long sur l'import d'un gros gedcom, délai réduit après optimisation.
A+
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 24 Octobre 2007 à 20:53:40
Une chose importante à faire apres chaque import gedcom

UNE OPTIMISATION de la BDD

il faut savoir qu'une BDD n'a pas du tout le meme comportement que des fichiers datas qu'utilisent d'autres programmes de généalogie

ex

une base avec 100 indis va faire (chiffres pas du tout reels)
2 megas

tu importes 50 000 indis
ta base va faire 42 megas

tu vide ta base de tous tes indis, pour n'avoir que 0 indis
Ta base fera toujours 42 megas

Les BDD ne rendent pas automatiquement l'espace vide
C est pour ca qu il faut passer pas l'optimisation

toutes les bdd ont ce genre de comportement et c'est normal

On fait aussi l'optimisation si on voit que les perfs se dégradent
Titre: Temps import GEDCOM et gestion des doublons
Posté par: DDdeBerdeux le 25 Octobre 2007 à 00:12:53
Bonsoir,
AMD3500, RAM: 1Go, HD: 160Go SATA XP pro, Firebird serveur 2.0.3

Import du ged de 49733 indis en 9mn46s (à 99% au bout de 5mn) en partant de la dernière ancestrovide5044.bdd.
Temps pour vider le dossier: 47s. (à ajouter dans le cas du remplacement du dossier).

Import du ged à Roger de 74896indis en 21mn34s (à 99% au bout de 13mn).
74896 individus - 37489 unions - 88438 ev_ind - 25696 ev_fam - pas d'adresses - 3863 patronymes.

A+
André
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Facon le 25 Octobre 2007 à 13:54:20
Bonjour,
En définitive, il serait intéressant que Bruno (Hochedez) fasse le même exercice en important le même gedcom afin de comparer des choses comparables.
Ce qui n'est pas dit dans l'histoire, c'est l'origine logiciel) du gedcom qui n'en finit pas de s'importer ainsi que son contenu (notes, adresses, ....).
D'un autre côté je comprends que la durée de l'import de son gedcom soit un tantinet excessive.

A l'instar de Philippe, j'ai de nouveau importé le gedcom Lorg en venant écraser celui qui était déjà présent dans le dossier. Pour mémoire le premier import vers une base vide avait pris un peu plus de 16 minutes. Une opération analogue avait pris alors entre 11 et 12 minutes (en mon absence  :grin: ) enfin l'import du même gedcom sur le premier chargement accompagné d'un écrasement a duré environ 13 minutes. Tout ceci reste raisonnable et sans commune mesure avec les temps réclamés pour son gedcom.
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Facon le 25 Octobre 2007 à 14:06:28
Bonjour,
J'aborde cette fois-ci le second volet du message initial: les doublons.
Par le passé, la recherche des doublons se traduisait presque inexorablement par le message Bravo il n'y a pas de doublon dans vos données.
C'était en quelque sorte du trompe c....n car tout est lié à la nature de l'algorithme qui pratique la recherche des doublons.
Dans la version Ancestrologie en cours, la recherche de doublon se traduit le plus souvent par une liste interminable si la généalogie ou la base de données comporte beaucoup d'individus peu ou mal renseignés. Au moment de la mise en place de la nouvelle approche, nous parlions plus de doublons potentiels que de doublons.

En effet, un DUPONT Jean sans plus d'information a toutes les chances d'être en doublon avec tous les autres DUPONT Jean parfaitement et clairement renseignés.
L'utilisation des mots clefs dans les dates prend également toute son importance. La détermination des dates au plus tôt ou des dates au plus tard varie beaucoup selon la précision des dates. Une date "calculée" et plus précise qu'une date "vers" ou "estimée".

Quelques indications sont reprises ici:
http://www.ancestrologie.org/forum/index.php?topic=6818.60

Le sujet avait emballé le forum lors des mises au point principalement parceque tout le monde pensait avoir une base fort pointue et déclarée sans doublon alors que la nouvelle approche faisait tomber tous les espoirs.  :wink:
Titre: Temps import GEDCOM et gestion des doublons
Posté par: DDdeBerdeux le 25 Octobre 2007 à 22:37:59
Bonsoir,
Il serait intéressant que bhochedez nous dise s'il a beaucoup de médias dans sa base. A la fois en quantité et en taille.
Pour connaître la taille, il suffit de faire un export gedcom, en précisant "chemin relatif" pour exporter les médias. Celà crée un sous-répertoire de même nom que le fichier .ged, contenant une copie de toutes les images contenues dans la base, et dans le format où elles y sont stockées.
Sur mon ged "familial" de 3000 individus et 300 photos, importé en 50s, 30s sont passées uniquement pour importer les photos.
Ceci expliquerai peut-être la différence rencontrée entre l'import de son gedcom, et l'import des gedcom de 50000 et même 75000 individus, mais sans aucun média.
A+
André
Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 26 Octobre 2007 à 16:43:56
Bonjour Philippe,

Pour réponse aussi à Christian et André.

Détail du fichier GEDCOM généré par Heredis 9.3

65342 individus
24191 unions
1350 lieux
4388 noms
24785 familles

Voici ce que je viens de faire :

Désinstallation complète d’Ancestrologie.

Téléchargement de la v763 – Base v5.044, installation et réglage des paramètres. Rien d’activé dans réseau.

Suppression des données BDD de l’installation et optimisation. Taille de la BDD sans fiche 13.380 Ko.

Génération d’un fichier GEDCOM au format Ansel au lieu de Ansi pour compatibilité avec les options proposées par Ancestrolgie.

Les cases export Notes – Evénements mineurs – Témoins et liens – Adresses ont été décochées. Il n’y a aucun Média.

Le GEDCOM ainsi obtenu fait 17.115 Ko au lieu de 17.188 Ko avec les mêmes cases cochées. La différence n’est pas énorme.

Import de ce GEDCOM par ajout (Puisque la base est vide) en ne cochant que la case importer les événements.

Taille de la BDD après import 68.240 Ko et 56.432 après optimisation.

Informations du dossier courant :

Individus 65342
Hommes 32965
Femmes 32377
Sexe indéterminé 0
Unions 24191
Evénements individus 73404
Evénements Familles 15933
Adresses 0
Patronymes 4388
Images/Documents 0
Pays 22
Régions 46
Départements 112
Villes 1349

Au final, je n’ai pas progressé d’un pouce, 14 minutes jusque 99 % puis 1 H 10 jusqu’au message de fin.

Au total 1 H 24 m 34 s

A titre indicatif j’ai fait hier un essai sans rien cocher dans la fenêtre import, l’opération a duré 23 minutes, mais bien sur je n’avais ni dates ni lieux.

En ce qui concerne les doublons, j’avoue ne connaître aucun logiciel qui exécute cette tache de façon pointue et plus le fichier est important plus la liste de doublons risque d’être longue.

Je crois avoir tout essayé et me demande pourquoi avec une ancienne version que j’ai malheureusement supprimée, le temps de traitement était inférieur à 30 minutes.

Au plaisir.

Bruno Hochedez

PS : A l’occasion je vais faire un test avec ce même fichier mais avec un GEDCOM généré par BASGEN98

 




Titre: Temps import GEDCOM et gestion des doublons
Posté par: Facon le 27 Octobre 2007 à 00:05:54
Bonsoir,
Pour tenter d'avancer un peu plus dans cet exercice d'import gedcom, j'ai procédé à deux essais, toujours au travers du gedcom lorg.ged pour le quel il n'est plus nécessaire de rappeler le contenu. Pour mémoire, ce gedcom fait un peu plus de 11 Mo.

Ces essais ont été conduits sur une machine d'essai de faible performance: PIII, 1 GHz, 256 Mo SDRAM. C'est une machine sur laquelle l'application Ancestrologie a été installée et désinstallée des dizaines de fois mais elle est bien suffisante pour commencer à y voir quelquechose.

Les deux essais ont consisté à importer le gedcom lorg.ged sur Ancestrologie v763 b5.044 (base vide) et sur Hérédis 9.2 en version évaluation.

Hérédis 9.2
L'import a été réalisé au travers de la commande Ouvrir, Gedcom, dans la configuration standard, le seul réglage en cours de route a été de faire prendre les indications Fr (France) dans la catégorie Pays.
Du début de l'opération à la fin du chargement et finalement l'ouverture de la généalogie Lorg.hr9, il s'est écoulé en tout 1h15min. Le rapport Lorg.log indique quant à lui un temps de conversion de 54min58sec.

Ancestrologie v763
L'import a été réalisé dans les conditions standards avec la même remarque que ci-dessus en ce qui concerne le Pays.
Du début de l'opération à la fin de l'import il s'est écoulé 38min54sec. Il a fallu quelques secondes de plus pour voir apparaître la généalogie.

 :arrow: Le chargement sur Ancestrologie a pris approximativement 50% du temps nécessaire pour Hérédis.

Dans des conditions similaires, l'import de ce gedcom dans Ancestrologie sur une machine un peu plus puissante (2.6 GHz, 512 Mo RAM) avait pris entre 12 et 16 minutes.
On voit bien l'impact des performances du PC

Je compte faire un export gedcom depuis Hérédis pour pouvoir importer ce gedcom dans Ancestrologie.
Dormez bien.  :wink:
Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 27 Octobre 2007 à 16:25:48
Bonjour Christian,

Tous mes tests ont été effectués sous Windows XP Pro et IE7, processeur AMD Athlon XP 2600 + (1,92 GHz) et 512 Mo de SDRAM. Deux DD de 80 Go.

Il est vrai qu’un import sous Heredis peut être long mais il y a création de la base alors que pour Ancestrologie elle est déjà pré formatée.

J’ai fait l’impasse sur Heredis et créé deux GEDCOM avec deux logiciels différents, mais cela n’a rien changé au temps d’import.

BASGEN98 et VISUGED fonctionnent aussi sur le principe de la BDD.

Dans le premier cas un import de 65.316 individus, plus contrôle de cohérence et compactage a duré 6 minutes et 3 pour la création de pages Web (1196 fichiers)

Dans le second cas avec le même GEDCOM, 8 minutes.

La question à laquelle personne n’a répondu à ce jour est de savoir pourquoi avec une version antérieure d’Ancestrologie et sur la même machine le temps d’import total était inférieur à 30 minutes.

Seul le concepteur peut dire ce qui a changé entre les différentes versions, car visiblement c’est au niveau de la gestion de la BDD qu’il y a un problème lorsque qu’on arrive à 99 % en 14 minutes puis à la fin 1 H 10 plus tard.

Voici donc matière à faire fonctionner les neurones.

Bon dimanche.

Bruno


 
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Ancestrologie le 27 Octobre 2007 à 17:05:38
Citer
BDD qu’il y a un problème lorsque qu’on arrive à 99 % en 14 minutes puis à la fin 1 H 10 plus tard.

Non il n'y a pas de probleme, c'est la gestion des medias qui est longue, et que est différente des verion précédentes car les medias sont tous redimensionnés pour ne pas trop gonfler la base

Mais je vais essayer d'améliorer ca
Titre: Temps import GEDCOM et gestion des doublons
Posté par: DDdeBerdeux le 27 Octobre 2007 à 18:11:53
Oui mais:
Informations du dossier courant :

Images/Documents 0
Ce n'est donc pas l'importation des médias qui est la cause, il n'en a pas!
Quand la progression affiche 99% les insertions dans les tables suivantes se déroulent dans l'ordre:
individu, adresses_ind, multimedia, media_pointeurs, evenements_ind, sources_record, evenements_fam, t_union et t_associations.
Puis est exécutée (inutilement) PROC_AFTER_IMPORT.
Dans la version 763, il me semble que la progression affiche alors 100%.
Vient ensuite la mise à jour des médias, opération effectivement longue, quand il y a des médias.
Et pour finir la validation ou commit final.
Il serait intéressant que bhochedez nous donne la répartition du temps passé à 99% et à 100%.
A+
André
Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 27 Octobre 2007 à 19:39:56
Bonsoir André,

Effectivement, je n'ai aucun Média.

Pour l'import d'un fichier de 65.316 individus dans Ancestrologie, 14 minutes jusque 99 % puis ensuite 1 H 10 jusqu'au message de fin d'import.

Suite à de nombreux tests, j'ai constaté la chose suivante, après import dans un fichier vide, nous obtenons une taille de BDD qui se réduit de 25 à 30 % environ après optimisation.

Ce n'est bien sur qu'une hypothèse, mais n'y aurait-il pas des champs inutiles et vides générés lors de l'import initial.

Amicales salutations du Pas-de-Calais.

Bruno H.   
Titre: Temps import GEDCOM et gestion des doublons
Posté par: Facon le 27 Octobre 2007 à 20:15:29
Bonsoir Bruno,
Toute la question est de savoir si tu es parti d'une base vide ou d'une base vidée.

Toujours le gedcom Lorg: après importation dans une base vide (de fabrication), la base a une taille de 47216 Ko. Une optimisation ramène cette taille à 42204 Ko.

Comme l'a indiqué par ailleurs Philippe, une base de 40000 Ko vidée de son contenu, conserve sa taille. Un optimisation remettra tout en ordre.
De même l'import d'un gedcom dans un nouveau dossier d'une base peut se traduire après optimisation par une cure d'amaigrissement mais qui prendra en compte tous les dossiers.

Toutefois ton commentaire est intéressant et mérite d'être analysé.
Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 29 Octobre 2007 à 20:07:48

Bonsoir Christian,

J’entends par base vide, la BDD créée lors de l’installation de Ancestrologie, vidée des généalogies célèbres et optimisée.

Ce fichier a été sauvegardé sur un second disque dur et je peux ainsi l’utiliser autant de fois que je le souhaite sans autre manipulation que de remplacer la BDD en cours.

Lors du dernier test effectué, le gain en taille a été de 21 % après optimisation, c’est beaucoup et c’est pourquoi j’ai pensé à des champs qui seraient générés inutilement.

Je précise bien qu’à chaque test je suis reparti avec la base vide sauvegardée.

Bonne nuit.

Bruno H.

   
Titre: Temps import GEDCOM et gestion des doublons
Posté par: DDdeBerdeux le 04 Novembre 2007 à 22:01:55
Bonsoir,
Une question pour Bruno Hochedez.
Quelles sont les options qu'il a cochées qui doivent s'exécuter à la fin de l'importation?
Je pense en particulier au calcul de consanguinité. Sa durée peut varier dans des proportions très importantes selon que la base a été optimisée récemment ou non et selon le nombre de niveaux pris en compte pour le calcul. Sur ma base de 3000 individus, en prenant en compte 10 niveaux, il varie ainsi de 8s sur la base fraîchement optimisée, à plusieurs minutes. D'ailleurs Philippe va supprimer cette option du menu d'importation gedcom, car la base devrait être optimisée avant de lancer le calcul (depuis le menu Outils).
A+
André
Titre: Temps import GEDCOM et gestion des doublons
Posté par: bhochedez le 05 Novembre 2007 à 00:05:05
Bonjour André,

J'ai déjà anticipé sur ce que souhaite faire Philippe, aussi je n'ai jamais lancé le calcul de consanguinité à la fin de l'import. Il est en effet souhaitable de faire d'abord l'optimisation.

Cette question ne résoud néanmoins pas le temps important de l'import.

Au plaisir.

Bruno Hochedez