PDA

Arkistonäkymässä ei tällä hetkellä lainaus erotu varsinaisesta viestistä. Suosittelemme että vilkaisette ns. täydellistä versiota: : Mitä gedcom-tiedoston tarkistusohjelmia käytätte?


PekkaV
12.09.14, 15:15
Suomi-tietokantaan tullaan todennäköisesti ottamaan tutkijoiden aineistoja gedcom-muodossa. Aineistojen jatkokäsittelyn kannalta on tärkeää, että aineistot ovat mahdollisimman pitkälle gedcom-standardin mukaisia ja sisällöltään ristiriidattomia.

Taapeli-projekti toivoo saavansa jäseniltä tietoa, mitä työkaluja käytätte itse gedcom-tiedostojen tarkastamiseen ja mitkä ovat kokemuksenne niistä. Kerrotteko myös, mitä sukututkimusohjelmaa käytätte. Ohjelmissa on suuria eroja mm. siinä, kuinka tarkkoja ne ovat gedcom-standardin noudattamisessa.

Taapelin puolesta
Pekka Valta

Juha
12.09.14, 18:44
Olisko fiksua, jos näistä asioista tehtäisiin Suku Forumille sellainen gallup-kysely?

Forumin ohjelmisto mahdollistaa sellaisen ja tulokset nähtäisiin prosentuaalisesti helpommin kuin yksittäisten viestien lukemisena. Luonnollisesti tuon gallupin lisäksi voidaan käydä tätä aloitettua keskustelua

Tämä nyt ihan lonkalta avuntarjouksena forumin yhdeltä modelta



Juha

tkh
13.09.14, 16:39
Taapeli-projekti toivoo saavansa jäseniltä tietoa, mitä työkaluja käytätte itse gedcom-tiedostojen tarkastamiseen ja mitkä ovat kokemuksenne niistä. Kerrotteko myös, mitä sukututkimusohjelmaa käytätte.

Itselläni käytössä tietojen käsittelyyn MyHeritagen Family Tree Builder ja gedcomin tarkistukseen loistavasti on toiminut Genelogica Grafica (http://www.genealogicagrafica.nl/index.htm) (vaikka ei olekaan puhtaasti Gedcomien käyttöön tarkoitettu).

PekkaV
13.09.14, 16:56
Annatko Tomi hieman lisätietoja. Mikä gedcom versio sinulla on kyseessä? Millaista huomautettavaa Genealogica Grafica löytää Family Tree Builderin tuottamasta gedcomin rakenteesta? Onko poikkeamia gedcom standardiin nähden?

tkh
13.09.14, 18:23
Annatko Tomi hieman lisätietoja. Mikä gedcom versio sinulla on kyseessä? Millaista huomautettavaa Genealogica Grafica löytää Family Tree Builderin tuottamasta gedcomin rakenteesta? Onko poikkeamia gedcom standardiin nähden?

Lähinnä olen törmännyt päivämäärien formatointihuomautuksiin (joita on tullut lähinnä kun olen ottanut FTB:n löytämistä vastineista jaetuista lähteistä). Muutaman kerran FTB tehnyt virheen sukupuolien käsittelyssä kun on ensin syöttänyt henkilön yhdellä sukupuolella linkittäen sen aiemmin olemassaolevaan henkilöön, sitten poistanut ko. lisätyn henkilön ja lisännyt ko. henkilön toisella sukupuolella (FTB luonut henkilön jostain syystä väärällä sukupuolella aineistoon vaikka näytti oikein).

Lisäksi GG huomauttaa hyvin mm. liian läheisistä lasten syntymäajoista, virheellisistä linkitytksistä gedcomissa henkilöiden välillä ja mm. henkilöistä joilla ei ole linkitystä muihin henkilöihin / linkki on puutteellinen päähaaraan nähden.

Family Tree Builder tuottaa GedCom 5.5-mukaista aineistoa UTF8-enkoodattuna. FTB tekee omien kokemusteni mukaan hyvin standardinmukaista tai ainakin "kelpoisaa" aineistoa vietyihin tiedostoihin.

Julle
13.09.14, 20:51
<Taapeli-projekti toivoo saavansa jäseniltä tietoa, mitä työkaluja käytätte itse gedcom-tiedostojen tarkastamiseen ja mitkä ovat kokemuksenne niistä. Kerrotteko myös, mitä sukututkimusohjelmaa käytätte. Ohjelmissa on suuria eroja mm. siinä, kuinka tarkkoja ne ovat gedcom-standardin noudattamisessa. >

Itse asiassa olen kokeillut paria "on-line validatoria", mutta todennut ne tarpeettomiksi. Koska käytän Brother´s Keeper -ohjelmaa, joka tekee GEDCOM 5.5 mukaista joko merkistöillä DOS, Windows ANSI, Ansel tai UTF-8 Lineage-linked muodossa, olen todennut tarkistusohjelman tarpeettomaksi. Itse BK:ssa on laatutarkastus, joka asettaa lapset aikajärjestykseen ja sopivuustarkistus, mikä tarkistaa vähimmäis- ja enimmäisasetuksilla isän ja äidin iän, aviopuolisoitten ikäeron ja kuolleitten iän, lapsien syntymiset isään ja äitiin nähden tms.

Yleensä heitän silloin tällöin koko tietokannan GRAMPSiin, jossa on vielä joitakin lisätarkistusominaisuuksia - mahdolisten tuplien havainnointi ja karkauspäivien havaitseminen. Ongelmana on yleensä päiväykset, koska kaikkiin tapahtumiin ei voi laittaa tarkkaa päiväystä, kuten 01.01.1801, vaan epämäärisesti 00.00.1801, koska vain vuosi tiedetään tai aikaväli 1801-1899. Näitä GEDCOMin validaatorit eivät tunnu ymmärtävän, vaikka muodollisesti ne itse asiassa ovat oikeanmuotoisia. Ei kaikki tapahdu päiväystasolla! BK:ssä on myös määrittelemätön/tuntermaton sukupuoli!

Kuitenkin kaikki on korjattava omaan tietokantaan, ennen kuin jakaa tai siirtää tietoa. GIGO eli "Roskaa sisään roskaa ulos"!

PekkaV
15.10.14, 14:55
Jos siirtelee tietoja saman sukuohjelman käyttäjien kesken, niin ongelmia ei juuri ole. Mitä nyt kullakin tutkijalla on omia vapaamielisiä tapojaan kirjata tietoja eri kenttiin.

Eri ohjelmien välisessä siirrossa tilanne on rakenteellisestikin todella vaikea, jos halutaan siirtää kaikki olennainen tieto. Tässä linkissä (http://www.bkwin.info/diverse/hva-er-gedcom/gyldige/ugyldige-koder.html) on kooste yleisempien anglosaksisten ohjelmien omaperäisyyksistä. Lisätään siihen vielä suomalaiset, ruotsalaiset, saksalaiset ja ranskalaiset sukututkimusohjelmat, joita tutkijat käyttävät, niin haaste aineistojen ottamiselle Suomi tietokannan syöttöputkeen on minusta mieluummin melkoinen kuin vähäinen.

Hyviä vinkkejä otetaan edelleen vastaan..

t.
Pekka Valta
Taapelin puolesta

Julle
15.10.14, 17:02
< Mitä nyt kullakin tutkijalla on omia vapaamielisiä tapojaan kirjata tietoja eri kenttiin. >

< Hyviä vinkkejä otetaan edelleen vastaan.. >

Alusta alkaen oikein! Käsiteanalyysi, tietotarveanalyysi, tietoanalyysi, tieojen määrittely, normalisointi. Itse asiassa en ole nähnyt vielä yhdenkään sukuohjelmiston käsite/kohde/tietokaaviota, mutta joku ohjelmisto on pitänyt valita alkuun. Suoraan otsalla on nähnyt, että vaikeuksia tulee tietojen syötössa, koska tietoja ei ole määritelty riittävän tarkasti.

Otetaanpa esimerkki Paikka? Mikä paikka, mitä tähän kirjaan pitäjän, läänin, seurakunnan, kylän, talon tai viel pienemmän yksikön - ehkä jopa kaksi noista. Toinen ongelma Savon pitäjän Kuopion Karttulan Kuivaniemi.
Oli joskus aikaoinaan Kuopiota, sitten Karttulaa ja Kuivaniemi talo siellä - toivottavasti fyysisesti sama, ettei nimi muuttunut. Nythän Karttula on taas Kuopiota. Mukaan tulee myös ajallinen alku ja loppu ajanmääreet?
Yleisin virhe on kuitenkin, että tietokenttiä ei ole määritelty sillä alemmalla yksittäisellä tasaolla, jolla sitä tarvittaisiin.

Toinen virhe niissä ohjelmissa on jopa käsitteiden/kohteiden välinen riippuvuus, niihinkin törmäsin joissakin ohjelmissa vuosikymmeniä sitten.

Nykypolvi ei taida edes enää osata niitä tehdäkään, kun on tottunut tekstijonomaiseen tietojen esitystapaan, mutta se on sitten toinen juttu!

Suositellisin ensimmäiseksi käsiteanalyysi ja siitä sitten tietoanalyysi. Tieotarveanalyysin voi tehdä vaikka rinnalla.


Nykyiset ohjelmistot ovat mitä ovat?

Tutkimisiiin

Pietari Jörönpoika
15.10.14, 21:50
Omat kokemukseni ja näkemykseni aiheesta ovat paljolti samankaltaiset kuin mitä Julle edellä esittää.

Kun muistetaan, että nykyisin käytössä oleva Gedcom-tiedostomuoto on ainakin Wikipedian mukaan alkujaan lähtöisin vuodelta 1984, niin ei ole ihme, että se ei vastaa tämän päivän tarpeisiin kun muistetaan miten paljon tietotekniikka on yleensä kehittynyt tällä aikavälillä. Harvalla oli tuolloin vielä omaa tietokonetta kotona saati sukututkimusohjelmaa siinä. "Standardi" on lähtökohtaisesti jo varsin puutteellinen ja tulkinnanvarainen, joten ei ole ihme, että siitä on niin monta erilaista tulkintaa implementoituina ohjelmiin saati sitten vielä ohjelmien käyttäjien omat tavat käyttää ohjelmia (täyttää kenttiä).
http://en.wikipedia.org/wiki/GEDCOM

En ole itse asiasta kovin hyvin perillä, mutta minusta vaikuttaa siltä, että Gedcom X-hanke saattaisi parantaa tilannetta tietojen siirtämisen osalta joskus tulevaisuudessa, kunhan sen tuotokset päätyvät sukututkimusohjelmiin asti. Käyttäjien tapoja täyttää sukututkimusohjelmien tietokenttiä se ei tietenkään rajoita, ohjaa korkeintaan, loppu jää kyllä ohjeistuksen varaan.
http://www.gedcomx.org/

Sen minkä minä olen tämän hankkeen dokumentaatiota katsellut, niin muistelisin, että ei sieltä ainakaan vielä kaikkia Jullen mainitsemia asioita taida löytyä, mutta on kuitenkin pitemmälle kehitetty standardi-luonnos kuin mitä on tämä nykyisin käytössä oleva Gedcom-versio on. Suosittelen Taapelin väkeä tutustumaan tähän, jos se ei ole jo tuttu juttu entuudestaan. Sieltä saattaisi löytyä ideoita pitkän aikavälin ratkaisuihin, etenkin tuo sukututkimustiedon konseptimalli voisi tutustumisen arvoinen.
https://github.com/FamilySearch/gedcomx/blob/master/specifications/conceptual-model-specification.md

Pelkkä tiedostoformaatin muuttaminen ei sinänsä ratkaise Pekka Vallan edellä kuvaamaa perusongelmaa sukuohjelmien tuottamien Gedcom-tiedostojen sisältöjen "sekavuudesta". Konvergointiohjelma ei voi tehdä automaattisesti puutteellisesta tiedosta täydellisempää, eikä normalisoida käyttäjien erilaisia kenttien käyttötapoja - tai ainakin siinä tarvittaisiin melko kehittynyt ohjelma, jollaisen kehittämismahdollisuuteen ainakin minä toistaiseksi suhtauden skeptisesti. Kyllä siinä tarvitaan tutkijan itsensä tekemää käsityötä.

Jos Taapeliin siirrettävän tiedon formaatiksi naulitaan nykymuotoinen Gedcom, niin melkoisessa suossa ollaan. Täytyisi varmaankin rajata tiedostojen tuottamiseen käytettävät ohjelmistot johonkin kohtuullisen pieneen määrään, jotta voitaisiin kohtuutyöllä hallita niiden toisistaan poikkeavat tulkinnat tiedostoformaatista. Lisäksi täytyisi myös ohjeistaa kyseisten ohjelmien käyttäjät käyttämään ohjelmia määrätyllä tavalla, jotta tietosisällöt saataisiin samanlaisiksi, normalisoiduksi. Ehkä tarvittaisiin myös jonkimoinen tiedoston validointiohjelma jolla varmistettaisiin tiedoston oikea rakenne (helpompi) ja tietosisällön normalisointi (saattaapi olla hankalampi - vaihtoehtoja ehkä liian paljon?)

Eli kannantan Jullen esittämää lähestymistapaa. Koska tältä foorumilta löytynee tämän tapaisiin määrittelyasioihin paremmin perehtyneitä henkilöitä, en lähde asiassa enempää "viisastelemaan".

ps. Mitä tulee Jullen mainitsemaan "kuntaliitosongelmaan" niin itse olan pyrkinyt nimeämään paikat aina ko. tapahtuman ajanhetken mukaisen käytännön mukaan. Tämä takaa ainakin sen, ettei tieto mene uusiksi seuraavassa vuodenvaihteessa. Taloilla/tiloilla on ollut vuosisatojen saatossa useita nimiä, osin rinnakkainkin, niitä on jaettu ja yhdistelty - melkoinen keitos jos niitä yrittää hallita. Ei taida mikään sukututkimusohjelma tarjota siihen kunnollista tukea?

PekkaV
18.11.14, 12:25
Jullen ja Pietarin ajatukset ovat relevantteja. Onneksi Taapelissa ajatukset ovat kulkeneet samoja latuja.

Käytännössä gedcom 5.5 ja 5.5.1 ovat muodot, joissa kaikki sukututkijat kykenevät tarjoamaan aineistojaan. Siksi Taapelissa on päädytty ensi vaiheessa niihin. Lisäksi tarvitaan varmaan muukin muoto, jolla voidaan lukea sisään luettelonomaista referenssitietoa esim. paikoista, lähteistä ja seurakunnista. Sukupuuaineiston muuta välitysmuotoa harkittaneen vasta myöhemmin.

Taapelin omat käsite- ja tietomallit ovat kehitteillä. Niiden pitää nielaista kaikki syöttöaineistoissa oleva informaatio, mutta rakenteellisesti ne eivät lukkiudu em. gedcom versioihin. Taapelin tietovarasto ei ole gedcom-muotoinen.

Sukututkimusohjelmien vaihtelevaan tapaan seurata edes gedcom 5.5 ja 5.5.1 määritteitä ja sukututkijoiden vielä kirjavampaan tapaan syöttää tietojaan ohjelmaansa on löydetty ratkaisu. Seuran syysseminaarissa kerrotaan enemmän Taapelissa käyttöönotettavasta työkaluohjelmistosta, jolla vakioidaan aineistojen rakenne ja yhdenmukaistetaan käyttäjäkohtaisia tietoja siinä määrin kuin se on tehtävissä systemaattisesti.

Nähdään Tieteiden talolla Helsingissä (Kirkkokatu 6) 22.11.2014 klo 12.

Taapelin puolesta
Pekka Valta