Taapeli katsaus joulukuu 2015 [Arkisto]

PDA

Arkistonäkymässä ei tällä hetkellä lainaus erotu varsinaisesta viestistä. Suosittelemme että vilkaisette ns. täydellistä versiota: : Taapeli katsaus joulukuu 2015

PekkaV

29.12.15, 23:17

Gedcomin uusimmassa numerossa (1/2015) julkaistua Suomi tietokanta-palvelun yleissuunnitelmaa on laajennettu semanttisen nettisivuston suuntaan. Taapeli selvittää keväällä yhteistyössä Aalto-yliopiston Seco-tutkimusryhmän kanssa sen ldf.fi palvelualustan hyödyntämistä. Perusideana on Suomi-tietokantaan kertyvien sukupuiden rikastuttaminen ldf.fi (www.ldf.fi):ssä muilla kansallisen muistitiedon avoimilla datoilla. Hieman Sotasammon (sotasampo.fi) ja Semanttisen Kansallisbibliografia Elämänkerturin (http://www.ldf.fi/dataset/history/map.html) tapaan.

Suomi-tietokannan proton 2. versiota on alettu suunnittelemaan. Koodauskielenä on nyt Python ja tietokantaohjelmistona edelleen Neo4j (http://neo4j.com). Protoa kehitetetään tältä pohjalta ainakin kesään saakka, jonka jälkeen arvioidaan työkaluja uudelleen.

Käyttäjien gedcom-aineistojen laadun nostamiseksi annettiin keväällä luonnos lähdetietojen merkitsemisestä. Luonnos kattoi tutkijoiden yleisimmin käyttämät lähdesarjat ja siihen ei ole tullut merkittävää kritiikkiä.

Paikkatietojen osalta Taapeli on osallistunut Kotuksen Nadigi-projektiin, jossa digitoidaan Kotimaisten kielten tutkimuslaitoksen aineistot. Aalto/Secon historiallisten paikkatietojen Hispa.fi protovaiheessa olevaan palvelua on kokeiltu ja kommentoitu. Taapelissa aiotaan kevään aikana perehtyä oman spatiotemporaalisen referenssikannan ominaisuuksiin ja kokoamiseen. Spatiotemporaalinen tarkoittaa paikkatietokantaa, jossa paikkojen keskinäiset suhteet hallitaan myös aikasidonnaisina rakenteina.

Vähäisempänä hankkeena Taapeli on tukenut sukututkimusaineistoilla Aalto-yliopistossa tekeillä olevaan väitöskirjatutkimusta, jonka kohteena on sukupuiden rakentaminen Hiski-tietokannan perusteella. Kesken oleva tutkimus voi mahdollisesti hyödyntää sukututkijoita, ehkä Suomi-tietokannan tukivälineenä. Aika näyttää.

Taapeli-projektiryhmä toivoo yhteydenottoja sukututkijoilta, joilla on kokemusta Python-ohjelmoinnista. Tule mukaan kehittämään protoamme ja seuran kärkihanketta!

Taapelin puolesta

Pekka Valta
pekka.valta(at)genealogia.fi

Lauri Hirvonen

14.09.16, 19:07

Eikö ole mitään uutisia tapahtunut sitten joulukuu 2015?

Onko projekti lopetettu?

Onko projekti vaikeuksissa?

Onko tarvis avustajista?

Tämä hanke on kunniahimoisin sitten Suursilli -kirjan synnyn, joten
toivon, että se onnistuisi.

Julle

15.09.16, 16:05

< Taapeli-projektiryhmä toivoo yhteydenottoja sukututkijoilta, joilla on kokemusta Python-ohjelmoinnista. >

Hei!

Kiva, että Taapeliinkin sahataan lisää lautoja ;-)
Vaikkei Pythonista olekaan kokemusta, mutta kieleen lukemalla perehtyneenä, voin sanoa, että samat ongelmat tulee olemaan kuin millä muulla ohjelmointikielellä tahansa, jotka tkevat samoja kielen rakenteita. Tiivistynevät C-kielen muoto- ja kirjoitussääntöihin, jota vastaavat on kuvattu C-kielelle Pete Orlin ja John Heathin artikkelissa Easy C tietokonelehden Byte 1986 toukokuun numerossa. Ei uusi ohjelmointikieli, joka on Perlin ja C:n risteytys ratkaise reaalimaailman ongelmia, jotka ovat sukupuissa itseensä-palaava-yhteys (BOM) pääasiassa ja n:m-suhde sekä muuttuvat organisaatio/paikkamääritykset, eikä tietojärjestelmän tietojen määrityksen tärkeyttä. HisKistä, joka on sisältömuodoltaan myös osittain "roskaa", on mahdotonta tehdä automaattisesti muuta kuin "roskaa" eri muotoon. GIGO-periaate pätee siinäkin.

Mieleen tuli vanha kirja vuosikymmenien takaa! Programs without programming tai sinne päin ja GeneXus, joka on ollut jo vuosia oikeilla raiteilla tietojärjetelmien kehittämisessä.

Tsemppiä työlle

Lauri Hirvonen

15.09.16, 18:39

En ole ohjelmoinnin kanssa ollut enää tekemisessä vuosiin. Joten en ota kantaa Pythoniin, C:hen, tai Perliin.

Kun sukupuuohjelmistoa tehdään, niin kait se tärkein on tietokanta. Erilaisia tietokantaohjelmistoja on monia. Mikä niistä on valittu Taapeliin?
Monasti valittu tietokanta taasen määrittää, millä ohjelmointikielellä sitä on helpointa ohjailla.

Onko tietokannaksi valittu jokin maksullinen vai ns. Open Source tietokantaohjelmisto?

Mitä ohjelmointikieliä se tietokantaohjelmisto tukee?

Aikaisemmista viesteistä olen lukenut, että ongelmana on ollut eri sukuohjelmistojen sukutietojen Gedcom tiedonsiirtojen erilaisuudet. Ymmärsin, että Saksasta löydettiin jokin ohjelmisto, jolla saadaan eri sukuohjelmistoista sukutiedot siirrettyä riittävän hyvin tulevaan uuteen sukutietokantaan.

< Taapeli-projektiryhmä toivoo yhteydenottoja sukututkijoilta, joilla on kokemusta Python-ohjelmoinnista. >

Hei!

Kiva, että Taapeliinkin sahataan lisää lautoja ;-)
Vaikkei Pythonista olekaan kokemusta, mutta kieleen lukemalla perehtyneenä, voin sanoa, että samat ongelmat tulee olemaan kuin millä muulla ohjelmointikielellä tahansa, jotka tkevat samoja kielen rakenteita. Tiivistynevät C-kielen muoto- ja kirjoitussääntöihin, jota vastaavat on kuvattu C-kielelle Pete Orlin ja John Heathin artikkelissa Easy C tietokonelehden Byte 1986 toukokuun numerossa. Ei uusi ohjelmointikieli, joka on Perlin ja C:n risteytys ratkaise reaalimaailman ongelmia, jotka ovat sukupuissa itseensä-palaava-yhteys (BOM) pääasiassa ja n:m-suhde sekä muuttuvat organisaatio/paikkamääritykset, eikä tietojärjestelmän tietojen määrityksen tärkeyttä. HisKistä, joka on sisältömuodoltaan myös osittain "roskaa", on mahdotonta tehdä automaattisesti muuta kuin "roskaa" eri muotoon. GIGO-periaate pätee siinäkin.

Mieleen tuli vanha kirja vuosikymmenien takaa! Programs without programming tai sinne päin ja GeneXus, joka on ollut jo vuosia oikeilla raiteilla tietojärjetelmien kehittämisessä.

Tsemppiä työlle

ilkant

16.09.16, 03:28

Minulla on Pythonin alkeet hallussa. Aika on resurssi, jota ei ole tuhlattavaksi asti. Näin valitettavasti.

Sen, mitä taapelista olen kuullut, on kiehtovaa. Mistä voisi lukea lisää siistä? Mitä kaikkea Taapelissa puuhataan?

PekkaV

27.09.16, 22:12

Pahoittelen, että en ollut huomannut Laurin viestiä. Hyvät säät ovat pidentäneet mökkeilyä :)

Hankkeen tiedotus on tosiaan ollut säästöliekillä. Parhaillaan valmistellaan seuran johdolle nyt päättyvän 2-vaiheen loppuraporttia. Sen päätöskäsittelyn jälkeen voidaan tiedottaa laajemmin miten jatketaan.

Totta kai ahkeria käsiä tarvittaisiin lisää. Mielenkiintonne valittavaan kieleen taitaa olla kuitenkin akateemista laatua, koska en ole huomannut jäsenistössä erityistä halukkuutta antaa hankkeen käyttöön työelämässä mahdollisesti kertynyttä ohjelmointitaitoaan. Onkohan inhorealismia todeta, että harmaissa päissämme on kullittuneita muistoja viime vuosituhannen tekniikoista?

Seuraavia näkökohtiani maalaan leveällä pensselillä. Niiden painoarvo riippuu täysin siitä, mikä on seuran kunnianhimo ja kuinka pitkään kehittämisjänteeseen on valmiutta:

Tietokantakysymys on mielenkiintoinen useastakin syystä. Nähtävissä on, että tarvitaan useaakin ratkaisua, datan elinkaaren eri vaiheisiin. Aineistojen ja sukupuiden yhdistely vaatii erilaisia kyvykkyyksiä kuin esim. selaintietopalvelu. Vahvassa maineessa olleet relaatiokannat eivät ehkä olekaan parhaita, jos tietovarastomme henkilö- ja tapahtumasuhteet ovat joustavampia kuin gedcomin tuntemat "family-lineage" suhteet. Ehkä on hallittava ei-strukturoitua dataakin, jos otamme vakavasti historia- , paikallis- ja talotutkimuksen tulosten integroinnin.

Hankkeen saamissa testiaineistoissa on nähtävissä pari piirrettä. Lähdemerkintöjen kulttuuria ei ole juuri ollut ja paikkatiedot ovat niukkoja ja melko mekaanisia muistiinpanoja, joiden varaan ei ole rakennettavissa paikkakeskeisiä näkymiä asutukseen. Siihen tarvittaisiin paikkahierarkioita ja paikkojen ajassa tapahtuneiden muutoksien hallintaa.

Ehkä arvasitte jo, että valmissovellusta Suomi-tietokannan hoitamiseksi ei ole löytynyt :D:

Pekka

Julle

28.09.16, 12:34

< Totta kai ahkeria käsiä tarvittaisiin lisää. Mielenkiintonne valittavaan kieleen taitaa olla kuitenkin akateemista laatua, koska en ole huomannut jäsenistössä erityistä halukkuutta antaa hankkeen käyttöön työelämässä mahdollisesti kertynyttä ohjelmointitaitoaan. >

Voisinpa kysyä, että mihin sitä enää nykyään tarvitaan, kun ohjelmointikin on enimmäkseen määrittelyä, eikä perinteistä ohjelmointia?

< Onkohan inhorealismia todeta, että harmaissa päissämme on kullittuneita muistoja viime vuosituhannen tekniikoista? >

Kyllä ne kaikki uudetkin ideat ja ratkaisut ovat perustuneet viime vuosisadan tekniikoihin. Päätöstaulut 1970-luvulta, rakenteinen ohjelmointi, tms. Mutta miksi meillä Suomessa kestää lähes 30 vuotta, että ne saadaan meillä sovelluskäytöön. Sitä ihmettelesin?

< Tietokantakysymys on mielenkiintoinen useastakin syystä. Nähtävissä on, että tarvitaan useaakin ratkaisua, datan elinkaaren eri vaiheisiin.
Aineistojen ja sukupuiden yhdistely vaatii erilaisia kyvykkyyksiä kuin esim. selaintietopalvelu. Vahvassa maineessa olleet relaatiokannat eivät ehkä olekaan parhaita, jos tietovarastomme henkilö- ja tapahtumasuhteet ovat joustavampia kuin gedcomin tuntemat "family-lineage" suhteet. Ehkä on hallittava ei-strukturoitua dataakin, jos otamme vakavasti historia- , paikallis- ja talotutkimuksen tulosten integroinnin. >

Tuskinpa SQL:ää syrjäyttää moneen vuoteen mikään? Ongelma on minusta pikemminkin aineiston sisällössä tai oikeastaan sen epävarmuuksissa tai tietoa ei saa mistään. Sukupuu on vain yksi raportin esitysmuoto, joka perustuu kohteen palautumiseen itseensä, ei sen kummenpaa. Eiköhän me haluta niistä pikemminkin sukukirjoja luettaviksi tavalla tai toisella? Sukuaineistossa on varmaankin enemmän rakenteellista tietoa kuin aineistoa, jolla ei ole rakennetta. Tekstikin on rakenteellista. GEDCOMinkin on vain yksi esitysmuoto siirtoon? Tiedot kyllä jakautuvat selvästi pysyviin ja tapahtumatietoihin ajallisesti ja alueellisesti jatkuvine siirtoineen, mutta se eui ole este. Muutos on jatkuvaa, mutta historia pysyvää.

< Hankkeen saamissa testiaineistoissa on nähtävissä pari piirrettä. Lähdemerkintöjen kulttuuria ei ole juuri ollut ja paikkatiedot ovat niukkoja ja melko mekaanisia muistiinpanoja, joiden varaan ei ole rakennettavissa paikkakeskeisiä näkymiä asutukseen. Siihen tarvittaisiin paikkahierarkioita ja paikkojen ajassa tapahtuneiden muutoksien hallintaa. >

Pitää paikkansa ja vanhemmissa ei ole edes tietoa, miten sen asiakirjasta asemoisi ja ilmoittaisi! Mutta lähdeviittaus- ja lähdeluettelojärjestelmiä on olemassa ja niiden muoto käytettyjä.

< Ehkä arvasitte jo, että valmissovellusta Suomi-tietokannan hoitamiseksi ei ole löytynyt >

Mutta ehkä varteen otettava työtapa, joka näyttää olevan muodissa Suomessa ja pitkällä aika välillä kehittynyt työkalu siihen, jolla ratkaisut olisivat kehitettävissä ja helpommin ylläpidettävissä? Sitäkin jo yli 15 vuotta kehitetty ja käytetty laatuyrityksissä menestyksellä muualla kuin Suomessa!

Lukemisiin

Lauri Hirvonen

28.09.16, 18:09

Kiitos PekkaV:lle pikaraportista. Odotamme sitten tekeillä olevaa vaiheen 2 raporttia.

Olin huippuohjelmoija aikaanaan. Tein työpaikkamme nopeiten toimineet ohjelmat (muiden tekemät samaan asiaan olivat paljon hitaampia).

Sitten ohjelmoinnista siirryin myyntipuolelle. Siellä kehitin kokonaisia tietojärjestelmiä. Olen edelleen ylpeä siitä, että sain vapaat kädet toteuttaa erään haastavan projektin, ensimmäisenä Suomessa. Tuolloin oli sanontatapa, että atk-projektit ovat myöhässä, ylittävät kustannukset, ominaisuuksia oli vähemmän ja toimii hitaammin mitä oli luvattu. Tekemäni iso projekti valmistui etuajassa, se toimi nopeammin mitä oli luvattu ja lisäksi siinä oli enemmän ominaisuuksia mitä oli luvattu.

Seuraavaksi olin mukana terveydenhuollon sovelluksia tekemässä ja toimittamisessa asiakkaille. Tuli paljon muutakin tehtyä. Mutta nyt olen eläkkeellä ja aikaa olen saanut järjestettyä omaan sukututkimukseeni, jonka aloitin yli 30 vuotta sitten. Olin alussa Kalle Kailan kanssa yhteistyössä, kun hän alkoi tekemään suuren suosioon saaneen sukuohjelmistoa. Ikävä, että Kalle yllättäen poistui joukostamme. Sille ohjelmistolle ei löytynyt jatkajaa ja jouduin sitten vaihtamaan toiseen hyvin ajantasalla pysyvään suku ohjelmistoon. Uusimpana siinä on kentät myös DNA-tuloksille. Meitä on nyt yli 8000 henkilöä Suomessa, jotka tekevät DNA-sukututkimusta. Siihen on kehitetty uusia sovelluksia joiden parissa nyt työskentelen. En ole koodari, ryhmässä on expertti, joka hallitsee nykyiset ohjelmointimenetelmät.

Mitä tulee tietokantoihin, niin olen joutunut jonkin verran tekemisiin uuden suomalaisen tietokannan kanssa: M-files. Siinä on sellaisia uusia ominaisuuksia, joita ei muilta löydy. En ole sitä käyttänyt. Tuli mieleen, että pitäisikö M-Files firman kanssa jutella, jos se taipuisi sukupuu-tietokannaksi?

Olin aikanaan WEB:n keksijän, Tim Berners-Lee:n semanttisessa tietorakennejutussa, lähinnä seuraajana. Mutta se hanke edistyi hitaasti, vaikka mm. Suomessa yliopistossa tehtiin muutamia lupaavia tietokantasovelluksia sen avulla. Tämänkin avulla voisi synnyttää uudenlaiset sukupuut. Tässä taustaa, jos joku haluaa tietää lisää:
https://fi.wikipedia.org/wiki/Semanttinen_Web

T. Lauri

PekkaV

01.10.16, 19:34

Hyvä saada vinkkejä. M-filesissä näyttää päällisin puolin olevan pari perusongelmaa: ei ole avointa softaa ja antaa vasta lupauksia valoisasta tulevaisuudesta datan koostamisesta. En aivan oivalla, miten sovittaisit sitä Suomi-tietokantaan?

Netissä oleva data on joskus on jopa varmaa tietoa. Sen koostamiseen löytää semanttisen webin kauttakin erinäisiä palveluita. Oletko esim. seurannut Aallon prof. Eero Hyvösen tutkijaryhmien tuloksia kotimaisen avoimen datan koostamisessa? Joitakin esimerkkejä löytyy täältä (http://seco.cs.aalto.fi/applications/). Voidaan hyvinkin ajatella, että Suomi-kanta syöttäisi tietoja tämän (http://seco.cs.aalto.fi/projects/biographies/) tapaiseen nettipalveluun. Sen rooli on kuitenkin vain julkaisuareena. Emme kuitenkaan pääse ohi omasta vastuustamme rakentaa masteriksi sukusuhteiden luotettava ja tutkittu tietokanta.

Olette siis isommalla porukalla perehtyneet DNA-sukututkimukseen. Minkalaisia näkemyksiä sinulla on sen huomioimisessa Suomi-tietokannassa?

Pekka