Finnish Museum of Natural History Museum websites

Tietoaineiston julkistaminen GBIF IPT:llä

Mikä on IPT?

IPT tulee sanoista GBIF Integrated Publishing Toolkit. Sen avulla tietoaineiston haltija voi tehdä aineistonsa helposti saataville GBIF-verkostossa. IPT tarjoaa standardoidun OAI-PMH rajapinnan, joten se sopii periaatteessa liittymiseen myös muihin verkostoihin, kuten meillä Kansalliseen Digitaaliseen Kirjastoon [linkki].  Ohjelmisto on yleensä valmiiksi asennettuna ja löytyy esim. Suomen GBIF-solmun tarjoamana palveluna [linkki].  Kaikkien biologian laitosten ja museoiden kannattaa harkita sen asentamista.  Lisätietoja.

Millaisille aineistoille IPT sopii?

IPT on tarkoitettu esim. Excelissä ja Accessissa tiedostomuodossa säilytetyille pienille tai jollakin tavalla henkilökohtaisille aineistoille, jotka eivät muutu kovin usein.Suuret laitosten yhteiskäyttöiset tietokannat sopivat julkistettavaksi paremmin TAPIRlink-ohjelmistolla.

Aineiston tulee olla kokoelma- tai havaintodataa.  Joka rivillä on yksi yksilö tai lajihavainto ja siinä on sellaisia kenttiä kuin tieteellinen lajinimi, paikka, koordinaatit, aika, havaitsija/kerääjä, määrittäjä, jne.

Tiedoston muokkaaminen sopivaksi

Excelistä tai Accessista aineisto otetaan ulos Export-toiminnolla ja talletetaan tab-separated CSV tai TXT -tiedostoksi.  Merkistö on UTF-8. Merkkijonoa rajoittavia "ripsiä" kuten tässä ei välttämättä tarvita, mutta ne saavat olla. Ensimmäisellä rivillä on hyvä olla kenttien nimet.

Kenttien nimet "mapataan" IPT:ssä vastaamaan Darwin Core-standardia. Tämä tapahtuu automaattisesti, jos ne ovat tiedostossa jo valmiina. Muussa tapauksessa vastaavuudet on kerrottava kentittäin.

Pakollisia kenttiä ovat InstitutionCode (ks. Index Herbariourum tai esim. Insect and Spider Collections of the World), CollectionCode (laitoksen antama, esim. "Invertebrates"), CatalogNumber (luettelonumero).  Näiden kolmen yhdistelmän tulee joka rivillä olla uniikki.  Myös ScientificName tarvitaan, mutta tämän ei välttämättä tarvitse olla aina lajitason nimi.  Tämän lisäksi on hyvä laittaa ainakin Country (englanniksi tai ISO-koodina), Locality (tarkka paikka), YearCollected (esim. 2010) tai tarkemmin EarliestDateCollected (ISO-muodossa, esim,. 2010-01-31). Paikan koordinaatit esitetään desimaaliasteina, jotka saa esim. Google Earthilla tai muunnettua YKJ:sta geodeettisen laitoksen palvelun avulla [linkkejä].  Meikäläiset yhtenäiskoordinaatit voi laittaa kenttään VerbatimCoordinates ja merkintä tästä VerbatimCoordinateSystem kenttään arvolla "Finnish YKJ".

Synkroininti GBIF Data Portaalin kanssa

Kun aineisto on rekisteröity, GBIF Helpdesk tarkistaa sen ja antaa usein lähempiä ohjeita yksityiskohtien viilaamiseen.  Sen jälkeen GBIF Data Portal käy noin 3 kuukauden välein katsomassa onko jotain uutta saatavissa.

Askel askelelta

Seuraavassa käydään em. kuvaus läpi askel askeleelta:

  1. Mene sivulle http://data.gbif.fi:8080/ipt/
  2. Kirjaudu sisään. Käyttäjätunnuksen ja salasanan saat osoitteesta helpdesk@gbif.fi.
  3. Paina nappia "Manage".
  4. Seuraa linkkiä "New Occurrence Resource" jos haluat tehdä saataville uuden aineiston tai valitse olemassaoleva, jos haluat muokata sitä.
  5. Syötä "Basic Metadata" kentät.  Tämä on tärkeä laittaa hyvin sillä sen näkyy julkisesti GBIF Data Portaalissa. Paina nappia "Save".
  6. Syötä halutessa muut "Resource Metadata" kentät.  Nämä eivät ole kovin tärkeitä.
  7. Siirry kohtaan "Resource Configuration" ja "Source Data" toiminnon alla uploadaa valmistamasi datatiedosto.  Paina suurennuslasin kuvaa, jotta voit nähdä näyttääkö se kelvolliselta.
  8. Siirry toimintoon "Mappings" ja nappulasta "Configure" tai "Edit" määrittele mitkä kentät vastaavat Darwin Core -standardia.  Voit myös laittaa vakioarvon, jos kentässä on aina sama arvo eikä löydy datatiedostosta, niinkuin esim. InstitutionCode ja VerbatimCoordinateSystem useimmiten on.  "SourceID for Record" kenttään valitaan aina CatalogNumber tai muu uniikki rivin tunniste.  Lopuksi paina nappia "Done".
  9. Siirry toimintoon Cache Database ja paina nappia "Import".  Tämä lukee tiedostosi ja laittaa sen saataville GBIF-rajapintaan.  Tämän toiminnon pitäisi näyttää tiedoston rivien määrä ym. (Mikäli näin ei tapahdu, on sattunut virhe -- ota yhteys helpdesk@gbif.fi.)
  10. Lopuksi paina nappia "Publish", jolloin aineistosta vilahtaa tieto Kööpenhaminaan.

Loppuhuomioita

On havaittu, että nykyinen IPT on hieman "buginen" ja vaatii paljon palvelimen resursseja.  Sen johdosta se voi jumittaa, ym. Jos epäilet tällaista, ota yhteys helpdesk@gbif.fi, niin asia selvitetään.

Edellä kuvattiin vain havainto/kokoelmatietojen julkistaminen.  On myös mahdollista julkistaa lajiluetteloita ja pelkkää kokoelmia ym. kuvaavaa metadataa.

Jokaiseen havaintoon tai kokoelmayksilöön (riviin) voi liittyä useita tarkempia tietoja, kuten esim. sarja historiallisia lajimäärityksiä, synonyymejä, preparaatteja tai seuralaislajeja. Näitä ei ole helppo hallita lisäämällä tiedostoon kenttiä esim. Määritys1, Määritys2, jne. Tällaiset tiedot on paras sijoittaa eri tiedostoon ja yhdistää päätietueeseen molemmista tiedostoista löytyvän CatalogNumber -kentän avulla, eli yksi-moneen relaatiolla. Ks. "Star schema" toiminnon "Mappings" alla.

Palaute näihin ohjeisiin on tervetullutta!