Finnish Museum of Natural History Museum websites

Lajitiedon yhteiskäyttöön liittyminen Suomessa: Kuinka ja miksi?

GBIF:n yleiskuvaus

Global Biodiversity Information Facility – http://www.gbif.org/ on kansainvälinen järjestö, jonka tehtävä on saattaa maailman luonnon monimuotoisuutta koskeva tieteellinen tieto yleisesti ja avoimesti saatavaksi Internetin kautta. GBIF aloitti toimintansa OECD Megascience Forumin projektina vuonna 2001 ja se perustuu nykyään jäsenmaiden hallitusten väliseen sopimukseen. Sitä voidaan luonnehtia vastaavaksi hankkeeksi kuin geenipankit, kv. tähtitieteen observatoriot ja kv. hiukkaskiihdyttimet. Kuten kansainvälisillä tiedeprojekteilla yleensä, sillä ei ole nimeä muilla kielillä kuin englanniksi.

GBIF keskittyy luontoa koskevaan havaintotietoon ja museoiden kokoelmien digitaaliseen saatavuuteen. On muitakin maailmanlaajuisia hankkeita, kuten esimerkiksi alla luetellut, jotka käsittelevät muita tietotyyppejä, mutta GBIF rakentaa kaikille yhteistä tietoinfrastruktuuria ja sen mandaatti on ehkä kaikkein laajin. Kaikki nämä ja monet muut järjestöt toimivat läheisessä yhteistoiminnassa, ikään kuin löyhänä konsortiona.

  • GBIF – havainnot, kokoelmat ja yhteinen tietoinfrastruktuuri
  • TDWG – tiedonvaihtostandardit
  • Encyclopedia of Life – lajien kotisivut
  • Catalogue of Life – nimistöt
  • Consortium on Barcode of Life – dna-tunnisteet
  • Biodiversity Heritage Library – kirjallisuus
  • GEO BON (GEOSS Biodiversity Observation Network) – seurantatutkimukset
  • LTER – ekologiset koealueet
  • Clearing-House Mechanism – biodiversiteettisopimuksen tiedonvaihto

GBIF:n jäseniä ovat tällä hetkellä 48 maata, Suomi mukaan lukien, sekä 30 kansainvälistä järjestöä. Kukin jäsen organisoi toimintansa kansallisen/järjestön solmun kautta, joka Suomessa on Luonnontieteellisessä keskusmuseossa. Kansallinen solmu puolestaan organisoi ja tukee tietolähteiden (data provider) toimintaa alueellaan.

Toukokuussa 2010 GBIF:llä on kaikkiaan noin 300 tietolähdettä, jotka ovat tehneet saataviksi yhteensä noin 7000 tietokantaa tai aineistoa. Näissä on kaikkiaan 200 miljoonaa tietuetta. Tietueet jakaantuvat suunnilleen tasan luontohavaintojen ja kokoelmayksilöiden kesken.

Suomessa on toistaiseksi vain neljä GBIF-tietolähdettä: Turun ja Jyväskylän yliopistot ja kaksi Helsingin yliopiston laitosta. Yhteensä näissä on saatavana noin 2,3 miljoonaa tietuetta. Tavoite on, että maamme kaikki museot ja luontoseurantoja toteuttavat tahot ryhtyisivät GBIF-tietolähteiksi ja maamme kaikki noin 30 miljoonaa digitaalisessa muodossa jo olevaa tietuetta saadaan mobilisoitua. Tällä lyödään kaksi kärpästä yhdellä iskulla, sillä myös kansallinen luonnon monimuotoisuuden tiedonvaihto esitetään järjestettäväksi GBIF-mekanismien avulla (luonnonsuojelun tuottavuushankkeen SETI-työryhmän muistio http://www.ymparisto.fi/default.asp?node=22629).

GBIF:n tekninen rajapinta

GBIF noudattaa tiedonvaihdossaan TDWG-järjestössä sovittuja standardeja. TDWG puolestaan tekee yhteistyötä Internetin standardijärjestöjen kanssa.

Havaintotiedot ja kokoelmayksilöt kuvataan joko Darwin Core tai ABCD -tiedonvaihtomuodossa. Nämä ovat XML-skeemoja, joissa on määrittelyt lajitiedonkäsitteille kuten lajinimi, havaintopaikka, havaintoaika, jne. Omasta havaintotietokannasta tai aineistosta määritellään mitkä kentät vastaavat GBIF/TDWG -standardin kenttiä. Tämä on yleensä helppoa, joskin voi olla tarpeen tehdä muunnoksia esim. meikäläisestä yhtenäiskoordinaatistosta maailmanlaajuisiin maantieteellisiin koordinaatteihin.

Uudet tietolähteet liitetään GBIF-verkostoon TAPIR-käytännön avulla, vaikka suurin osa nykyisistä tietolähteistä käyttää vielä vanhempia DiGIR tai BioCASE -käytäntöjä. TAPIR on TDWG-järjestön kehittämä ja standardoima kyselykieli, joka periaatteessa vain käärii oman tietokannan käyttämän SQL-kielen sellaisiksi XML-muotoisiksi paketeiksi, joita voi lähettää Internetin nettipalvelimelta toiselle.

Edellä kuvatut toiminnot on saatavissa kätevänä tietolähdeohjelmistona, joka toteuttaa TAPIR-rajapinnan, ja jota voidaan käyttää oman tietokannan ja Darwin Core /ABCD väliseen määrittelyyn. Ohjelmistovaihtoehtoja on useita ja on syytä olla yhteydessä Suomen GBIF-solmuun sopivan valitsemiseksi. Mikäli omaa tietokantaa ei ole, vaan tiedot ovat vielä esim. taulukkolaskintiedostoina, niiden jakamiseen on saatavissa on myös helppokäyttöisiä paketteja, kuten GBIF Integrated Publishing Toolkit (IPT). IPT:n käyttömahdollisuus on myös saatavana palveluna Suomen GBIF-solmun kautta, joten omaa IPT-asennusta ei välttämättä tarvitse. Kaikki ohjelmistot perustuvat avoimeen lähdekoodiin ja ovat saatavissa sekä Linux/Unix että Windows -käyttöjärjestelmille.

Tietolähteiden rajapinnat kirjataan GBIF:n keskitettyyn UDDI-rekisteriin Kööpenhaminassa. Sen jälkeen GBIF dataportaali luetteloi tiedontuottajan kaikki tietueet ja ottaa niistä ikään kuin Googlen tapaan keskeiset tiedot omaan välivarastoonsa käyttäjien haluamia nopeita hakuja varten. GBIF dataportaali http://data.gbif.org/ mahdollistaa kaiken rekisteröidyn tiedon hakemisen, yhdistelyn ja lataamisen omalle koneelle analyysejä varten.

Monet jäsenmaat ovat tehneet myös kansallisia portaaleja. Tällaista ehdotti myös meillä luonnonsuojeluhallinnon SETI-työryhmä. On myös alueellisia GBIF-solmujen yhteistyössä tekemiä portaaleja, kuten Fennoscandia Birds http://www.artportalen.se/fennoscandia_birds.asp ja IABIN-verkoston temaattiset portaalit.

GBIF:n nykyinen tietosisältö, tiedon käyttö ja tavoitteet

Vaikka 200 miljoonaa havaintoa on paljon, se edustaa silti vain noin 10-20% kaikesta maailmassa olevasta luonnon monimuotoisuutta koskevasta tiedosta. Sen vuoksi data ei muodosta vielä kattavaa kokonaisuutta kaikista eliöryhmistä kaikissa maanosissa. Aineistoja voi kuitenkin valikoivasti käyttää hyväksi jo nyt. Esimerkiksi Pohjois-Euroopasta, Pohjois-Amerikasta, Meksikosta ja Oseaniasta alkaa olla kattavat aineistot koossa linnuista, nisäkkäistä, perhosista ja putkilokasveista. Näiden aineistojen avulla on tehty useita uraauurtavia makroekologisia tutkimuksia.

Suurimpia GBIF-tietolähteitä ovat Pohjois-Amerikan eBird, Britannian kansallinen biodiversiteetti­verkko ja Ruotsin Artportalen. GBIF datasta noin 45% on lintuhavaintoja, 25% kasveja ja 15% hyönteisiä, suurimmat aineistoryhmät mainiten. Ks. esim. http://data.gbif.org/species/13140955/

GBIF:llä on menossa kampanjoita kattavien aineistojen koostamiseksi pölyttäjähyönteisistä sekä Amazonin alueella kaikista eliöryhmistä. Kampanjassa on myös koottu niitä aineistoja, joita tarvitaan selvittämään sitä, onnistutaanko saavuttamaan YK:n asettama tavoite luonnon monimuotoisuuden köyhtymisen pysäyttämiseksi vuoteen 2010 mennessä.

GBIF:llä on myös kehitysmaihin suunnattu ohjelma niitä koskevien aineistojen mobilisoimiseksi ja maiden teknisen tason kohottamiseksi. Tämän kautta on Tansanian aineistoja saatu koottua eri tahoilta ja Tansanian kansallinen portaali rakennettua – pääasiassa maan ulkopuolella olevan datan varaan!

GBIF:n meneillään olevan toisen 5-vuotiskauden tavoite on siirtyä prototyypistä täyteen toimintaan vuoteen 2011 mennessä. Se tarkoittaa kaiken olemassa olevan tiedon mobilisoimista, niin että jopa 1-2 miljardia tietuetta olisi yleisesti ja avoimesti saatavissa tiedontuottajien palvelimista. Lukumääräisistä tavoitteista huolimatta ennen kaikkea tavoitteena on, että tietoa olisi saatavana niin paljon, että se on oikeasti hyödyllistä ja helppokäyttöistä laajoihin analyyseihin.

Meneillään oleva globaalimuutoksen ymmärtäminen ja hallinta edellyttää niin suurien tietoaineistojen käsittelyä, ettei kukaan tai mikään yksittäinen tutkija tai hanke voi niitä koota. Tarvitaan yhteistoimintaa ja avointa tiedon jakoa. Tämä on ymmärretty viime aikoina laajoissa piireissä ja myös toimintaa rahoittavilla tahoilla. Tiedon yhteiskäyttö on osa nykyaikaista tieteellistä metodia. Se on jo normi molekyylibiologiassa, genetiikassa ja eräillä muilla aloilla ja sama on nopeasti tapahtumassa myös ekologissa tieteissä.

Tietojen omistajuuteen ja käyttöön liittyvät näkökohdat

Ei ole mahdollista tehdä erityisiä käyttöoikeussopimuksia satojen tietolähteiden ja tuhansien tietokantojen omistajien kanssa. Sen vuoksi avoimet käytännöt ja yhteisesti sovitut pelisäännöt ovat ainoa mahdollisuus tietojen laajamittaiseksi yhdistämiseksi ja käyttämiseksi.

Tietojen laittaminen yhteiskäyttöön ei merkitse niiden omistajuudesta luopumista. Kukin GBIF-tietolähde hallinnoi edelleen aineistojaan ja voi milloin tahansa lisätä tai muuttaa niitä tai vetää pois tietonsa kokonaan tai osittain. Tietolähteet sitoutuvat palvelimensa rekisteröidessään GBIF Data Sharing Agreementin ehtoihin http://data.gbif.org/tutorial/datasharingagreement.

Tiedon käyttäjät joutuvat noudattamaan GBIF Data Use Agreementin ehtoja http://data.gbif.org/tutorial/datauseagreement. Sen mukaan tiedon käyttäjän on tunnustettava tuotteissaan tietolähteet ja siteerattava heitä normaalin tieteellisen käytännön mukaisesti. Heidän on myös tarkistettava, onko tietolähde asettanut erityisehtoja, kuten esimerkiksi kaupallisen käytön kiellon. Sen lisäksi on huomattava, että EU-lainsäädännön perusteella aineistoa ei saa käyttää ilman erityistä lupaa, jos se muodostaa teoksesta oleellisen ja merkittävän osan.

On selvä että kaikkea tietoa ei voi julkistaa rajoittamattomalla tarkkuudella ja heti. Sellaisten uhanalaisten lajien tiedot, joiden kohdalla on perusteltua syytä epäillä väärinkäytön mahdollisuutta, joka saattaisi vaarantaa lajien suojelun, ei pidä julkistaa. Samoin tutkijoiden itse keräämät aineistot, jotka ovat aktiivisesti työn alla tulee voida pitää vain omassa käytössä rajoitetun ajan. Luonnon­tieteellinen keskusmuseo on näistä kysymyksistä laatinut yksityiskohtaiset ohjeet.

Tietojen laittaminen yhteiskäyttöön ei ole vain yhteiseksi hyväksi toimimista. Sen avulla saadaan tehostetuksi aineistojen käyttöä, uusia kontakteja sekä uskottavuutta tiedeyhteisön ja laajojen havaitsija­joukkojen piirissä. Sitä voidaan käyttää hyväksi rahoitushakemusten tekemisessä. Omien tietojen näkeminen laajemmassa yhteydessä antaa myös tutkijoille uusia ideoita. GBIF raportoi tietolähteille säännöllisesti tietojen toteutuneesta käytöstä.

Taloudelliset näkökohdat

Tietolähteeksi ryhtyminen edellyttää, että käytettävissä on palvelintietokone, johon voidaan asentaa rajapintaohjelmisto. Tavallinen mikrotietokone tai pieni palvelin on tähän riittävä. Myös olemassa olevaa palvelinta voidaan usein käyttää tähän. Tarvitaan laajakaistayhteys ja kiinteä nettiosoite. Tarvittavan yhteyden nopeus riippuu tietoaineistojen koosta, mutta ei yleensä ole ongelma.

Rajapintaohjelmiston asennus vie normaalisti noin tunnin. Sen lisäksi menee aikaa oman tietokannan kenttien määrittelemisessä tiedonvaihtostandardin mukaisiksi. Usein joudutaan tekemään muunnoksia, tiedon karkeistamista ja suodattamista, mikä voi viedä muutaman päivän työaikaa.

Palvelun ylläpito ei tämän jälkeen vaadi erityisiä toimia. Voidaan arvioida, että palvelimen hankinta, asentaminen ja ensimmäisen tietokannan muokkaaminen yhteiskäyttöön sopivaksi on noin 5000 € luokkaa kustannuksiltaan, mikäli työn suorittaa sen jo ennestään osaava henkilö. Seuraavien tietokantojen palveluun liittäminen vie 1-2 työpäivää kukin. Tällä hetkellä ei Suomessa ole käytettävissä mitään erityistä rahoitusmekanismia toiminnan rahoittamiseksi, mutta ympäristöhallinnon SETI-työryhmä on ehdottanut sellaisen perustamista.

Tuki ja opastus

Suomen GBIF-solmu opastaa mielellään kaikkia tietolähteeksi ryhtymisestä kiinnostuneita ja auttaa tarvittaessa kaikkien vaiheiden läpi viemisessä. Yhteystiedot: Hannu Saarenmaa, Digitarium, Länsikatu 15, 80101 Joensuu. Puhelin 050-4479668. helpdesk@gbif.fi.

GBIF-sihteeristö auttaa tarvittaessa palveluiden rekisteröimisessä ja aineistojen liittämisessä GBIF dataportaaliin. Yhteystiedot: Puhelin +45-35321479. helpdesk@gbif.org.