Siirry sisältöön
Text mining helped analyse a million entries on smoking - Tekstilouhinta auttoi analysoimaan miljoona tupakointikirjausta

Etusivu > Kaikki artikkelit > Tekstilouhinta auttoi analysoimaan miljoona tupakointikirjausta

Tekstilouhinta auttoi analysoimaan miljoona tupakointikirjausta

Tekstilouhinta vähensi kliinisten asiantuntijoiden työtä ja nopeutti tutkimusprosessia.

Medaffcon halusi selvittää tosielämän tiedon perusteella, kuinka tupakointi vaikuttaa leikkauskomplikaatioihin. Vastauksia tähän kysymykseen etsittiin akateemisena yhteistyönä tutkimalla leikkauksessa käyneiden potilaiden potilaskertomuksia. Potilaskertomuksiin lääkärit kirjaavat potilaasta erilaisia tietoa, muun muassa sen, tupakoiko potilas.

Tupakointietoa ei kuitenkaan löydy potilaskertomuksista rakenteisena tietona. Se tarkoittaa, että potilastietojärjestelmissä ei ole omaa kenttää, johon lääkäri merkitsisi tupakoiko potilas vai ei. Sen sijaan lääkärit kirjaavat tiedon potilaan tupakoinnista vapaamuotoisesti laajemman potilastekstin joukkoon. Merkinnälle ei ole mitään yhtenäistä tapaa, joten kirjauksissa oli valtavasti erilaisia ilmauksia.

Miljoona lausetta tupakoinnista

Kun aineistoa käytiin läpi, erilaisia tupakointiin liittyviä lauseita löytyi kaikkiaan miljoona. Kuinka käydä miljoona lausetta läpi ja analysoida ne? Mahdollisuuksia on erilaisia. Yksi mahdollisuus on todella monen kliinisen asiantuntijan palkkaaminen tiedon analysointiin. Toinen taas aineiston raju karsiminen työmäärän kaventamiseksi.

Näitä kumpaakaan ei kuitenkaan käytetty, vaan Medaffcon kehitti aineiston analysoinnin avuksi koneoppimiseen perustuvan luokittelijan. Sen opettamiseksi kliiniset asiantuntijat luokittelivat yhteensä 20 000 tupakointiin liittyvää lausetta. Tämän työn kaksi kliinistä asiantuntijaa teki päivässä Medaffconin esikäsittelyn ja aputyökalujen tukemana. Tämän jälkeen koneoppimiseen perustuvan algoritmin avulla analysoitiin ja luokiteltiin loput miljoona lausetta.

– Ilman algoritmia tällainen analyysi olisi ollut mahdoton tehdä. Potilasmäärä jäisi ihan erilaiseksi. Aiemmin vastaaviin tutkimuksiin saatiin mukaan tuhansia potilaita, nyt satojatuhansia potilaita, Medaffconin data scientist Juhani Aakko sanoo.

Kirjaamisen laatu on olennaista

Tämän kaltainen tekstilouhinta on arkipäivää rakenteettoman datan käsittelyssä ja se mahdollistaa laajojen aineistojen käytön. Juhani Aakko arvioi, että erilaisten koneoppimiseen perustuvien algoritmien käyttö kasvaa terveydenhuollon tiedon analysoinnissa.

– Koneoppimisen menetelmien käyttöä rajoittaa se, että ne tarvitsisivat valtavasti dataa opettamiseen. Terveydenhuollossa dataa on olemassa, mutta kliinikoiden pitäisi käydä sitä läpi suuria määriä, jotta algoritmiä voidaan opettaa. 

Vaikka datan analysoinnin menetelmät kehittyisivät kuinka hienoiksi tahansa, yksi vanha perusasia kuitenkin pysyy ja se on kirjaamisen hyvä laatu.

– Pystymme analysoimaan vain sellaista tietoa, joka on kirjattu. Kirjaamisen laatuun ja yhtenäisiin kirjauksen periaatteisiin olisi hyvä kiinnittää huomiota. Toivottavasti terveydenhuollon arkeen saadaan uusia keinoja, joilla kirjaamista voidaan helpottaa ja jotka poimivat jo kirjaamisvaiheessa osan tiedosta suoraan rakenteiseen muotoon, Aakko sanoo.

Takaisin ylös