Toimittaja Jonny Brooks.

Vote in KDnuggets Poll inspired by this post:
Data Science / Machine Learning / Data Profession Job Satisfaction

Why so many data scientists are leaving their jobs

Joo, olen data scientist ja kyllä, luit otsikon oikein, mutta jonkun oli pakko sanoa se. Luemme niin paljon tarinoita siitä, että datatiede on 2000-luvun seksikkäin työ ja että datatieteilijänä voi tienata niin houkuttelevia summia rahaa, että se voi tuntua aivan unelma-ammatilta. Kun otetaan huomioon, että alalla on runsaasti korkeasti koulutettuja ihmisiä, jotka nörttailevat ratkaistakseen monimutkaisia ongelmia (kyllä, ”nörttailu” on positiivinen asia), työssä on kaikkea rakastettavaa.

Totuus on kuitenkin se, että datatieteilijät ”käyttävät tyypillisesti 1-2 tuntia viikossa uuden työn etsimiseen”, kuten tässä Financial Timesin artikkelissa todetaan. Lisäksi artikkelissa todetaan myös, että ”koneoppimisen asiantuntijat olivat 14,3 prosentin osuudella sen listan kärjessä niiden kehittäjien joukossa, jotka kertoivat etsivänsä uutta työtä”. Tietojenkäsittelytieteilijät olivat niukasti perässä, 13,2 prosenttia.” Nämä tiedot keräsi Stack Overflow kyselytutkimuksessaan, joka perustui 64 000 kehittäjään.

Minäkin olen ollut tuossa tilanteessa ja olen hiljattain itsekin vaihtanut datatieteilijän työpaikkaa.

Miksi niin monet datatieteilijät sitten etsivät uusia työpaikkoja?

Ennen kuin vastaan tuohon kysymykseen, minun on syytä täsmentää, että olen edelleen datatieteilijä. Kaiken kaikkiaan rakastan tätä työtä, enkä halua lannistaa muita pyrkimästä datatieteilijäksi, koska se voi olla hauskaa, innostavaa ja palkitsevaa. Tämän artikkelin tarkoituksena on leikkiä paholaisen asianajajaa ja paljastaa joitakin työn kielteisiä puolia.

Näkökulmastani katsottuna tässä on neljä suurta syytä, joiden vuoksi monet datatieteilijät ovat mielestäni tyytymättömiä työhönsä.

Odotukset eivät vastaa todellisuutta

Odotukset eivät vastaa todellisuutta

Big data on kuin teiniseksin harrastaminen: kaikki puhuvat siitä, kukaan ei oikeasti osaa tehdä sitä, kaikki luulevat, että kaikki muutkin tekevät sitä, joten kaikki väittävät tekevänsä sitä… – Dan Ariely

Tämä sitaatti on niin osuva. Monet tuntemani nuoret datatieteilijät (tämä koskee myös itseäni) halusivat päästä datatieteen pariin, koska kyse oli monimutkaisten ongelmien ratkaisemisesta uusilla hienoilla koneoppimisalgoritmeilla, joilla on valtava vaikutus liiketoimintaan. Tämä oli mahdollisuus tuntea, että työ, jota teimme, oli tärkeämpää kuin mikään, mitä olimme tehneet aiemmin. Näin ei kuitenkaan useinkaan ole.

Minusta se, että odotukset eivät vastaa todellisuutta, on perimmäinen syy siihen, miksi monet datatieteilijät lähtevät. Tähän on monia syitä, enkä voi mitenkään laatia tyhjentävää luetteloa, mutta tämä viesti on lähinnä luettelo joistakin kohtaamistani syistä.

Jokainen yritys on erilainen, joten en voi puhua kaikkien puolesta, mutta monet yritykset palkkaavat datatieteilijöitä ilman sopivaa infrastruktuuria, jonka avulla tekoälystä voidaan alkaa saada hyötyä. Tämä edistää tekoälyn kylmäkäynnistysongelmaa. Kun tähän yhdistetään se, että nämä yritykset eivät palkkaa vanhempia/kokeneita data-asiantuntijoita ennen junioreiden palkkaamista, on nyt resepti pettyneeseen ja onnettomaan suhteeseen molemmille osapuolille. Tietoasiantuntija tuli todennäköisesti kirjoittamaan älykkäitä koneoppimisalgoritmeja, joiden avulla saadaan tietoa, mutta hän ei voi tehdä sitä, koska hänen ensimmäinen tehtävänsä on datainfrastruktuurin selvittäminen ja/tai analyyttisten raporttien luominen. Yritys taas halusi vain kaavion, jonka se voi esitellä hallituksen kokouksessa joka päivä. Yritys turhautuu, koska se ei näe, että arvoa tuotetaan tarpeeksi nopeasti, ja kaikki tämä johtaa siihen, että datatieteilijä on tyytymätön tehtäväänsä.

Mielestäni se, että odotukset eivät vastaa todellisuutta, on perimmäinen syy siihen, miksi monet datatieteilijät lähtevät. Tähän on monia syitä, enkä pysty laatimaan tyhjentävää luetteloa, mutta tämä viesti on lähinnä luettelo joistakin kohtaamistani syistä.

Jokainen yritys on erilainen, joten en voi puhua kaikkien puolesta, mutta monet yritykset palkkaavat datatieteilijöitä ilman sopivaa infrastruktuuria, jonka avulla tekoälystä voidaan alkaa saada hyötyä. Tämä edistää tekoälyn kylmäkäynnistysongelmaa. Kun tähän yhdistetään se, että nämä yritykset eivät palkkaa vanhempia/kokeneita data-asiantuntijoita ennen junioreiden palkkaamista, on nyt resepti pettyneeseen ja onnettomaan suhteeseen molemmille osapuolille. Tietoasiantuntija tuli todennäköisesti kirjoittamaan älykkäitä koneoppimisalgoritmeja, joiden avulla saadaan tietoa, mutta hän ei voi tehdä sitä, koska hänen ensimmäinen tehtävänsä on datainfrastruktuurin selvittäminen ja/tai analyyttisten raporttien luominen. Yritys taas halusi vain kaavion, jonka se voi esitellä hallituksen kokouksessa joka päivä. Yritys sitten turhautuu, koska se ei näe arvon tuottamista riittävän nopeasti, ja kaikki tämä johtaa siihen, että datatieteilijä on tyytymätön rooliinsa.

Robert Chang antoi blogikirjoituksessaan erittäin oivaltavan sitaatin, jossa hän antaa neuvoja nuorille datatieteilijöille:

On tärkeää arvioida, kuinka hyvin pyrkimyksemme ovat linjassa sen ympäristön kriittisen polun kanssa, jossa olemme. Etsi projekteja, tiimejä ja yrityksiä, joiden kriittinen polku on parhaiten linjassa omasi kanssa.

Tässä korostuu työnantajan ja datatieteilijän välinen kaksisuuntainen suhde. Jos yritys ei ole oikeassa paikassa tai sen tavoitteet eivät ole linjassa datatieteilijän tavoitteiden kanssa, on vain ajan kysymys, milloin datatieteilijä löytää jotain muuta.

Sille, joita kiinnostaa, Samson Hu:lla on fantastinen sarja siitä, miten analytiikkatiimi rakennettiin Wishissä, jota pidin myös hyvin oivaltavana.

Toinen syy siihen, että datatieteilijät ovat pettyneitä, on samanlainen kuin syy siihen, miksi minäkin olin pettymys, joka akatemiaan: Uskoin, että voisin vaikuttaa valtavasti ihmisiin kaikkialla, en vain yrityksessä. Todellisuudessa, jos yrityksen ydinliiketoiminta ei ole koneoppimista (edellinen työnantajani on mediakustannusyhtiö), on todennäköistä, että tekemäsi datatiede tuottaa vain pieniä lisäetuja. Näistä voi muodostua jotain hyvin merkittävää, tai saatat olla onnekas ja törmätä kultakaivosprojektiin, mutta tämä on harvinaisempaa.

Politiikka hallitsee

Kysymykselle politiikasta on jo omistettu loistava artikkeli: The most difficult thing in data science: politics ja kehotan teitä lukemaan sen. Pari ensimmäistä lausetta tuosta artikkelista kiteyttävät melko hyvin sen, mitä haluan sanoa:

Kun heräsin aamukuudelta opiskelemaan Support Vector Machinesia, ajattelin: ”Tämä on todella vaikeaa! Mutta hei, ainakin minusta tulee erittäin arvokas tulevalle työnantajalleni!”. Jos saisin DeLoreanin, palaisin ajassa taaksepäin ja huutaisin itselleni ”Bulls**t!”.

Jos tosissasi luulet, että jos osaat paljon koneoppimisalgoritmeja, sinusta tulee arvokkain datatieteilijä, palaa takaisin ensimmäiseen kohtaan, jonka esitin edellä: odotukset eivät vastaa todellisuutta.

Totuus on se, että vaikutusvaltaisimmilla ihmisillä on oltava sinusta hyvä käsitys. Se voi tarkoittaa, että sinun on jatkuvasti tehtävä tilapäistä työtä, kuten haettava tietokannasta numeroita, jotka voit antaa oikeille ihmisille oikeaan aikaan, ja tehtävä yksinkertaisia projekteja vain siksi, että oikeilla ihmisillä on oikea käsitys sinusta. Jouduin tekemään tätä paljon edellisessä työpaikassani. Niin turhauttavaa kuin se voikin tuntua, se oli välttämätön osa työtä.

3) Olet yhteyshenkilö kaikkeen dataan liittyvissä asioissa

Seurauksena siitä, että teet mitä tahansa miellyttääksesi oikeita ihmisiä, juuri nämä samat ihmiset, joilla on kaikki vaikutusvalta, eivät useinkaan ymmärrä, mitä ”datatieteilijällä” tarkoitetaan. Tämä tarkoittaa, että sinusta tulee analytiikka-asiantuntija sekä raportointiasiantuntija, älkäämme unohtako, että sinusta tulee myös tietokanta-asiantuntija.

Eivät vain ei-tekniset johtajat tee liikaa oletuksia osaamisestasi. Muut teknologia-alalla työskentelevät kollegat olettavat, että tiedät kaiken dataan liittyvän. Osaat Sparkin, Hadoopin, Hiven, Pigin, SQL:n, Neo4J:n, MySQL:n, Pythonin, R:n, Scalan, Tensorflow’n, A/B-testauksen, NLP:n, kaiken koneoppimisen (ja kaiken muun dataan liittyvän, minkä voit keksiä – jos näet työpaikkamäärittelyn, johon on kirjoitettu kaikki nämä, pysy kaukana. Se haiskahtaa sellaiselta yritykseltä, jolla ei ole aavistustakaan datastrategiastaan ja joka palkkaa kenet tahansa, koska luulee, että kenen tahansa data-asiantuntijan palkkaaminen ratkaisee kaikki dataongelmat).

Mutta se ei lopu tähän. Koska tiedät kaiken tämän ja sinulla on ilmeisesti pääsy KAIKKIIN tietoihin, sinulta odotetaan vastauksia KAIKKIIN kysymyksiin……. no, niiden olisi pitänyt päätyä asianomaisen henkilön postilaatikkoon viisi minuuttia sitten.

Yritä kertoa kaikille, mitä oikeasti tiedät ja hallitset, voi olla vaikeaa. Ei siksi, että kukaan oikeasti ajattelisi sinusta vähemmän, vaan siksi, että nuorena datatieteilijänä, jolla on vähän kokemusta alalta, pelkäät, että ihmiset ajattelevat sinusta vähemmän. Tämä voi olla varsin vaikea tilanne.

4) Työskentely eristetyssä tiimissä

Kun näemme menestyksekkäitä datatuotteita, näemme usein asiantuntevasti suunniteltuja käyttöliittymiä, joissa on älykkäitä ominaisuuksia ja ennen kaikkea hyödyllinen tuotos, jonka käyttäjät ainakin kokevat ratkaisevan olennaisen ongelman. Jos datatieteilijä viettää aikansa vain oppimalla, miten koneoppimisalgoritmeja kirjoitetaan ja toteutetaan, hän voi olla vain pieni (vaikkakin välttämätön) osa tiimiä, joka johtaa arvokasta tuotetta tuottavan projektin onnistumiseen. Tämä tarkoittaa, että eristyksissä työskentelevät datatieteiden tiimit eivät pysty tuottamaan arvoa!

Tästä huolimatta monissa yrityksissä on edelleen datatieteiden tiimejä, jotka keksivät omia projektejaan ja kirjoittavat koodia yrittäessään ratkaista ongelmaa. Joissakin tapauksissa tämä voi riittää. Jos esimerkiksi tarvitaan vain staattinen laskentataulukko, joka tuotetaan kerran vuosineljänneksessä, se voi tuottaa jonkin verran arvoa. Toisaalta, jos tavoitteena on optimoida tarjota älykkäitä ehdotuksia räätälöidyssä verkkosivuston rakennustuotteessa, tämä edellyttää monia erilaisia taitoja, joita ei pitäisi odottaa suurimmalta osalta datatieteilijöistä (vain todellinen datatieteen yksisarvinen voi ratkaista tämän). Jos hankkeeseen ryhtyy erillinen datatieteiden tiimi, se todennäköisesti epäonnistuu (tai kestää hyvin kauan, koska erillisten tiimien organisoiminen työskentelemään yhteistoiminnallisen hankkeen parissa suurissa yrityksissä ei ole helppoa).

Tehokkaaksi teollisuudessa toimivaksi datatieteilijäksi ei siis riitä pelkkä hyvä menestyminen Kaggle-kilpailuissa ja joidenkin verkkokurssien suorittaminen. Siihen kuuluu (epä)onneksi (riippuen siitä, mistä näkökulmasta asiaa tarkastelee) sen ymmärtäminen, miten hierarkiat ja politiikka toimivat yrityksissä. Sellaisen yrityksen löytämisen, joka on linjassa kriittisen polkusi kanssa, pitäisi olla keskeinen tavoite, kun etsit tarpeitasi tyydyttävää datatieteen työpaikkaa. Saatat kuitenkin vielä joutua sopeuttamaan uudelleen odotuksiasi siitä, mitä datatieteilijän tehtävältä voi odottaa.

Jos jollakulla on lisäkommentteja, kysymyksiä tai vastaväitteitä, kommentoi rohkeasti, sillä rakentava keskustelu on välttämätöntä, jotta aloittelevat datatieteilijät voivat tehdä tietoon perustuvia päätöksiä urapolustaan.

Toivottavasti en lannistanut sinua.

Kiitokset, että olet lukenut 🙂

Bio: Jonny Brooks, @Jonny_CBB on tohtoriopiskelija ja toiveikas datatieteilijä. Rakastaa koneoppimisen algoritmeja, tiedeviestintää ja amerikkalaista jalkapalloa.

Original. Reposted with permission.

Related:

  • Why Data Scientists Must Focus on Developing Product Sense
  • How Do I Get My First Data Science Job?
  • A Day in the Life of a Data Scientist: Osa 4