Af Jonny Brooks.
Stemme i KDnuggets Afstemning inspireret af dette indlæg:
Data Science / Machine Learning / Data Profession Jobtilfredshed
Ja, jeg er datalog, og ja, du læste titlen korrekt, men nogen måtte sige det. Vi læser så mange historier om, at datavidenskab er det 21. århundredes mest sexede job og de attraktive summer, man kan tjene som datavidenskabsmand, at det kan virke som det absolutte drømmejob. Hvis man tager i betragtning, at området indeholder en overflod af højt kvalificerede mennesker, der nørder for at løse komplekse problemer (ja, det er en positiv ting at “nørde”), er der alt at elske ved jobbet.
Men sandheden er, at dataloger typisk “bruger 1-2 timer om ugen på at lede efter et nyt job”, som det fremgår af denne artikel fra Financial Times. Endvidere fremgår det også af artiklen, at “Machine learning-specialister toppede listen over udviklere, der sagde, at de ledte efter et nyt job, med 14,3 procent. Dataloger lå på en tæt andenplads med 13,2 procent.” Disse data blev indsamlet af Stack Overflow i deres undersøgelse baseret på 64.000 udviklere.
Jeg har også været i den situation og har selv for nylig skiftet datavidenskabsjob.
Så hvorfor er der så mange datavidenskabsfolk, der søger nye job?
Hvor jeg svarer på det spørgsmål, bør jeg præcisere, at jeg stadig er datavidenskabsmand. I det store og hele elsker jeg jobbet, og jeg ønsker ikke at afholde andre fra at stræbe efter at blive dataloger, for det kan være sjovt, stimulerende og givende. Formålet med denne artikel er at spille djævelens advokat og afsløre nogle af de negative aspekter af jobbet.
Fra mit perspektiv er her 4 store grunde til, at jeg tror, at mange dataloger er utilfredse med deres job.
Forventninger stemmer ikke overens med virkeligheden
Big data er som teenage-sex: Alle taler om det, ingen ved rigtig, hvordan man gør det, alle tror, at alle andre gør det, så alle påstår, at de gør det… – Dan Ariely
Dette citat er så rammende. Mange junior dataloger jeg kender (dette inkluderer mig selv) ønskede at komme ind i datalogi, fordi det handlede om at løse komplekse problemer med seje nye maskinlæringsalgoritmer, der har stor betydning for en virksomhed. Det var en chance for at føle, at det arbejde, vi lavede, var vigtigere end alt det, vi har gjort før. Det er dog ofte ikke tilfældet.
Det faktum, at forventningerne ikke stemmer overens med virkeligheden, er efter min mening den ultimative årsag til, at mange dataloger forlader jobbet. Der er mange grunde til dette, og jeg kan umuligt komme med en udtømmende liste, men dette indlæg er i bund og grund en liste over nogle af de grunde, som jeg er stødt på.
Alle virksomheder er forskellige, så jeg kan ikke tale for dem alle, men mange virksomheder ansætter dataloger uden at have en passende infrastruktur på plads til at begynde at få værdi ud af AI. Dette bidrager til koldstartproblemet inden for AI. Kombiner dette med det faktum, at disse virksomheder undlader at ansætte senior/erfarne datamatikere før de ansætter juniorer, så har du nu en opskrift på et desillusioneret og ulykkeligt forhold for begge parter. Data scientist kom sandsynligvis ind for at skrive smarte maskinlæringsalgoritmer til at skabe indsigt, men kan ikke gøre dette, fordi deres første job er at ordne datainfrastrukturen og/eller oprette analytiske rapporter. I modsætning hertil ønskede virksomheden kun et diagram, som de kunne præsentere på deres bestyrelsesmøde hver dag. Virksomheden bliver så frustreret, fordi de ikke kan se, at der bliver drevet værdi hurtigt nok, og alt dette fører til, at data scientist er utilfreds i sin rolle.
Det faktum, at forventningerne ikke stemmer overens med virkeligheden, er efter min mening den ultimative årsag til, at mange data scientists forlader virksomheden. Der er mange grunde til dette, og jeg kan umuligt komme med en udtømmende liste, men dette indlæg er i bund og grund en liste over nogle af de grunde, som jeg er stødt på.
Alle virksomheder er forskellige, så jeg kan ikke tale for dem alle, men mange virksomheder ansætter data scientists uden at have en passende infrastruktur på plads til at begynde at få værdi ud af AI. Dette bidrager til koldstartproblemet inden for AI. Kombiner dette med det faktum, at disse virksomheder undlader at ansætte senior/erfarne datamatikere før de ansætter juniorer, så har du nu en opskrift på et desillusioneret og ulykkeligt forhold for begge parter. Data scientist kom sandsynligvis ind for at skrive smarte maskinlæringsalgoritmer til at skabe indsigt, men kan ikke gøre dette, fordi deres første job er at ordne datainfrastrukturen og/eller oprette analytiske rapporter. I modsætning hertil ønskede virksomheden kun et diagram, som de kunne præsentere på deres bestyrelsesmøde hver dag. Virksomheden bliver derefter frustreret, fordi de ikke kan se, at der hurtigt nok bliver drevet værdi, og alt dette fører til, at datavidenskabsmanden er utilfreds i sin rolle.
Robert Chang gav et meget indsigtsfuldt citat i sit blogindlæg med råd til junior datavidenskabsfolk:
Det er vigtigt at evaluere, hvor godt vores ambitioner stemmer overens med den kritiske vej i det miljø, vi befinder os i. Find projekter, teams og virksomheder, hvis kritiske vej er bedst afstemt med din.
Dette fremhæver det tovejsforhold mellem arbejdsgiveren og datavidenskabsmanden. Hvis virksomheden ikke er på det rigtige sted eller har mål, der er på linje med data scientistens, så vil det kun være et spørgsmål om tid, før data scientist vil finde noget andet.
For dem, der er interesseret Samson Hu har en fantastisk serie om, hvordan analytics teamet blev bygget på Wish, som jeg også fandt meget indsigtsfuld.
En anden grund til, at data scientists er desillusioneret er en lignende grund til, hvorfor jeg var desillusioneret, som akademiske verden: Jeg troede, at jeg ville være i stand til at gøre en enorm indflydelse på folk overalt, ikke kun i virksomheden. I virkeligheden, hvis virksomhedens kerneforretning ikke er maskinlæring (min tidligere arbejdsgiver er en medieforlagsvirksomhed), er det sandsynligt, at den datavidenskab, du laver, kun vil give små inkrementelle gevinster. Disse kan tilføje op til noget meget væsentligt, eller du kan være heldig at snuble over et guldmineprojekt, men det er mindre almindeligt.
Politikken hersker
Spørgsmålet om politik har allerede fået en glimrende artikel dedikeret til det: The most difficult thing in data science: politics, og jeg opfordrer dig til at læse den. De første par sætninger fra den artikel opsummerer stort set det, jeg vil sige:
Da jeg vågnede kl. 6 om morgenen for at studere Support Vector Machines tænkte jeg: “Det her er virkelig hårdt! Men, hey, i det mindste vil jeg blive meget værdifuld for min fremtidige arbejdsgiver!”. Hvis jeg kunne få fat i DeLorean’en, ville jeg rejse tilbage i tiden og kalde “Bulls**t!” på mig selv.
Hvis du seriøst tror, at viden om masser af maskinlæringsalgoritmer vil gøre dig til den mest værdifulde datalog, så gå tilbage til min første pointe ovenfor: Forventninger stemmer ikke overens med virkeligheden.
Sandheden er, at de mennesker i virksomheden, der har mest indflydelse, skal have en god opfattelse af dig. Det kan betyde, at du konstant skal udføre ad hoc-arbejde som f.eks. at hente tal fra en database for at give dem til de rigtige personer på det rigtige tidspunkt og udføre enkle projekter, bare for at de rigtige personer har den rigtige opfattelse af dig. Det var jeg nødt til at gøre meget på mit tidligere sted. Hvor frustrerende det end kan føles, var det en nødvendig del af jobbet.
3) Du er den person, man går til, når det gælder alt om data
I forlængelse af at gøre alt for at behage de rigtige mennesker, forstår de selvsamme mennesker med al magt ofte ikke, hvad der menes med “data scientist”. Det betyder, at du både skal være analyseekspert og rapporteringsmand, og lad os ikke glemme, at du også skal være databaseekspert.
Det er ikke kun ikke-tekniske chefer, der gør for mange antagelser om dine færdigheder. Andre kolleger inden for teknologi antager, at du ved alt datarelateret. Du kender til Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP, alt maskinlæring (og alt andet datarelateret, som du kan komme i tanke om – BTW, hvis du ser en jobspecifikation med alle disse ting skrevet på, så hold dig langt væk. Det lugter af en jobspecifikation fra en virksomhed, der ikke aner, hvad deres datastrategi er, og de vil ansætte hvem som helst, fordi de tror, at det vil løse alle deres dataproblemer at ansætte en hvilken som helst datamand).
Men det stopper ikke her. Fordi du ved alt dette, og fordi du naturligvis har adgang til ALLE data, forventes du at have svarene på ALLE spørgsmål ved……. godt, det burde være landet i den relevante persons indbakke for 5 minutter siden.
Det kan være svært at forsøge at fortælle alle, hvad du faktisk ved og har kontrol over. Ikke fordi nogen faktisk vil tænke mindre om dig, men fordi du som junior datavidenskabsmand med lidt brancheerfaring vil være bekymret for, at folk vil tænke mindre om dig. Det kan være en ret vanskelig situation.
4) Arbejde i et isoleret team
Når vi ser vellykkede dataprodukter, ser vi ofte ekspertdesignede brugergrænseflader med intelligente funktioner og vigtigst af alt et nyttigt output, som i det mindste opfattes af brugerne som værende løsningen på et relevant problem. Hvis en datalog kun bruger sin tid på at lære at skrive og udføre maskinlæringsalgoritmer, kan han/hun kun være en lille (om end nødvendig) del af et team, der fører til et vellykket projekt, som frembringer et værdifuldt produkt. Det betyder, at data science-teams, der arbejder isoleret, vil have svært ved at levere værdi!
Trods dette har mange virksomheder stadig data science-teams, der finder på deres egne projekter og skriver kode for at forsøge at løse et problem. I nogle tilfælde kan dette være tilstrækkeligt. Hvis der f.eks. kun er brug for et statisk regneark, der produceres en gang om kvartalet, kan det give en vis værdi. På den anden side, hvis målet er at optimere give intelligente forslag i et skræddersyet produkt til opbygning af hjemmesider, så vil dette involvere mange forskellige færdigheder, som ikke bør forventes for langt de fleste dataloger (kun den ægte datalogiske enhjørning kan løse dette). Så hvis projektet tages op af et isoleret datavidenskabsteam, vil det højst sandsynligt mislykkes (eller tage meget lang tid, fordi det ikke er let at organisere isolerede hold til at arbejde på samarbejdsprojekter i store virksomheder).
Så for at være en effektiv datavidenskabsmand i industrien er det ikke tilstrækkeligt blot at klare sig godt i Kaggle-konkurrencer og gennemføre nogle onlinekurser. Det indebærer (u)heldigvis (alt efter hvordan man ser på det) at forstå, hvordan hierarkier og politik fungerer i erhvervslivet. At finde en virksomhed, der er på linje med din kritiske vej, bør være et centralt mål, når du søger efter et datavidenskabsjob, der opfylder dine behov. Det kan dog stadig være nødvendigt at justere dine forventninger til, hvad du kan forvente af en datavidenskabsrolle.
Hvis nogen har yderligere kommentarer, spørgsmål eller indvendinger, er du velkommen til at kommentere, fordi konstruktiv diskussion er nødvendig for at hjælpe håbefulde datavidenskabsfolk med at træffe velinformerede beslutninger om deres karrierevej.
Jeg håber ikke, at jeg har afskrækket dig fra jobbet.
Tak for læsning 🙂
Bio: Jonny Brooks, @Jonny_CBB er en ph.d.-studerende og håbefuld datavidenskabsmand. Elsker maskinlæringsalgoritmer, videnskabskommunikation og amerikansk fodbold.
Original. Reposted with permission.
Relateret:
- Why Data Scientists Must Focus on Developing Product Sense
- How Do I Get My First Data Science Job?
- A Day in the Life of a Data Scientist: Del 4
Skriv et svar