Door Jonny Brooks.

Stem in KDnuggets Poll geïnspireerd door dit bericht:
Data Science / Machine Learning / Data Profession Job Satisfaction

Waarom zoveel datawetenschappers hun baan verlaten

Ja, ik ben een datawetenschapper en ja, je hebt de titel goed gelezen, maar iemand moest het zeggen. We lezen zoveel verhalen over datawetenschap als de beste baan van de 21e eeuw en de aantrekkelijke bedragen die je als datawetenschapper kunt verdienen, dat het de absolute droombaan kan lijken. Als je bedenkt dat het veld een overvloed aan hoogopgeleide mensen bevat die geek out zijn om complexe problemen op te lossen (ja het is een positief ding om te “geek out”), is er alles om van de baan te houden.

Maar de waarheid is dat data wetenschappers typisch “1-2 uur per week besteden aan het zoeken naar een nieuwe baan”, zoals vermeld in dit artikel van de Financial Times. Verder staat in het artikel dat “Machine learning-specialisten met 14,3 procent de lijst aanvoeren van ontwikkelaars die zeggen op zoek te zijn naar een nieuwe baan. Data scientists waren een krappe tweede, met 13,2 procent.” Deze gegevens werden verzameld door Stack Overflow in hun enquête op basis van 64.000 ontwikkelaars.

Ook ik heb in die positie gezeten en ben onlangs zelf van data science-baan gewisseld.

Dus waarom zijn zoveel datawetenschappers op zoek naar een nieuwe baan?

Voordat ik die vraag beantwoord, moet ik verduidelijken dat ik nog steeds een datawetenschapper ben. Over het algemeen houd ik van het werk en ik wil anderen niet ontmoedigen om datawetenschapper te willen worden, want het kan leuk, stimulerend en lonend zijn. Het doel van dit artikel is om advocaat van de duivel te spelen en enkele van de negatieve aspecten van de baan bloot te leggen.

Vanuit mijn perspectief zijn hier 4 grote redenen waarom ik denk dat veel datawetenschappers ontevreden zijn met hun baan.

Verwachting komt niet overeen met realiteit

Verwachting komt niet overeen met realiteit

Big data is als tienerseks: iedereen praat erover, niemand weet echt hoe je het moet doen, iedereen denkt dat iedereen het doet, dus iedereen beweert dat hij het doet… – Dan Ariely

Dit citaat is zo treffend. Veel jonge datawetenschappers die ik ken (waaronder ikzelf) wilden datawetenschap gaan doen omdat het ging om het oplossen van complexe problemen met coole nieuwe machine learning-algoritmen die een enorme impact hebben op een bedrijf. Dit was een kans om het gevoel te hebben dat het werk dat we deden belangrijker was dan alles wat we eerder hadden gedaan. Dit is echter vaak niet het geval.

Naar mijn mening is het feit dat de verwachting niet overeenkomt met de realiteit de ultieme reden waarom veel datawetenschappers vertrekken. Er zijn veel redenen voor en ik kan onmogelijk met een uitputtende lijst komen, maar deze post is in wezen een lijst van enkele van de redenen die ik ben tegengekomen.

Elk bedrijf is anders, dus ik kan niet voor hen allemaal spreken, maar veel bedrijven huren datawetenschappers in zonder een geschikte infrastructuur op zijn plaats om te beginnen waarde uit AI te halen. Dit draagt bij aan het koude start probleem bij AI. Koppel dit aan het feit dat deze bedrijven nalaten senior/ervaren data-beoefenaars aan te werven alvorens juniors aan te werven, en je hebt een recept voor een gedesillusioneerde en ongelukkige relatie voor beide partijen. De datawetenschapper kwam waarschijnlijk binnen om slimme algoritmen voor machinaal leren te schrijven om inzicht te verschaffen, maar kan dit niet doen omdat zijn eerste taak bestaat uit het uitzoeken van de data-infrastructuur en/of het maken van analytische rapporten. Het bedrijf daarentegen wilde alleen een grafiek die ze elke dag in hun bestuursvergadering konden presenteren. Het bedrijf raakt vervolgens gefrustreerd omdat ze niet snel genoeg waarde zien worden gedreven en dit alles leidt ertoe dat de data scientist ongelukkig is in zijn rol.

Naar mijn mening is het feit dat de verwachting niet overeenkomt met de realiteit de ultieme reden waarom veel data scientists vertrekken. Er zijn veel redenen voor en ik kan onmogelijk met een uitputtende lijst komen, maar deze post is in wezen een lijst met enkele van de redenen die ik ben tegengekomen.

Elk bedrijf is anders, dus ik kan niet voor hen allemaal spreken, maar veel bedrijven huren datawetenschappers in zonder dat er een geschikte infrastructuur is om te beginnen met het verkrijgen van waarde uit AI. Dit draagt bij aan het koude start probleem bij AI. Koppel dit aan het feit dat deze bedrijven nalaten senior/ervaren data-beoefenaars aan te werven alvorens juniors aan te werven, en je hebt een recept voor een gedesillusioneerde en ongelukkige relatie voor beide partijen. De datawetenschapper kwam waarschijnlijk binnen om slimme algoritmen voor machinaal leren te schrijven om inzicht te verschaffen, maar kan dit niet doen omdat zijn eerste taak bestaat uit het uitzoeken van de data-infrastructuur en/of het maken van analytische rapporten. Het bedrijf daarentegen wilde alleen een grafiek die ze elke dag in hun bestuursvergadering konden presenteren. Het bedrijf raakt vervolgens gefrustreerd omdat ze niet snel genoeg zien dat er waarde wordt gecreëerd en dit alles leidt ertoe dat de datawetenschapper ongelukkig is in zijn rol.

Robert Chang gaf een zeer inzichtelijk citaat in zijn blogpost met advies aan junior datawetenschappers:

Het is belangrijk om te evalueren hoe goed onze aspiraties aansluiten bij het kritieke pad van de omgeving waarin we ons bevinden. Zoek projecten, teams en bedrijven waarvan het kritieke pad het beste aansluit bij dat van jou.

Dit benadrukt de tweerichtingsrelatie tussen de werkgever en de datawetenschapper. Als het bedrijf niet op de juiste plaats zit of doelen heeft die op één lijn liggen met die van de datawetenschapper, dan is het slechts een kwestie van tijd voordat de datawetenschapper iets anders vindt.

Voor degenen die geïnteresseerd zijn, heeft Samson Hu een fantastische serie over hoe het analytics-team bij Wish is opgebouwd, die ik ook zeer inzichtelijk vond.

Een andere reden waarom datawetenschappers gedesillusioneerd zijn, is een soortgelijke reden als waarom ik gedesillusioneerd was door de academische wereld: Ik geloofde dat ik in staat zou zijn om een enorme impact te hebben op mensen overal, niet alleen binnen het bedrijf. In werkelijkheid, als de core business van het bedrijf niet machinaal leren is (mijn vorige werkgever is een uitgeverij van media), is het waarschijnlijk dat de datawetenschap die je doet slechts kleine incrementele winsten zal opleveren. Die kunnen oplopen tot iets heel significants of je kunt het geluk hebben op een goudmijnproject te stuiten, maar dat komt minder vaak voor.

Politiek viert hoogtij

Aan de kwestie van de politiek is al een briljant artikel gewijd: The most difficult thing in data science: politics en ik verzoek u dringend het te lezen. De eerste paar zinnen uit dat artikel vatten vrij goed samen wat ik wil zeggen:

Toen ik om 6 uur ’s ochtends wakker werd om Support Vector Machines te bestuderen dacht ik: “Dit is echt moeilijk! Maar, hé, ik zal in ieder geval heel waardevol worden voor mijn toekomstige werkgever!”. Als ik de DeLorean kon krijgen, zou ik teruggaan in de tijd en “Bulls**t!” tegen mezelf roepen.

Als je serieus denkt dat je de meest waardevolle datawetenschapper wordt als je veel algoritmen voor machinaal leren kent, kom dan terug op mijn eerste punt hierboven: verwachtingen komen niet overeen met de werkelijkheid.

De waarheid is dat de mensen in het bedrijf met de meeste slagkracht een goed beeld van je moeten hebben. Dat kan betekenen dat je voortdurend ad hoc werk moet doen, zoals getallen uit een database halen om op het juiste moment aan de juiste mensen te geven, eenvoudige projecten doen, alleen maar om ervoor te zorgen dat de juiste mensen het juiste beeld van je hebben. In mijn vorige baan moest ik dat vaak doen. Hoe frustrerend het ook kan zijn, het was een noodzakelijk onderdeel van het werk.

3) Je bent de aangewezen persoon voor alles wat met data te maken heeft

Naast alles wat je doet om de juiste mensen tevreden te stellen, begrijpen diezelfde mensen met alle invloed vaak niet wat er met “data scientist” wordt bedoeld. Dit betekent dat je de analyse-expert bent, maar ook de go-to rapportage-man en laten we niet vergeten dat je ook de database-expert bent.

Het zijn niet alleen niet-technische leidinggevenden die te veel veronderstellingen maken over je vaardigheden. Andere collega’s in de technologie gaan ervan uit dat je alles weet wat met data te maken heeft. Je kent je weg in Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP, alles wat met machine learning te maken heeft (en alles wat je maar kunt bedenken op het gebied van data – BTW als je een functieomschrijving ziet met al deze zaken erop geschreven, blijf dan uit de buurt. Het riekt naar een vacaturespecificatie van een bedrijf dat geen idee heeft wat hun datastrategie is en ze nemen iedereen aan omdat ze denken dat het inhuren van een data-persoon al hun dataproblemen zal oplossen).

Maar daar houdt het niet op. Omdat je dit allemaal weet en je uiteraard toegang hebt tot ALLE gegevens, wordt van je verwacht dat je de antwoorden hebt op ALLE vragen van……. nou, het had 5 minuten geleden in de inbox van de relevante persoon moeten landen.

Proberen om iedereen te vertellen wat je eigenlijk weet en in de hand hebt, kan moeilijk zijn. Niet omdat iemand echt minder van je zal denken, maar omdat je je als junior data scientist met weinig ervaring in de industrie zorgen zult maken dat mensen minder van je zullen denken. Dit kan een lastige situatie zijn.

4) Werken in een geïsoleerd team

Wanneer we succesvolle dataproducten zien, zien we vaak deskundig ontworpen gebruikersinterfaces met intelligente mogelijkheden en, het allerbelangrijkste, een bruikbare output die door de gebruikers op zijn minst wordt gezien als een oplossing voor een relevant probleem. Als een data scientist zijn tijd alleen besteedt aan het leren schrijven en uitvoeren van machine learning algoritmes, dan kan hij slechts een klein (zij het noodzakelijk) onderdeel zijn van een team dat leidt tot het succes van een project dat een waardevol product oplevert. Dit betekent dat data science-teams die geïsoleerd werken, moeite zullen hebben om waarde te leveren!

Desondanks hebben veel bedrijven nog steeds data science-teams die met hun eigen projecten komen en code schrijven om te proberen een probleem op te lossen. In sommige gevallen kan dit voldoende zijn. Bijvoorbeeld, als alles wat nodig is een statische spreadsheet is die eens per kwartaal wordt geproduceerd, dan kan het enige waarde bieden. Aan de andere kant, als het doel is om intelligente suggesties te optimaliseren in een op maat gemaakt website bouwproduct, dan zal dit veel verschillende vaardigheden vereisen die niet verwacht mogen worden van de overgrote meerderheid van data scientists (alleen de echte data science unicorn kan dit oplossen). Dus als het project wordt aangenomen door een geïsoleerd data science team is de kans groot dat het mislukt (of erg lang duurt omdat het organiseren van geïsoleerde teams om te werken aan samenwerkingsprojecten in grote ondernemingen niet gemakkelijk is).

Om een effectieve data scientist in het bedrijfsleven te zijn is het dus niet voldoende om alleen maar goed te doen in Kaggle competities en een aantal online cursussen te volgen. Het houdt (on)gelukkig (afhankelijk van hoe je het bekijkt) in dat je moet begrijpen hoe hiërarchieën en politiek in het bedrijfsleven werken. Het vinden van een bedrijf dat is afgestemd op uw kritieke pad zou een belangrijk doel moeten zijn bij het zoeken naar een data science-baan die aan uw behoeften zal voldoen. Het kan echter nog steeds nodig zijn dat u uw verwachtingen van wat u van een data science-rol kunt verwachten, bijstelt.

Als iemand aanvullende opmerkingen, vragen of bezwaren heeft, voel je dan vrij om commentaar te geven, omdat constructieve discussie nodig is om aspirant-datawetenschappers te helpen goed geïnformeerde beslissingen te nemen over hun carrièrepad.

Ik hoop dat ik je niet van de baan heb afgeschrikt.

Bedankt voor het lezen 🙂

Bio: Jonny Brooks, @Jonny_CBB is een PhD student en hoopvol data scientist. Houdt van machine learning algoritmes, wetenschapscommunicatie en American football.

Original. Herplaatst met toestemming.

Gerelateerd:

  • Waarom Data Scientists zich moeten richten op het ontwikkelen van Product Sense
  • Hoe krijg ik mijn eerste Data Science baan?
  • Een dag in het leven van een Data Scientist: Deel 4