12 belangrijke tips voor het leren van gegevenswetenschap

Schrijver: Laura McKinney
Datum Van Creatie: 3 April 2021
Updatedatum: 1 Juli- 2024
Anonim
Uitleg scores Diatoetsen voor ouders
Video: Uitleg scores Diatoetsen voor ouders

Inhoud


Bron: Artinspiring / Dreamstime.com

Afhaal:

Datawetenschappers hebben duidelijk sterke wis- en codeervaardigheden nodig, maar communicatie en andere soft skills zijn ook essentieel voor succes.

Data scientist geldt als de beste baan voor 2019 in Amerika op Glassdoor. Met een gemiddeld basissalaris van $ 108.000 en een arbeidstevredenheid van 4,3 van de 5, plus een redelijk aantal voorspelde openingen, is dat niet verwonderlijk. De vraag is: wat moet men doen om op het goede spoor te komen om in aanmerking te komen voor deze baan?

Om daar achter te komen, hebben we gezocht naar het advies dat wordt gegeven aan diegenen die op dit carrièrepad willen komen. Veel komt neer op de harde vaardigheden in codering en wiskunde. Maar die krachtige berekening alleen is niet voldoende. Succesvolle datawetenschappers moeten ook in staat zijn om zakenmensen te spreken op hun eigen voorwaarden, hetgeen vraagt ​​om de mogelijkheden die samenhangen met soft skills en leiderschap. (Voor meer informatie over de taken van een datawetenschapper, zie Jobrol: Datawetenschapper.)


Bouwen aan de educatieve basis: drie primaire tips

Drace Zhan, een datawetenschapper aan de NYC Data Science Academy, benadrukt de behoefte aan een educatieve basis die de essentie van codering en wiskunde omvat:

  1. R / Python + SQL. Als je niet over de codeervaardigheden beschikt, heb je veel netwerkkracht en andere gebieden nodig om dit tekort te vergroten. Ik heb datawetenschappers gezien met zwakke wiskunde en weinig domeinervaring, maar ze zijn altijd gedragen door een sterk vermogen om te coderen. Python is ideaal, maar R is een geweldig hulpmiddel om op terug te vallen. Het is het beste om beide in je arsenaal te hebben. SQL is ook uiterst belangrijk voor een data-analist.

  2. Sterke wiskundige vaardigheden. Een goed begrip hebben van enkele van de meest gebruikte methoden: gegeneraliseerde lineaire modellen, beslissingsboom, K-gemiddelden en statistische tests is beter dan een breed beeld te hebben van verschillende modellen of specialisaties zoals RNN.

Dat zijn centrale vaardigheden om op voort te bouwen, hoewel sommige experts eraan toevoegen. Een KDnuggets-lijst bevat bijvoorbeeld de coderingscomponenten die Zhan heeft genoemd en voegt enkele andere nuttige dingen toe om te weten op technisch gebied, waaronder het Hadoop-platform Apache Spark, gegevensvisualisatie, ongestructureerde gegevens, machine learning en AI.


Maar als we onze aanwijzingen nemen uit een onderzoek naar de meest gebruikte hulpmiddelen die zijn geïdentificeerd voor gebruik in het echte leven door een Kaggle-onderzoek, krijgen we enigszins verschillende resultaten. Zoals u kunt zien in de grafiek van de top 15 hieronder, maken Python, R en SQL gemakkelijk de top drie, maar de vierde zijn Jupyter-notebooks, gevolgd door TensorFlow, Amazon Web Services, Unix shell, Tableau, C / C ++, NoSQL , MATLAB / Octave en Java, allemaal vóór Hadoop en Spark. Nog een toevoeging die mensen kan verrassen, is Microsoft Excel Data Mining.

Afbeelding afkomstig van Kaggle

De KDnuggets-lijst bevat ook een tip over formeel onderwijs. De meeste datawetenschappers beschikken over geavanceerde graden: 46 procent promoveert en 88 procent heeft minimaal een masterdiploma. De bachelordiploma die ze bezitten zijn over het algemeen verdeeld over gerelateerde gebieden. Ongeveer een derde zit in wiskunde en statistiek, wat het populairst is voor deze carrière. De volgende meest populaire is een graad in informatica, in het bezit van 19 procent, en engineering, de keuze van 16 procent. Natuurlijk worden de technische hulpmiddelen die specifiek zijn voor data science vaak niet bestudeerd in de opleidingen, maar in gespecialiseerde bootcamps of via online cursussen.

Meer dan cursussen: nog twee tips

Hank Yun, een onderzoeksassistent op de longafdeling van Weill Cornell Medicine en student aan de NYC Data Science Academy, adviseert aspirant-gegevenswetenschappers om te plannen waar ze aan gaan werken en een mentor te vinden. Hij zei:

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

Je kunt je programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Maak niet de fout die ik heb gemaakt door jezelf te vertellen dat je data science kent omdat je een cursus hebt gevolgd en een certificaat hebt ontvangen. Dat is een goed begin, maar als je begint met studeren, ga dan voor een project. Zoek dan een mentor in het veld en start meteen een passieproject! Als je vers bent, weet je niet wat je niet weet, dus het helpt wanneer iemand er is om je te begeleiden naar wat belangrijk voor je is en wat niet. Je wilt niet veel tijd besteden aan studeren zonder er iets voor te laten zien!

Weten welk gereedschap u uit uw gereedschapskist moet halen: tip om voorop te blijven lopen

Gezien de ongelijkheid in de rangorde van data science-tools, kunnen sommigen zich verbijsterd voelen over waar ze zich op moeten concentreren. Celeste Fralick, hoofd datawetenschapper bij beveiligingssoftwarebedrijf McAfee, behandelt het probleem in een CIO-artikel dat de essentiële vaardigheden voor een datawetenschapper onderzoekt en verklaart: “Een datawetenschapper moet voorop blijven lopen in onderzoek, evenals begrijpen welke technologie wanneer moet worden toegepast. ”Dat betekent dat je niet wordt gelokt door 'sexy en nieuw, wanneer het werkelijke probleem' iets veel geavanceerder vereist. "Bewust zijn van de rekenkosten voor het ecosysteem, interpreteerbaarheid, latentie, bandbreedte en andere systeemgrensvoorwaarden - evenals de volwassenheid van de klant - helpt de datawetenschapper zelf om te begrijpen welke technologie moet worden toegepast."

Essentiële zachte vaardigheden: nog zes tips

Het punt dat Fralick ter sprake brengt, heeft betrekking op de niet-technische vaardigheden die de functie van datawetenschapper vereist. Daarom bevat de KDnuggets-lijst deze vier: intellectuele nieuwsgierigheid, teamwerk, communicatieve vaardigheden en zakelijk inzicht. Zhan nam ook belangrijke soft skills op in zijn tips voor datawetenschappers, door 'communicatievaardigheden' zoals KDnuggets te identificeren, maar door 'domeinexpertise' te gebruiken in plaats van 'zakelijk inzicht'. Hoe het ook wordt genoemd, het verwijst naar praktische toepassing van data science op de bedrijf. (Zie Het belang van communicatievaardigheden voor technische professionals voor meer informatie over communicatievaardigheden.)

Olivia Parr-Rud bood hier haar eigen draai aan, voegde nog twee soft skills toe, met een nadruk op de rol van creativiteit, bewerend: "Ik denk dat datawetenschap evenzeer een kunst is als een wetenschap," iets dat moet worden getrokken op de sterke punten van beide kanten van de hersenen. “Veel mensen praten over data science als een carrière die voornamelijk de linkerhersenhelft gebruikt. Ik heb ontdekt dat datawetenschappers hun hele brein moeten gebruiken om succesvol te zijn. ”

Ze legde uit dat vooruitgang in het veld niet alleen technische competentie vereist, maar creativiteit en de visie die nodig is voor leiderschap:

De meeste taken voor de linkerhersenhelft / lineaire taken kunnen worden geautomatiseerd of uitbesteed. Om als data-wetenschap een concurrentievoordeel te bieden, moeten we patronen kunnen herkennen en grote hoeveelheden informatie kunnen synthetiseren met behulp van beide kanten van onze hersenen. En we moeten innovatieve denkers zijn. Veel van de beste resultaten komen voort uit de integratie van het linker- en rechterbrein.

Ze benadrukte ook waarom het duidelijk essentieel is om een ​​visie te communiceren:

Als datawetenschappers is het ons doel om data te gebruiken om onze klanten te helpen hun winst te vergroten. De meeste leidinggevenden begrijpen niet wat we doen of hoe we het doen. We moeten dus denken als leiders en onze bevindingen en aanbevelingen communiceren in taal die onze stakeholders begrijpen en vertrouwen.

The Data Dozen

De belangrijkste tips bevatten een groter aantal technische hulpmiddelen, vaardigheden en mogelijkheden, evenals minder kwantificeerbare kwaliteiten zoals aanleg voor creativiteit en leiderschap. Uiteindelijk is het niet alleen een spel met getallen. Omdat data science niet alleen gaat over het creëren van modellen in een vacuüm, maar praktische toepassingen bedenken om echte problemen voor bedrijven op te lossen, moeten degenen die in het veld zullen slagen niet alleen technologie beheersen, maar ook hun bedrijfsdomein kennen en de behoeften van de verschillende leden van het team op het werk.