12 cose che vorrei sapere prima di iniziare come Data Scientist

Sono stato uno scienziato di dati per poco più di tre anni. Gli studenti mi chiedono consigli sul campo, quindi ecco alcuni dei miei pensieri. In primo luogo, elencherò un paio di cose che vorrei sapere quando sono entrato nel campo, e in secondo luogo, il mio consiglio standard per gli studenti che vorrebbero diventare data scientist dopo la laurea.

Quello che vorrei sapere di Data Science

Tanti strumenti di cui preoccuparsi, così pochi che effettivamente utilizzerai

"Scienza dei dati" è un termine vago, quindi trattalo di conseguenza

La scienza dei dati può coprire praticamente qualsiasi lavoro quantitativo. Due data scientist di diverse società, o anche all'interno della stessa azienda, potrebbero svolgere tipi di lavoro totalmente diversi. Il campo si è gradualmente frammentato in titoli di lavoro più specifici, come ingegnere di dati, analista di dati, ingegnere di machine learning e così via. Questo processo di specializzazione accelererà sicuramente in futuro. Pertanto, quando parli di data science o di candidarti a un lavoro, prova a capire quale sia la definizione specifica specifica di data science per quella situazione e assicurati che corrisponda alla tua. In particolare, è utile scoprire quali saranno i risultati finali in uno specifico ruolo di data science. Dovrai scrivere il codice che vive in un sistema di produzione? Dovrai creare pipeline di dati? Producerai analisi di dati offline e, in caso affermativo, che tipo di analisi? Capire quali sono i risultati di cui sarai responsabile è spesso meglio che leggere le descrizioni dei lavori effettivi, poiché le descrizioni dei lavori tendono a essere scritte per attirare una vasta gamma di candidati per un ruolo piuttosto che dettagliare realmente ciò che il lavoro comporta.

La sindrome dell'imposter è una parte normale del lavoro

Ogni scienziato di dati sperimenta la sindrome di impostore. Ho scoperto che una parte significativa del lavoro è la navigazione. Ci saranno sempre cose che non conosci. Come accennato in precedenza, il campo è scarsamente definito, quindi esiste un numero incredibilmente vasto di argomenti che potrebbero plausibilmente rientrare nella definizione di "scienza dei dati". Se leggi blog o Quora, ti sembra di dover essere di classe mondiale ad ogni competenza per diventare uno scienziato di dati: uno statista di dottorato di Stanford, un ingegnere di Google calibur e un esperto di affari di livello McKinsey, tutti racchiusi in uno solo. La realtà è che nessuno è perfetto in tutto. Anche se in qualche modo sei magicamente perfetto in ogni abilità, useresti solo un sottoinsieme di quelle abilità per ogni progetto e perderai pratica con quelle che non hai usato. Tutto quello che devi fare per essere un bravo scienziato di dati è trovare un modo di usare i dati per essere utile. Ci sono molti modi diversi per farlo. Va bene sentire la sindrome di impostore di volta in volta. Sappi solo che è normale e non lasciarti abbattere. Invece, prova ad abbracciare situazioni in cui hai qualcosa di nuovo da imparare come eccitanti opportunità di crescita e ricorda di tenere a mente quella sensazione la prossima volta che incontri qualcun altro che non sa qualcosa che fai.

Non dovrai mai conoscere tutti gli strumenti

Hadoop, Spark, Yarn, Julia, Kafka, Airflow, Scalding, Redshift, Hive, TensorFlow, Kubernetes ... ci sono un numero apparentemente infinito di linguaggi, framework e strumenti di codifica per la scienza dei dati. Quando non hai mai lavorato prima in un lavoro di data science, ti sembra di doverli conoscere tutti per essere un vero scienziato di dati. Ogni volta che ho sentito qualcuno menzionare uno strumento che non conoscevo durante la conversazione, ero solito andare fuori di testa in silenzio internamente e prendere appunti mentalmente per trovare una lezione di Coursera sull'argomento che avrei potuto abbuffare, stat. Fortunatamente, puoi tranquillamente ignorare il 99% degli strumenti di data science disponibili. Alla fine, la tua azienda avrà il proprio set di strumenti. Tutti nell'azienda diventeranno bravi a usare quegli strumenti, e saranno completamente all'oscuro della maggior parte degli altri. Inoltre, nessuna buona compagnia se ne preoccuperà se in precedenza hai utilizzato il suo set di strumenti specifico. A meno che tu non stia cercando un ruolo davvero specializzato, si aspetteranno che tu possa imparare il loro stack sul posto di lavoro. Hai solo bisogno di sapere abbastanza per passare un'intervista. Scegli un piccolo set di strumenti che funzionano per te. Mettiti comodo con loro e non preoccuparti di diramarti troppo fino a quando non avrai un lavoro.

Tuttavia, impara bene i tuoi strumenti di base

Non devi conoscere tutti gli strumenti, ma dovresti approfondire gli strumenti di base che usi quotidianamente. Non ti pentirai mai di aver appreso le parti noiose di qualunque dialetto SQL utilizzato dalla tua azienda, ad esempio come scrivere una query ottimizzata. Se usi R, scopri i dettagli di ggplot2 e dplyr. Se usi Python, cerca di capire davvero i panda, il numpy e lo scipy. Ho fatto finta di conoscere git per mesi, ma mi sono sempre legato in git-knot. Alla fine, mi sono rotto e ho letto un ottimo tutorial sullo strumento. Poi, mi sono sentito git-invincibile. Se ti ritrovi a utilizzare qualcosa regolarmente, prenditi del tempo per leggere semplicemente il suo manuale.

Sei un esperto in un dominio, non solo metodi

La scienza dei dati è nata come un compromesso tra ruoli di ricerca scientifica e ruoli di analista aziendale. Il primo utilizzava metodi potenti ma influenzava solo indirettamente le decisioni aziendali, mentre il secondo influenzava direttamente gli imprenditori ma utilizzava strumenti limitati per farlo. I data scientist hanno il massimo impatto quando combinano entrambe le parti, mescolando una profonda conoscenza del dominio con i giusti strumenti statistici e ingegneristici per prendere decisioni migliori o utili prodotti di dati.

Nella mia esperienza, la maggior parte dei data scientist si sporge troppo nella direzione dello scienziato ricercatore e non abbastanza lontano dal percorso dell'analista aziendale. Amano usare tecniche fantasiose, ma non investono molto nella conoscenza del loro dominio. Vanno alle conferenze sull'apprendimento automatico, ma più raramente partecipano a conferenze, per esempio, sul marketing o sui rischi. Molti data scientist non si rendono nemmeno conto di avere un dominio. Qualsiasi team con conoscenze accumulate su ciò che funziona e non ha conoscenze di dominio e puoi conoscerlo dai tuoi partner commerciali o parlando con team simili in altre società. Conoscere il tuo dominio è metà della battaglia, quindi investi del tempo lì, proprio come fai per le tue "abilità forti".

L'abilità più importante è il pensiero critico

Una grande parte di qualsiasi lavoro di conoscenza è determinare ciò che è importante e cosa no. Puoi fare l'analisi perfetta, ma se si scopre che stavi risolvendo il problema sbagliato o la tua intuizione non è attuabile, non importa. Vale la pena spendere attivamente tempo a pensare al contesto più ampio del tuo lavoro. Quali sono le sfide più importanti per la tua squadra e perché? La tua attuale tabella di marcia è il modo migliore per aiutare il tuo team o dovresti spostare il tuo piano? Le risposte a queste domande possono cambiare nel tempo, quindi è importante effettuare il check-in regolarmente. Ho visto molti data scientist che marciano per troppo tempo lungo un percorso semplicemente per inerzia.

Cosa fare come studente per diventare un Data Scientist

Prendi lezioni pertinenti, non solo lezioni tecniche

Naturalmente, le lezioni di statistica e informatica saranno utili sul lavoro. Tuttavia, molte lezioni possono essere utili. Tutto ciò che ti spinge a esercitarti a pensare in modo critico e a fare argomenti scritti, come filosofia, storia o inglese, può essere utile, dal momento che è molto di ciò che fai nella scienza dei dati. Materie di scienze sociali come l'economia o la psicologia quantitativa possono essere ottime per acquisire esperienza facendo inferenze causali. Una lezione a cui ripenso spesso è la lezione di lingua persuasiva che ho seguito, che invoco regolarmente nel mio lavoro. Prendi la tua giusta quota di lezioni tecniche, ma impara a fondo e segui i tuoi interessi. La mia strategia era sempre quella di andare con grandi professori su grandi programmi. Lo consiglierei comunque a qualsiasi studente universitario, scienza dei dati o meno.

Esercitati nella comunicazione - scritta, visiva e verbale

Le abilità comunicative sono estremamente importanti e cronicamente sottovalutate nella scienza dei dati. Il tuo impatto può essere buono quanto le tue capacità comunicative poiché devi convincere gli altri a prendere decisioni o aiutare a costruire prodotti basati sulle tue analisi. Pertanto, molte carriere di dati molto tecnici degli scienziati sono implicitamente limitate perché non possono scrivere o parlare chiaramente. La pratica - in tutte e tre le forme, scritta, visiva e verbale - fa davvero la differenza. Segui le lezioni con molta scrittura, soprattutto se ritieni di essere uno scrittore debole o se l'inglese non è la tua lingua madre. Molti campus hanno centri di scrittura per aiutarti a ottenere feedback. Questa è una risorsa di cui approfittare mentre ce l'hai.

Lavora su problemi di dati reali

Kaggle è ottimo per imparare a modellare. Tuttavia, con Kaggle, la parte più difficile è già stata fatta per te: raccogliere, pulire e definire il problema da risolvere con quei dati. Il modo migliore per prepararsi a un lavoro come data scientist è utilizzare dati reali per rispondere a domande reali. Il motivo è semplice: è il più vicino che puoi ottenere per un lavoro effettivo senza averne effettivamente uno. Trova qualcosa che ti interessa e ottieni i tuoi dati. Scraping i dati da Internet è molto più semplice di quanto la maggior parte dei principianti realizzi con pacchetti come BeautifulSoup, Scrapy e rvest. Wikipedia e Reddit sono buoni obiettivi se hai bisogno di ispirazione, ma la scelta migliore è qualcosa che sei veramente entusiasta di esplorare. Quindi, fai alcune domande che ti interessano e vedi quanto bene puoi rispondere. Pulisci i dati, crea alcuni grafici e modelli, quindi scrivi le tue conclusioni in qualche luogo pubblico. Sarà lento all'inizio, ma è perché stai imparando. Se puoi, prova a risolvere i problemi del mondo reale per le persone nella tua comunità, come ad esempio fare statistiche per una squadra sportiva della scuola o fare analisi di polling per il giornale della scuola, al fine di fare pratica anche con la gestione delle parti interessate.

Pubblica il tuo lavoro e ottieni feedback come puoi

L'unico modo per migliorare qualsiasi cosa è ottenere feedback. Il lavoro sui dati non fa eccezione. Al giorno d'oggi, è così facile pubblicare quaderni su Github o siti Web personali. Se scrivi di un argomento che interessa ai tuoi amici, puoi imparare molto da come rispondono. Cosa ti ha entusiasmato della tua presentazione? Cosa non era chiaro? Sei stato in grado di convincerli del tuo argomento principale? Si sono annoiati a leggere e non sono arrivati ​​alla fine? Fondamentalmente, rendi disponibile il tuo codice e prova a ottenere recensioni di codice da altri studenti in modo da potervi migliorare l'un l'altro. Se usi una tecnica di una lezione che stai frequentando, potresti persino mostrare a un professore quello che hai fatto e ottenere un feedback di esperti mentre mostri qualche iniziativa. E, chissà, se una delle tue analisi diventa virale su Internet, potresti persino ottenere un lavoro!

Vai agli eventi - hackathon, conferenze, Meetup

Nella misura in cui la tua geografia e il tuo budget lo consentono, prova a interagire con il mondo esterno della scienza dei dati mentre sei uno studente. In questo modo ti darà una migliore comprensione delle realtà del campo e ti darà un vantaggio per il networking. Ci sono Meetup di scienze dei dati e hackathon nella maggior parte delle principali città e, nella mia esperienza, molte persone sono molto amichevoli con gli studenti. Le conferenze di solito hanno biglietti scontati per gli studenti. Andare con gli amici può anche fare una gita divertente insieme!

Sii flessibile con il modo in cui entri nel campo

La scienza dei dati è un campo competitivo. Ci sono un numero limitato di aziende tecnologiche con grandi marchi di data science e la battaglia per i loro stage estivi e ruoli di base è feroce. Tuttavia, una volta che hai anche una piccola quantità di esperienza professionale nel campo della scienza dei dati, è molto più facile ottenere un secondo lavoro sul campo. I data scientist con qualche anno sotto la cintura, anche di aziende poco conosciute, hanno spesso pochi problemi ad essere assunti presso le migliori aziende. Pertanto, se vuoi diventare uno scienziato dei dati e non hai un'offerta immediata da una delle aziende famose, considera di ampliare la tua ricerca di lavoro. Ci sono molte aziende con problemi interessanti da risolvere.

Grazie per aver letto! Mi piacerebbe sentire i tuoi pensieri - secondo il bollettino del feedback di raccolta sopra! - quindi sentiti libero di lasciare un commento qui sotto.