Se vuoi imparare la scienza dei dati, prendi alcune di queste lezioni di statistica

Credito d'immagine

Un anno fa, ero un fanatico dei numeri senza alcuna conoscenza di programmazione. Dopo aver provato un corso di programmazione online, sono stato così ispirato che mi sono iscritto a uno dei migliori programmi di informatica in Canada.

Due settimane dopo, mi sono reso conto che avrei potuto imparare tutto ciò di cui avevo bisogno tramite edX, Coursera e Udacity. Quindi ho abbandonato.

La decisione non è stata difficile. Potrei imparare il contenuto che volevo più veloce, più efficiente e per una frazione del costo.

Avevo già un diploma universitario e, forse ancora più importante, avevo già l'esperienza universitaria. Pagare $ 30K + per tornare a scuola sembrava irresponsabile.

Ho iniziato a creare il mio master in scienze dei dati utilizzando corsi online poco dopo, dopo aver realizzato che era più adatto a me dell'informatica. Ho analizzato l'introduzione al panorama della programmazione. Per il primo articolo di questa serie, ho raccomandato alcune classi di programmazione per il data scientist principiante.

Ora su statistiche e probabilità.

Ho seguito alcuni corsi e verificato parti di molti. Conosco le opzioni disponibili e quali competenze sono necessarie per gli studenti che si preparano per un ruolo di analista o scienziato di dati.

Per questa guida, ho trascorso più di 15 ore a cercare di identificare ogni introduzione online alle statistiche e ai corsi di probabilità offerti a novembre 2016, estraendo parti chiave di informazioni dai loro programmi e recensioni e compilando le loro valutazioni. Per questo compito, mi sono rivolto a nient'altro che alla comunità open source di Class Central e al suo database con migliaia di valutazioni e recensioni dei corsi.

Home page di Class Central.

Dal 2011, il fondatore di Class Central Dhawal Shah ha tenuto d'occhio i corsi online più che probabilmente chiunque altro al mondo. Dhawal mi ha aiutato personalmente a mettere insieme questo elenco di risorse.

Come abbiamo scelto i corsi da considerare

Ogni corso deve soddisfare quattro criteri:

  1. Deve essere un corso introduttivo con poca o nessuna statistica o esperienza di probabilità richiesta.
  2. Deve essere su richiesta o offerto ogni pochi mesi.
  3. Deve avere una durata decente: almeno dieci ore in totale per il completamento stimato.
  4. Deve essere un corso online interattivo, quindi niente libri o tutorial di sola lettura. Sebbene questi siano modi fattibili per apprendere statistiche e probabilità, questa guida si concentra sui corsi.

Riteniamo di aver seguito tutti i corsi importanti che soddisfano i criteri sopra indicati. Dato che apparentemente ci sono centinaia di corsi su Udemy, abbiamo scelto di prendere in considerazione solo quelli più recensiti e più votati. Tuttavia, c'è sempre la possibilità che ci siamo persi qualcosa. Per favore fateci sapere nella sezione commenti se abbiamo lasciato un buon corso.

Come abbiamo valutato i corsi

Abbiamo compilato la valutazione media e il numero di recensioni da Class Central e altri siti di recensioni. Abbiamo calcolato una valutazione media ponderata per ciascun corso. Se una serie aveva più corsi (come l'Università del Texas nella serie in due parti "Foundations of Data Analysis" di Austin), abbiamo calcolato la valutazione media ponderata per tutti i corsi. Abbiamo letto recensioni di testo e utilizzato questo feedback per integrare le valutazioni numeriche.

Abbiamo effettuato chiamate di giudizio del programma soggettivo basate su tre fattori:

  1. Il grado in cui ciascun corso insegna la statistica attraverso la codifica di esempi, preferibilmente in R o Python.
  2. Copertura dei fondamenti di probabilità e statistica. La copertura di statistiche descrittive, statistiche inferenziali e teoria delle probabilità è l'ideale.
  3. Quanto del programma è rilevante per la scienza dei dati? Il programma ha contenuti specializzati come la genomica, come fanno molti corsi di biostatistica? Il programma copre concetti avanzati non usati spesso nella scienza dei dati?
R e Python sono i due linguaggi di programmazione più popolari per la scienza dei dati.

Perché scegliere il codice target?

William Chen, uno scienziato di dati di Quora che ha un master in Matematica applicata di Harvard, ha scritto quanto segue in questa popolare risposta di Quora alla domanda: "Come posso apprendere le statistiche per la scienza dei dati?"

Per ogni aspirante scienziato di dati, consiglierei vivamente di apprendere le statistiche con un forte focus sulla codifica degli esempi, preferibilmente in Python o R.

Poiché gran parte del lavoro statistico di uno scienziato di dati viene svolto con il codice, è utile acquisire familiarità con gli strumenti più diffusi.

Statistiche E Probabilità

La probabilità non è statistica e viceversa. La mia spiegazione preferita delle loro differenze è della Stony Brook University:

La probabilità si occupa di prevedere la probabilità di eventi futuri, mentre la statistica prevede l'analisi della frequenza degli eventi passati.

Spiegano che "la probabilità è principalmente una branca teorica della matematica, che studia le conseguenze delle definizioni matematiche", mentre "la statistica è principalmente una branca della matematica applicata, che cerca di dare un senso alle osservazioni nel mondo reale".

Le statistiche sono generalmente considerate come uno dei pilastri della scienza dei dati. La probabilità, sebbene generi meno attenzione, è anche una parte importante di un curriculum di scienza dei dati.

Joe Blitzstein, un professore del dipartimento di statistica di Harvard, ha dichiarato in questa popolare risposta di Quora che anche gli aspiranti scienziati dei dati dovrebbero avere una buona base nella teoria della probabilità.

Justin Rising, uno scienziato di dati con un dottorato di ricerca. nelle statistiche di Wharton, ha chiarito che questa "buona base" significa sentirsi a proprio agio con probabilità di livello universitario.

Le nostre scelte per le migliori statistiche e corsi di probabilità per data scientist sono ...

  • Fondamenti di analisi dei dati - Parte 1: Statistica che utilizza R dell'Università del Texas ad Austin (edX)
  • Fondamenti di analisi dei dati - Parte 2: Statistica inferenziale dell'Università del Texas ad Austin (edX)

"Foundations of Data Analysis" include due dei migliori corsi di statistica recensiti disponibili con una valutazione media ponderata di 4,48 su 5 stelle su 20 recensioni. La serie è uno dei soli corsi nella parte alta delle classificazioni per insegnare le statistiche con particolare attenzione alla codifica degli esempi. Sebbene non menzionato nei titoli dei corsi, i programmi di studio contengono un contenuto di probabilità sufficiente per soddisfare i nostri criteri di prova. Questi corsi insieme hanno un ottimo mix di copertura dei fondamenti e portata per il data scientist principiante.

Michael J. Mahometa, docente e consulente statistico senior presso l'Università del Texas ad Austin, è l'istruttore della serie "Foundations of Data Analysis". Entrambi i corsi della serie sono gratuiti. La sequenza temporale stimata è di 6 settimane a 3-6 ore settimanali per ciascun corso. Un importante recensore ha dichiarato:

Corso eccellente! Ho partecipato alla prima parte e mi è piaciuto molto, quindi è stato molto facile decidere di continuare con la seconda parte. Il Dr. Mahometa e il suo team sono insegnanti molto bravi e il loro materiale è di altissima qualità. Gli esercizi sono interessanti e i materiali (video, laboratori e problemi) sono appropriati e ben scelti. Consiglio questo corso a chiunque sia interessato all'analisi statistica (come introduzione all'apprendimento automatico, ai big data, alla scienza dei dati, ecc.). Su una scala da 1 a 10, do 50!

Si prega di notare che la descrizione e il programma di ciascun corso sono accessibili tramite i collegamenti forniti sopra.

L'Università del Texas alla pagina edX di Austin.

Una specializzazione stellare

Aggiornamento (5 dicembre 2016): la nostra seconda raccomandazione originale, la serie "Stat2x: Introduzione alle statistiche" di UC Berkeley, ha chiuso la loro iscrizione poche settimane dopo la pubblicazione di questo articolo. Abbiamo promosso la nostra migliore raccomandazione nella sezione "La competizione" di conseguenza.

  • Statistica con specializzazione R della Duke University su Coursera

... che contiene i seguenti cinque corsi:

  • Introduzione a Probabilità e dati
  • Statistica inferenziale
  • Regressione lineare e modellazione
  • Statistica bayesiana
  • Statistiche con R Capstone

Questa specializzazione in cinque corsi si basa sull'eccellente corso di analisi dei dati e inferenza statistica di Duke, che aveva una valutazione media ponderata di 4,82 stelle su 55 recensioni. La specializzazione è insegnata dallo stesso professore, oltre ad alcuni membri di facoltà aggiuntivi. Le prime recensioni sui nuovi corsi individuali, che hanno una valutazione media ponderata di 3,6 stelle su 5 recensioni, dovrebbero essere prese con un granello di sale a causa delle piccole dimensioni del campione. I programmi sono completi e hanno sezioni complete dedicate alla probabilità.

Dr. Mine Çetinkaya-Rundel è l'istruttore principale per la specializzazione. I singoli corsi possono essere controllati gratuitamente, anche se non hai accesso alla valutazione. Le recensioni suggeriscono che la specializzazione è "vale la pena spendere". Ogni corso ha una linea temporale stimata di 4-5 settimane a 5-7 ore a settimana. Un importante recensore ha affermato quanto segue sul corso originale su cui si basava la specializzazione:

Uno dei migliori corsi che ho seguito finora. [Dr. La mia Çetinkaya-Rundel è] una grande insegnante, molto coinvolta negli scambi con i suoi studenti. Una grande varietà di approcci e strumenti per l'insegnamento. Molta pratica attraverso brevi test, laboratori di programmazione R e un progetto approfondito. Un forum molto vivace con molto aiuto per far fronte alle difficoltà. Il corso non è troppo difficile, ma la varietà del materiale proposto richiede che gli studenti vengano coinvolti in modo sostanziale. Un libro molto carino disponibile gratuitamente con molti esercizi.
Pagina Coursera della Duke University.

Vuoi più probabilità?

  • Introduzione alla probabilità - La scienza dell'incertezza del Massachusetts Institute of Technology (MIT)

Considera il corso MIT sopra se vuoi un tuffo più profondo nel mondo della probabilità. È un capolavoro con una valutazione media ponderata di 4,91 su 5 stelle su 34 recensioni. Attenzione: è una sfida e molto più lunga della maggior parte dei MOOC. Il livello a cui il corso copre la probabilità non è necessario anche per il principiante della scienza dei dati.

John Tsitsiklis e Patrick Jaillet, entrambi professori del Dipartimento di ingegneria elettrica e informatica presso il MIT, insegnano il corso. I contenuti di questo corso sono essenzialmente gli stessi della corrispondente classe MIT (Probabilistic Systems Analysis and Applied Probability) - un corso che è stato offerto e continuamente perfezionato in oltre 50 anni. La linea temporale stimata è di 16 settimane a 12 ore settimanali. Un importante recensore ha dichiarato:

Molti corsi online sono annacquati in qualche modo, ma questo sembra un corso rigoroso basato sull'esercizio fisico simile a quello che avresti di persona in una scuola superiore come il MIT. I professori presentano concetti in lezioni che sono state ovviamente affinate a una messa a fuoco laser attraverso anni di esperienza pedagogica - non c'è un solo secondo sprecato nelle presentazioni e vanno esattamente al giusto ritmo e dettaglio per farti capire i concetti. Gli esercizi ti faranno lavorare per le tue conoscenze e sono fondamentali per interiorizzare veramente i concetti. Questo è il miglior corso online che ho seguito in qualsiasi materia.

Ti incoraggio a visitare la pagina di Class Central per questo corso per leggere il resto delle recensioni.

Pagina edX del MIT.

La competizione

La nostra selezione # 1 ha avuto una valutazione media ponderata di 4,48 su 5 stelle su 20 recensioni. Diamo un'occhiata alle altre alternative.

  • MedStats: Statistics in Medicine (Stanford University / Stanford OpenEdx): grande programma in cui gli esempi hanno un focus medico. Copre un po 'di programmazione R alla fine, anche se non tanto quanto la serie di UT Austin. Un'opzione degna per chiunque, anche per coloro che non prendono di mira la medicina. Ha una valutazione media ponderata di 4.58 stelle su 32 recensioni.
  • SOC120x: I “Heart” Stats: Learning to Love Statistics (Università di Notre Dame / edX): si rivolge a un pubblico non tecnico, anche se probabilmente sarebbe buono per chiunque. Nessuna codifica. Buon valore di produzione. Il corso e gli istruttori sembrano davvero divertenti. Ha una valutazione media ponderata di 4,54 stelle su 12 recensioni.
  • QM101x: Statistics for Business (Indian Institute of Management Bangalore / edX): parte di una serie di 4 corsi. Focus aziendale. Buon programma che utilizza la codifica. Gli ultimi due corsi della serie sono inediti a novembre 2016, quindi non posso ancora esprimere un giudizio. Ha una valutazione media ponderata di 4,43 stelle su 27 recensioni.
  • Workshop in Probability and Statistics (Udemy): Insegnato dal Dr. George Ingersoll, Decano associato dei programmi Executive MBA presso la UCLA Anderson School of Management. Costa soldi. Usa Excel. Ha una valutazione media ponderata di 4,4 stelle su 452 recensioni.
  • Introduzione alle statistiche descrittive (San Jose State University / Udacity): parte di una serie di 2 corsi. Video di dimensioni ridotte. Nessuna codifica. Ha una valutazione media ponderata di 3,88 stelle su 8 recensioni.
  • Introduzione alla statistica inferenziale (San Jose State University / Udacity): parte di una serie di 2 corsi. Ho seguito entrambi i corsi come rinfrescanti per le mie lezioni di statistica sugli studenti universitari e ho avuto una comprensione più approfondita. Mi è piaciuto molto lo stile di insegnamento di Katie Kormanik (vedi video sotto). Video di dimensioni ridotte. Nessuna codifica. Ha una valutazione media ponderata di 4,4 stelle su 5 recensioni.
  • 6.008.1x: Probabilità computazionale e inferenza (Massachusetts Institute of Technology / edX): uno dei due corsi / serie per insegnare le statistiche con l'obiettivo di codificare esempi in Python. Le recensioni suggeriscono che è necessaria una precedente esperienza sulle statistiche e che il corso è un po 'disorganizzato. Ha una valutazione media ponderata a 4 stelle su 12 recensioni.
  • Statistica di base (Università di Amsterdam / Coursera): uno dei due corsi di statistica nella specializzazione Metodi e statistica dell'Università di Amsterdam. Una recensione estremamente positiva sulla serie e sui suoi istruttori. Nessuna codifica. Ha una valutazione media ponderata di 4.06 stelle su 8 recensioni.
  • Statistica inferenziale (Università di Amsterdam / Coursera): uno dei due corsi di statistica nella specializzazione Metodi e statistica dell'Università di Amsterdam. Una recensione estremamente positiva sulla serie e sui suoi istruttori. Nessuna codifica. Ha una valutazione media ponderata a 4 stelle su 3 recensioni.
I metodi e le statistiche sulle scienze sociali dell'Università di Amsterdam contengono statistiche di base e statistiche inferenziali.
  • PH525.1x: Statistics and R (Harvard University / edX): parte di una serie di 7 corsi su edX. Focus sulle scienze della vita. Utilizza la programmazione R, ma le recensioni suggeriscono che la serie di UT Austin è migliore. Ha una valutazione media ponderata di 3,96 stelle su 26 recensioni.
  • PH525.3x: Inferenza statistica e modellistica per esperimenti ad alto rendimento (Harvard University / edX): parte di una serie di 7 corsi su edX. Focus sulle scienze della vita. Utilizza la programmazione R, ma le recensioni suggeriscono che la serie di UT Austin è migliore. Ha una valutazione media ponderata di 4,63 stelle su 4 recensioni.
  • Introduzione alla statistica (Udacity): questo è uno dei primi corsi di Udacity e ha i suoi difetti, come descritto in questa memorabile recensione di un educatore universitario. Nessuna codifica. Ha una valutazione media ponderata di 3,93 stelle su 41 recensioni.
  • Boot Camp 1 di matematica matematica (Johns Hopkins University / Coursera): parte di una serie di 2 corsi. Focus sulla biostatistica. Ha una valutazione media ponderata di 3,13 stelle su 23 recensioni.
  • Boot Camp 2 di matematica matematica (Johns Hopkins University / Coursera): parte di una serie di 2 corsi. Focus sulla biostatistica. Ha una valutazione media di 3,83 stelle ponderata su 3 recensioni.
  • KIexploRx: esplora le statistiche con R (Karolinska Institutet / edX): più un corso di esplorazione dei dati che un corso di statistica. Usa la codifica. Ha una valutazione media ponderata di 3,77 stelle oltre 22 recensioni.
  • Inferenza statistica (Johns Hopkins University / Coursera): uno dei due corsi di statistica sulla specializzazione in scienza dei dati della JHU. Recensioni negative. Ha una valutazione media ponderata di 2,9 stelle su 29 recensioni.
  • Modelli di regressione (Johns Hopkins University / Coursera): uno dei due corsi di statistica sulla specializzazione in scienza dei dati della JHU. Recensioni negative. Ha una valutazione media ponderata di 2,73 stelle oltre 30 recensioni.
  • DS101X: Statistical Thinking for Data Science and Analytics (Columbia University / edX): parte del certificato Microsoft Professional Program in Data Science. Programma breve. Recensioni negative. Ha una valutazione media ponderata di 2,77 stelle su 24 recensioni.
  • Comprensione della ricerca clinica: dietro la statistica (Università di Cape Town / Coursera): "Questo non è un corso statistico completo, ma offre un orientamento pratico al campo della ricerca medica e all'analisi statistica di uso comune". Focus sull'assistenza sanitaria. Ha una valutazione media ponderata a 5 stelle su 15 recensioni.
  • MED101x: Introduzione alla biostatistica applicata: statistiche per la ricerca medica (Università di Osaka / edX): focus sulla biostatistica. Usa la codifica. Ha una valutazione media ponderata di 4.5 stelle su 3 recensioni.
  • Probabilità e statistica (Stanford University / Stanford OpenEdx): il curriculum sembra fantastico. L'unica recensione è davvero positiva. Nessuna codifica. Ha una valutazione media ponderata di 4.5 stelle su 1 recensione.
Il corso sulle probabilità e le statistiche di Stanford sembra fantastico, ma manca di recensioni.
  • Statistica inferenziale e predittiva per le imprese (Università dell'Illinois a Urbana-Champaign / Coursera): parte di una specializzazione in economia gestionale e analisi commerciale di 7 corsi. Usa Excel. Ha una valutazione media ponderata a 5 stelle su 1 recensione.
  • Esplorazione e produzione di dati per il processo decisionale aziendale (Università dell'Illinois a Urbana-Champaign / Coursera): parte di una specializzazione in economia gestionale e analisi aziendale di 7 corsi. Usa Excel. Ha una valutazione media ponderata a 5 stelle su 1 recensione.
  • Introduzione a Probabilità, Statistica e Processi Casuali (Università del Massachusetts Amherst / Indipendente): video non disponibili per l'intero corso. Ha una valutazione media ponderata di 2,5 stelle su 2 recensioni.
  • 005x: Introduzione ai metodi statistici per la mappatura genica (Università di Kyoto / edX): focus sulla genetica. Hai bisogno di statistiche precedenti e conoscenza di R. Ha una valutazione media ponderata a 2,5 stelle su 1 recensione.
  • Statistiche per la scienza dei dati genomici (Johns Hopkins University / Coursera): focus sulla genomica. Non è un buon corso introduttivo: "Una buona classe per qualcuno con un interesse in questo campo che ha anche un background decente nella programmazione R." Ha una valutazione media ponderata a 2 stelle su 2 recensioni.

I seguenti corsi non hanno ricevuto recensioni a partire da novembre 2016.

  • Statistical Thinking in Python (Part 1) e Statistical Thinking in Python (Part 2) (DataCamp): utilizza la codifica e Python specificamente, rendendolo uno dei pochi corsi o serie meritevoli che usano quel linguaggio. Sette ore di video e oltre 120 esercizi. DataCamp è un'opzione popolare.
  • Un'introduzione pratica alle statistiche con R (DataCamp): utilizza la codifica. 26 ore di video e oltre 150 esercizi. Ancora una volta, DataCamp è un'opzione popolare.
  • Calcolo statistico con R - un'introduzione delicata (University College London / Independent): utilizza la codifica.
  • Probabilità e statistica (Carnegie Mellon): utilizza R. Principalmente istruzioni di testo. Progettato per essere equivalente a un semestre di un corso di statistica del college.
  • Introduzione a Probabilità e statistica (Massachusetts Institute of Technology / MIT OCW): formato di lezione tradizionale (video-registrato).
  • Fondamenti di analisi statistica ingegneristica (Università di Oklahoma / Janux): Focus ingegneristico.
  • Statistica aziendale elementare (Università dell'Oklahoma / Janux): focus aziendale.
  • STAT101x: Biostatistica per applicazioni Big Data (Università del Texas Medical Branch / edX): focus sulla biostatistica.
  • 416.1x: Probabilità: concetti di base e variabili casuali discrete (Purdue University / edX): parte di una serie di 2 corsi.
  • 416.2x: Probabilità: modelli di distribuzione e variabili casuali continue (Purdue University / edX): parte di una serie di 2 corsi.
  • Specializzazione in Statistica e analisi delle imprese (Rice University / Coursera): utilizza Excel.
  • Statistica 110: Probabilità (Harvard University): formato di lezione tradizionale (video-registrato). Consigliato spesso su Quora.
  • Statistiche (Dataquest): una serie multi-corso con circa 12 ore di contenuto. Abbonamento richiesto. Uno dei due corsi / serie per insegnare le statistiche con l'obiettivo di codificare esempi in Python. Una nota di Dataquest: "i corsi di statistica sono al momento interamente riscritti, che dovrebbero essere pubblicati verso la fine di novembre".

Avvolgendolo

Questo è il secondo di una serie di sei pezzi che copre i migliori MOOC per lanciarsi nel campo della scienza dei dati. Abbiamo trattato la programmazione nel primo articolo e il resto della serie coprirà diverse altre competenze chiave relative alla scienza dei dati: il processo di scienza dei dati, la visualizzazione dei dati e l'apprendimento automatico.

Il pezzo finale sarà un riepilogo di quei corsi e i migliori MOOC per altri argomenti chiave come la lotta ai dati, i database e persino l'ingegneria del software.

Se stai cercando un elenco completo dei MOOC di Data Science, puoi trovarli nella pagina tematica Data Science e Big Data di Class Central.

Se ti è piaciuto leggere questo, dai un'occhiata ad altri brani di Class Central:

Se hai suggerimenti per i corsi che ho perso, fammelo sapere nelle risposte!

Se lo hai trovato utile, fai clic su in modo che più persone lo vedano qui su Medium.

Questa è una versione ridotta dell'articolo originale pubblicato su Class Central, in cui sono inclusi descrizioni dei corsi, programmi e recensioni multiple.