25 domande divertenti per un colloquio di apprendimento automatico

Le domande del colloquio di apprendimento automatico possono essere divertenti e profonde allo stesso tempo?

Fonte immagine: https://xkcd.com/1838/

Molti dei data scientist studiano l'apprendimento automatico (ML) principalmente dal punto di vista di un professionista dei dati. Di conseguenza, è possibile che ci concentriamo sull'apprendere il maggior numero possibile di nuovi pacchetti, quadri, tecniche e ci concentriamo meno su un esame approfondito degli aspetti teorici fondamentali. E qui la mia definizione di apprendimento automatico comprende tutto l'apprendimento statistico standard (vale a dire che non costituisce solo l'apprendimento profondo).

Tuttavia, indagando e riflettendo con un certo sforzo, si possono formulare così tante meravigliose domande ML che, una volta risolte e analizzate, possono rivelare meravigliosamente aspetti più profondi. Fondamentalmente, queste domande possono aiutarci a far uscire la testa da questa pila mostrata sopra. Non vogliamo semplicemente mescolare un set di dati per tutto il giorno, vogliamo immergerci profondamente nelle proprietà, stranezze e complessità delle tecniche di apprendimento automatico e abbracciarle ...

Dopotutto, ci sono molti articoli su Internet sulle "domande di intervista standard per l'apprendimento automatico". Possiamo fare qualcosa di diverso e interessante?

Disclaimer: sto solo postando le domande per pensare e stimolare la discussione. Non viene fornita una risposta pronta. Alcune domande hanno un suggerimento, ma in realtà sono per più discussioni piuttosto che una risposta definitiva. Vale la pena discutere ogni domanda in modo più dettagliato. Non c'è una risposta impostata. Alcune domande sono inventate, altre solo per divertimento. Divertiti e basta :-) Per fare il boot, ho inserito un meme divertente dopo ogni quinta domanda ...

Domande divertenti

  • Ho creato un modello di regressione lineare che mostra un intervallo di confidenza al 95%. Significa che esiste una probabilità del 95% che i miei coefficienti del modello siano la vera stima della funzione che sto cercando di approssimare? (Suggerimento: in realtà significa il 95% delle volte ...)
  • Qual è la somiglianza tra il file system Hadoop e l'algoritmo k-più vicino prossimo? (Suggerimento: "pigro")
  • Quale struttura è più potente in termini di espressività (cioè può rappresentare con precisione una determinata funzione booleana): un percettrone a singolo strato o un albero decisionale a 2 strati? (Suggerimento: XOR)
  • E quale è più potente: un albero decisionale a 2 strati o una rete neurale a 2 strati senza alcuna funzione di attivazione? (Suggerimento: non linearità?)
  • È possibile utilizzare una rete neurale come strumento per la riduzione della dimensionalità? Spiega come.
  • Ognuno maligna e sminuisce il termine di intercettazione in un modello di regressione lineare. Dimmi una delle sue utilità. (Suggerimento: noise / garbage collector)
  • La regolarizzazione di LASSO riduce i coefficienti allo zero esatto. La regressione della cresta li riduce a un valore molto piccolo ma diverso da zero. Puoi spiegare la differenza in modo intuitivo dai grafici di due semplici funzioni | x | e x²? (Suggerimento: quegli angoli acuti nella trama | x |)
  • Supponiamo che tu non sappia nulla della distribuzione da cui proviene un set di dati (numeri a valore continuo) e ti è vietato presumere che sia gaussiano normale. Dimostrare con le più semplici argomentazioni possibili che, indipendentemente dalla vera distribuzione, si può garantire che circa l'89% dei dati si troverà entro +/- 3 deviazioni standard dalla media (Suggerimento: consulente di dottorato di Markov)
  • La maggior parte degli algoritmi di apprendimento automatico comporta una sorta di manipolazione della matrice come la moltiplicazione o l'inversione. Fornisci un semplice argomento matematico sul perché una versione mini-batch di tale algoritmo ML potrebbe essere computazionalmente più efficiente di una formazione con set di dati completo. (Suggerimento: complessità temporale della moltiplicazione di matrici ...)
  • Non pensi che una serie temporale sia un problema di regressione lineare davvero semplice con una sola variabile di risposta e un singolo predittore: il tempo? Qual è il problema con un approccio di regressione lineare (non necessariamente con un solo termine lineare ma anche con termini di gradi polinomiali) in caso di dati di una serie temporale? (Suggerimento: il passato è un indicatore del futuro ...)
  • Dimostrare con semplici argomenti matematici che trovare gli alberi decisionali ottimali per un problema di classificazione tra tutte le possibili strutture ad albero, può essere un problema esponenzialmente difficile (Suggerimento: quanti alberi ci sono comunque nella giungla?)
  • Sia gli alberi decisionali che le reti neurali profonde sono classificatori non lineari, ovvero separano lo spazio da un confine decisionale complicato. Perché, quindi, è molto più facile per noi seguire intuitivamente un modello di albero decisionale rispetto a una rete neurale profonda?
  • La propagazione retroattiva è il cavallo di battaglia dell'apprendimento profondo. Nomina alcune possibili tecniche alternative per addestrare una rete neurale senza usare la propagazione posteriore. (Suggerimento: ricerca casuale ...)
  • Supponiamo che tu abbia due problemi: una regressione lineare e una regressione logistica (classificazione). Quale di essi ha maggiori probabilità di beneficiare di un algoritmo di moltiplicazione a matrice grande superveloce di recente scoperto? Perché? (Suggerimento: quale è più probabile che utilizzi una manipolazione di matrici?)
  • Qual è l'impatto della correlazione tra predittori sull'analisi delle componenti principali? Come puoi affrontarlo?
  • Ti viene chiesto di costruire un modello di classificazione sull'impatto dei meteoriti con la Terra (importante progetto per la civiltà umana). Dopo un'analisi preliminare, si ottiene una precisione del 99%. Dovresti essere felice? Perchè no? Cosa puoi fare al riguardo? (Suggerimento: evento raro ...)
  • È possibile catturare la correlazione tra variabile continua e variabile categoriale? Se si, come?
  • Se stai lavorando con i dati di espressione genica, ci sono spesso milioni di variabili predittive e solo centinaia di campioni. Fornisci un semplice argomento matematico sul perché il minimo ordinario non sia una buona scelta per tale situazione se devi costruire un modello di regressione. (Suggerimento: qualche algebra di matrice ...)
  • Spiega perché la validazione incrociata di k-fold non funziona bene con il modello di serie storiche. Cosa puoi fare al riguardo? (Suggerimento: il passato immediato è uno stretto indicatore del futuro ...)
  • Il semplice campionamento casuale dei set di dati di allenamento in set di addestramento e validazione funziona bene per il problema di regressione. Ma cosa può andare storto con questo approccio per un problema di classificazione? Cosa si può fare al riguardo? (Suggerimento: tutte le classi sono prevalenti allo stesso grado?)
  • Quale è più importante per te: precisione del modello o prestazioni del modello?
  • Se potessi sfruttare più core della CPU, preferiresti un algoritmo ad albero potenziato rispetto a una foresta casuale? Perché? (Suggerimento: se hai 10 mani per fare un compito, ne approfitti)
  • Immagina che il tuo set di dati sia noto per essere separabile linearmente e devi garantire la convergenza e il numero massimo di iterazioni / fasi del tuo algoritmo (a causa del motivo delle risorse computazionali). Sceglieresti la discesa gradiente in questo caso? Cosa puoi scegliere? (Suggerimento: quale semplice algoritmo fornisce la garanzia di trovare una soluzione?)
  • Supponiamo che tu abbia una memoria / memoria estremamente ridotta. Che tipo di algoritmo preferiresti: regressione logistica o k-vicino più vicino? Perché? (Suggerimento: complessità spaziale)
  • Per costruire un modello di apprendimento automatico inizialmente avevi 100 punti dati e 5 funzionalità. Per ridurre la distorsione, hai raddoppiato le funzionalità per includere altre 5 variabili e raccolto altri 100 punti dati. Spiegare se questo è un approccio giusto? (Suggerimento: c'è una maledizione sull'apprendimento automatico. Ne hai sentito parlare?)

Se hai altre domande o idee ML divertenti da condividere, contatta l'autore qui. Le buone domande sono difficili da generare e suscitano curiosità e costringono a pensare profondamente. Ponendo domande divertenti e interessanti, rendi l'esperienza di apprendimento piacevole e arricchente allo stesso tempo. Spero ti sia piaciuto questo tentativo di farlo.