Analisi di regressione

Regressione lineare
Viene costruita una regressione lineare montando una linea attraverso una trama di dispersione di osservazioni accoppiate tra due variabili. Lo schema seguente illustra un esempio di linea di regressione lineare tracciata da una serie di osservazioni (X, Y):
Figura 2. 16: Regressione lineare

minimi quadrati (cioè la distanza tra la linea di regressione e ogni osservazione viene minimizzata). Nella regressione lineare, una variabile viene plottata sull'asse X e l'altra sulla Y. La variabile X si dice che sia la variabile indipendente e si dice che Y sia dipendente > variabile. Quando si analizzano due variabili casuali, è necessario scegliere quale variabile sia indipendente e dipenda. La scelta di indipendenti e dipendenti segue dall'ipotesi - per molti esempi, questa distinzione dovrebbe essere intuitiva. L'uso più comune dell'analisi di regressione è sui rendimenti degli investimenti, dove l'indice di mercato è indipendente, mentre il singolo fondo di sicurezza o di mutuo dipende dal mercato. In sostanza, l'analisi di regressione formula un'ipotesi che il movimento in una variabile (Y) dipende dal movimento nell'altro (X). Equazione di regressione L'equazione di regressione descrive la relazione tra due variabili e viene data dal formato generale:

Formula 2. 40

Y = a + bX + ε
Dove: Y = variabile dipendente; X = variabile indipendente,

a = intercetta della linea di regressione; b = pendenza della linea di regressione,

ε = termine di errore
In questo formato, dato che Y è dipendente da X, la pendenza b indica l'unità cambia in Y per ogni cambiamento di unità in X. Se b = 0. 66, significa che ogni volta che X aumenta (o diminuisce) per una certa quantità, Y aumenta (o diminuisce) di 0. 66 * tale importo. L'intercetta a indica il valore di Y nel punto in cui X = 0. Quindi, se X ha indicato i rendimenti di mercato, l'intercetta mostra come funziona la variabile dipendente quando il mercato ha un quarto piano dove i rendimenti sono 0. Nel menù di investimento, un gestore ha un alfa positivo perché una regressione lineare tra la performance del gestore e le prestazioni del mercato ha un numero di intercetta maggiore di 0.
Regressione lineare - Assunzioni
La conclusione di una conclusione sulla variabile dipendente richiede che facciamo sei ipotesi, le classiche assunzioni in relazione al modello di regressione lineare:

2

X + ε, poiché le variazioni di unità in X avrebbero quindi un effetto ab
  1. 2 a, e la relazione sarebbe non lineare. La variabile indipendente X non è casuale. Il valore atteso del termine di errore "ε" è 0. Gli assunti # 2 e # 3 consentono al modello di regressione lineare di produrre stime per il pendio b e intercettare. La varianza del termine di errore è costante per tutte le osservazioni. Assunzione n. 4 è conosciuto come "assunzione di omosessasticità". Quando una regressione lineare è eteroschedica, i suoi termini di errore variano e il modello non può essere utile per predire i valori della variabile dipendente.
  2. Il termine di errore ε è correlato a tutte le osservazioni; in altre parole, la covarianza tra il termine di errore di un'osservazione e il termine di errore dell'altro è assunto 0. Questa assunzione è necessaria per stimare le varianze dei parametri.
  3. La distribuzione dei termini di errore è normale. Assunzione n. 6 permette di applicare metodi di prova di ipotesi a modelli di regressione lineare.
  4. Errore standard di stima
  5. SEE abbreviato, questa misura fornisce un'indicazione di quanto funziona un modello di regressione lineare. Confronta i valori effettivi nella variabile dipendente Y ai valori previsti che avrebbero avuto luogo se Y fosse seguita esattamente dalla regressione lineare. Ad esempio, prendere un caso in cui l'analista finanziario di un'azienda ha sviluppato un modello di regressione che riguarda la crescita del PIL annuo alla crescita delle vendite aziendali per l'equazione Y = 1. 4 + 0. 8X.
  6. Assumi la seguente esperienza (nella pagina seguente) per un periodo di cinque anni; i dati previsti sono una funzione del modello e del PIL, ei dati "effettivi" indicano cosa è successo in azienda:

Anno
(X
i

) crescita del PIL crescita (Y i ) co reale. La crescita (Y i ) residuo (Y i - Y
i ) Squared residuo 1 5 . 1
5. 5
5. 2 -0. 3 0. 09 2 2. 1 3. 1
2. 7 -0. 4 0. 16 3 -0. 9 0. 7
1. 5 0. 8 0. 64 4 0. 2 1. 6
3. 1 1. 5 2. 25 5 6. 4 6. 5
6. 3 -0. 2 0. 04 Per trovare l'errore standard della stima, prendiamo la somma di tutti i termini residui quadrati e dividiamo (n-2), quindi prendiamo la radice quadrata del risultato. In questo caso, la somma dei residui quadrati è 0. 09 + 0. 16 + 0. 64 + 2. 25 + 0. 04 = 3. 18. Con cinque osservazioni, n - 2 = 3 e SEE = (3. 18/3) 1/2 = 1. 03%.

Il calcolo dell'errore standard è relativamente simile a quello della deviazione standard per un campione (n - 2 viene utilizzato invece di n - 1). Dà qualche indicazione della qualità predittiva di un modello di regressione, con numeri SEE inferiori che indicano che sono possibili previsioni più accurate. Tuttavia, la misura di errore standard non indica la misura in cui la variabile indipendente spiega le variazioni nel modello dipendente. Coefficiente di Determinazione Come l'errore standard, questa statistica fornisce un'indicazione di come un modello di regressione lineare funge da stimatore di valori per la variabile dipendente. Funziona misurando la frazione della variazione totale nella variabile dipendente che può essere spiegata per variazione nella variabile indipendente.
In questo contesto, la variazione totale è composta da due frazioni:
Variazione totale = variazione spiegata + variazione non spiegata
variazione totale variazione totale
Il
coefficiente di determinazione
variazione come percentuale della variazione totale, è il primo di questi due termini. A volte viene espresso come 1 - (variazione / variazione totale non spiegata).
Per una semplice regressione lineare con una variabile indipendente, il metodo semplice per calcolare il coefficiente di determinazione è quadrare il coefficiente di correlazione tra le variabili dipendenti e indipendenti. Poiché il coefficiente di correlazione è dato da r, il coefficiente di determinazione è conosciuto conosciuto come "R 2 , o R-squared". Ad esempio, se il coefficiente di correlazione è 0. 76, il R-squared è (0. 76)
2 = 0. 578. I termini R-squared vengono solitamente espressi come percentuali; quindi 0. 578 sarebbero 57. 8%. Un secondo metodo di calcolo di questo numero sarebbe quello di trovare la variazione totale della variabile dipendente Y come somma delle deviazioni quadrate dalla media del campione. Successivamente, calcolare l'errore standard della stima seguendo il processo descritto nella sezione precedente. Il coefficiente di determinazione viene quindi calcolato (variazione totale in Y - variazione non spiegata in Y) / variazione totale in Y. Questo secondo metodo è necessario per regressioni multiple, dove esiste più di una variabile indipendente, ma per il nostro contesto saremo purché il r (coefficiente di correlazione) per calcolare un R-squared. Ciò che R 2 ci dice sono le variazioni nella variabile dipendente Y che sono spiegate dalle variazioni della variabile indipendente X. R
2 di 57. 8 ci dice che 57. 8% delle variazioni in Y risultano da X; significa anche che 1- 57. 8% o 42. 2% delle variazioni di Y non sono spiegate da X e sono il risultato di altri fattori. Quindi più alto è la R-squared, meglio è la natura predittiva del modello di regressione lineare. Coefficienti di regressione Per un coefficiente di regressione (intercetta a o pendenza b), può essere determinato un intervallo di confidenza
con le seguenti informazioni:
Valore del parametro stimato da un campione > L'errore standard della stima (SEE) Livello di significato per la distribuzione t Gradi di libertà (che è la dimensione del campione - 2)

  1. Per un coefficiente di pendenza, la formula per intervallo di confidenza è data da b ± t
  2. c
  3. * SEE, dove t
  4. c

è il valore t critico al nostro livello significativo scelto. Per illustrare, prendi una regressione lineare con i rendimenti del fondo comune come variabile dipendente e l'indice S & P 500 come variabile indipendente. Per cinque anni di rendimenti trimestrali, il coefficiente di pendenza b si trova 1. 18, con un errore standard della stima di 0. 147. Distribuzione t-studenti per 18 gradi di libertà (20 quarti - 2) a 0. 05 il livello di significatività è 2. 101. Questi dati ci danno un intervallo di confidenza pari a 1. 18 ± (0. 147) * (2. 101) o un intervallo da 0. 87 a 1. 49. La nostra interpretazione è che esiste solo una probabilità del 5% che il pendio della popolazione sia inferiore a 0.87 o superiore a 1. 49 - siamo 95% fiduciosi che questo fondo sia almeno 87% volatile come il S & P 500, ma non più del 149% come volatile, in base al nostro campione di cinque anni. Test di ipotesi e coefficienti di regressione I coefficienti di regressione vengono frequentemente testati utilizzando la procedura di prova dell'ipotesi. A seconda di ciò che l'analista intende dimostrare, possiamo testare un coefficiente di pendenza per determinare se spiega le probabilità nella variabile dipendente e la misura in cui spiega i cambiamenti. I betas (coefficienti di pendenza) possono essere determinati ad essere al di sopra o al di sotto di 1 (più volatili o meno volatili del mercato). L'Alphas (il coefficiente di intercettazione) può essere testato su una regressione tra un fondo comune e l'indice di mercato rilevante per determinare se vi è prova di un alfa sufficientemente positivo (suggerendo un valore aggiunto dal gestore del fondo). La meccanica dei test di ipotesi è simile agli esempi che abbiamo usato in precedenza. Si sceglie un'ipotesi nulla basata su un valore non uguale, maggiore o minore, con l'alternativa che soddisfa tutti i valori non coperti nel caso nullo. Supponiamo che nel nostro precedente esempio in cui abbiamo regredito i rendimenti dei fondi comuni su S & P 500 per 20 quartieri, la nostra ipotesi è che questo fondo sia più volatile del mercato. Un fondo uguale alla volatilità al mercato avrà la pendenza b di 1. 0, quindi per questo test di ipotesi si indica l'ipotesi nullo (H
0
) come il caso in cui il pendio sia inferiore o maggiore di 1 0 (cioè H
0:
b <1. 0). l'ipotesi alternativa H a ha b> 1. 0. Sappiamo che questo è un caso maggiore (cioè un solo) - se assumiamo un livello di significato 0, t è pari a 1 734 a gradi di libertà = n - 2 = 18. Esempio: Interpretare un test di ipotesi Dal nostro campione avevamo stimato la b di 1. 18 e l'errore standard di 0. 147. La nostra statistica di prova è calcolata con questa formula: t = coefficiente stimato - coeff ipotizzato. / errore standard = (1. 18 - 1. 0) / 0. 147 = 0. 18/0. 147, o t = 1. 224. Per questo esempio, la nostra statistica di prova calcolata è al di sotto del livello di rifiuto di 1. 734, quindi non siamo in grado di rifiutare l'ipotesi nullo che il fondo è più volatile del mercato. Interpretazione: l'ipotesi che b> 1 per questo fondo richiede probabilmente più osservazioni (gradi di libertà) da dimostrare con significatività statistica. Inoltre, con 1,18 solo leggermente superiore a 0,1, è piuttosto possibile che questo fondo non sia effettivamente più volatile quanto il mercato, e siamo stati corretti a non respingere l'ipotesi nullo.
Esempio: Interpretare un coefficiente di regressione
L'esame CFA è in grado di fornire le statistiche di sintesi di una regressione lineare e richiedere l'interpretazione. Per illustrare, assumere le seguenti statistiche per una regressione tra un fondo di crescita a piccoli cappelli e l'indice Russell 2000:
Coefficiente di correlazione
0. 864
Intercept
-0. 417

Pendenza 1. 317
Che cosa ci dice ciascuno di questi numeri? La variazione del fondo è di circa il 75%, spiegata dai cambiamenti dell'indice Russell 2000.Questo è vero perché il quadrato del coefficiente di correlazione (0. 864)
2 = 0. 746, ci fornisce il coefficiente di determinazione o R-squared.

Il fondo sarà leggermente inferiore all'indice quando i rendimenti dell'indice sono piatti. Ciò risulta dal valore dell'intercettazione che è -0. 417. Quando X = 0 nell'equazione di regressione, la variabile dipendente è uguale all'intercetta.

  1. Il fondo sarà in media più volatile dell'indice. Questo fatto segue dalla pendenza della linea di regressione 1.317 (ovvero per ogni cambiamento dell'indice dell'1%, ci aspettiamo che il rendimento del fondo cambia di 1. 317%). Il comparto sarà sovraperformato in forti periodi di mercato e sottoperformato nei mercati deboli. Questo fatto segue dalla regressione. Il rischio aggiuntivo viene compensato con ricompensa aggiuntiva, mentre il contrario è vero nei mercati in discesa. I valori previsti del rendimento del fondo, dato un ritorno per il mercato, possono essere trovati risolvendo per Y = -0. 417 + 1. 317X (X = ritorno di Russell 2000). Analisi della varianza (ANOVA)
  2. L'analisi della varianza, o ANOVA, è una procedura in cui la variabilità totale di una variabile casuale è suddivisa in componenti in modo da essere meglio capita o attribuita ad ognuno dei vari fonti che causano il numero di variazioni.
  3. Applicato ai parametri di regressione, le tecniche ANOVA vengono utilizzate per determinare l'utilità in un modello di regressione e il grado in cui le variazioni di una variabile indipendente X possono essere utilizzate per spiegare le variazioni in una variabile dipendente Y. Ad esempio, possiamo condurre una procedura di prova dell'ipotesi per determinare se i coefficienti di pendenza sono uguali a zero (cioè le variabili non sono correlate), o se esiste un significato statistico alla relazione (cioè la pendenza b è diversa da zero). Un F-test può essere utilizzato per questo processo.
  4. F-Test

La formula per la statistica F in una regressione con una variabile indipendente è data dalla seguente:
Formula 2. 41
F = somma di regressione media di quadrati / Le due abbreviazioni da capire sono RSS e SSE:
RSS
, o la somma di regressione di quadrati, è la quantità di variazione totale della variabile dipendente Y che viene spiegata nell'equazione di regressione. L'RSS viene calcolato calcolando ogni deviazione tra un valore Y previsto e il valore Y medio, squirrando la deviazione e completando tutti i termini. Se una variabile indipendente non spiega nessuna delle variazioni di una variabile dipendente, allora i valori previsti di Y sono uguali al valore medio e RSS = 0.

SSE
, o la somma di errore quadrato dei residui calcolata individuando la deviazione tra un Y previsto e un Y effettivo, misurando il risultato e aggiungendo tutti i termini.
TSS, o variazione totale, è la somma di RSS e SSE. In altre parole, questo processo ANOVA rompe la varianza in due parti: quella spiegata dal modello e quella che non lo è. In sostanza, per un'equazione di regressione ad avere una buona qualità predittiva, dobbiamo vedere un alto RSS e un basso SSE, che renderà alto il rapporto (RSS / 1) / [SSE / (n-2)] e (basato su un confronto con un valore critico F) statisticamente significativo.Il valore critico è preso dalla distribuzione F e si basa sui gradi di libertà.

Ad esempio, con 20 osservazioni, i gradi di libertà sarebbero n - 2 o 18, con un valore critico (dalla tabella) di 2. 19. Se l'RSS era 2. 5 e SSE erano 1. 8, allora la statistica di prova calcolata sarebbe F = (2,5 / (8,88) = 25, che è al di sopra del valore critico, che indica che l'equazione di regressione ha una qualità predittiva (b diversa da 0)

  1. Stimare le statistiche economiche con i modelli di regressione I modelli di regressione sono spesso utilizzati per stimare le statistiche economiche come l'inflazione e la crescita del PIL. variabile dipendente):
  2. Y = 0. 154 + 0. 917X Utilizzando questo modello il numero di inflazione previsto sarebbe calcolato in base al modello per i seguenti scenari di inflazione:

Stima dell'inflazione
sul modello
-1.1%
-0 85%
+1, 4%
+1 43%

+4,7% +4 46%
Le previsioni basate su th il modello sembra funzionare meglio per le stime tipiche dell'inflazione e suggerisce che estreme stime tendono a sovrastare l'inflazione - e. g. un'inflazione effettiva di appena 4.46 quando la stima era 4. 7. Il modello sembra suggerire che le stime siano altamente predittive. Anche se per valutare meglio questo modello, dovremmo vedere l'errore standard e il numero di osservazioni su cui si basa. Se conosciamo il vero valore dei parametri di regressione (pendenza e intercetta), la varianza di qualsiasi valore Y previsto sarebbe uguale al quadrato dell'errore standard. In pratica, dobbiamo stimare i parametri di regressione; quindi il nostro valore previsto per Y è una stima basata su un modello stimato. Quanto siamo fiduciosi in un simile processo? Per determinare un intervallo di previsione, utilizzare le seguenti fasi:
1. Predire il valore della variabile dipendente Y basata sull'osservazione indipendente X. 2. Calcola la varianza dell'errore di predizione utilizzando la seguente equazione:
Formula 2. 42 Dove: s

2
è l'errore standard quadrato della stima, n è numero di osservazioni, X è il valore della variabile indipendente utilizzata per fare la previsione, X è il valore medio stimato della variabile indipendente e s
x
2

è la varianza di X.

3. Scegli un livello di significato α per l'intervallo di confidenza. 4. Costruire un intervallo alla (1 - α) percentuale di fiducia, utilizzando la struttura Y ± t c * s f .
Ecco un altro caso in cui il materiale diventa molto più tecnico del necessario e si può infilarsi nella preparazione, quando in realtà la formula per la varianza di un errore di predizione non è probabile che sia coperta. Priorità - non sprecate preziose ore di studio memorizzandole. Se il concetto viene testato affatto, probabilmente ti verrà data la risposta alla Parte 2. Semplicemente sapere come utilizzare la struttura nella Parte 4 per rispondere a una domanda.
Ad esempio, se l'osservazione X predetta è 2 per la regressione Y = 1.5 + 2. 5X, avremmo un Y previsto di 1. 5 + 2. 5 * (2) o 6. 5. Il nostro intervallo di confidenza è 6. 5 ± t c * s > f . La t-stat è basata su un intervallo di confidenza scelto e sui gradi di libertà, mentre s f
è la radice quadrata dell'equazione sopra (per varianza dell'errore di predizione. Se questi numeri sono t
c = 2. 10 per 95% di confidenza e s f = 0. 443, l'intervallo è 6. 5 ± (2. 1) * (0 443), oppure 5. 57 a 7. 43. Limitazioni dell'analisi della regressione Focus su tre limiti principali: 1. Parametro Instabilità - Questa è la tendenza per le relazioni tra variabili a cambiare nel tempo a causa delle variazioni dell'economia o dei mercati, tra le altre incertezze: se un fondo comune ha prodotto una storia di ritorno in un mercato in cui la tecnologia era un settore di leadership, il modello potrebbe non funzionare quando i mercati esteri e piccoli cappelli sono leader. 2. Disseminazione pubblica della relazione - ad esempio, la scoperta che bassi valori di valore di prezzo / valore superiore superano i valori di valore a prezzo elevato che questi titoli possano essere offerti più in alto e gli approcci di investimento basati sul valore non mantengono la stessa relazione del passato. 3. Violazione delle relazioni di regressione - In precedenza abbiamo riassunto le sei ipotesi classiche di una regressione lineare. Nel mondo reale queste ipotesi sono spesso irrealistiche - e. g. supponendo che la variabile indipendente X non sia casuale.