Vooruitskatting deur gladstrykingstegnieke Hierdie webwerf is 'n deel van die JavaScript E-laboratoriums leer voorwerpe vir besluitneming. Ander JavaScript in hierdie reeks is verdeel onder verskillende gebiede van aansoeke in die menu artikel op hierdie bladsy. 'N tyd-reeks is 'n reeks waarnemings wat bestel betyds. Inherent in die versameling van data geneem met verloop van tyd is 'n vorm van ewekansige variasie. Daar bestaan metodes vir die vermindering van van die kansellasie van die effek as gevolg van ewekansige variasie. Gebruikte tegnieke is glad. Hierdie tegnieke, wanneer dit behoorlik toegepas word, blyk duidelik die onderliggende tendense. Tik die tydreeks Ry-wyse in volgorde, vanaf die linker-boonste hoek, en die parameter (s), dan op die Bereken knoppie vir die verkryging van een tydperk lig vooruitskatting. Leeg bokse is nie ingesluit in die berekeninge, maar nulle is. In die begin van jou data om te beweeg van sel tot sel in die data-oorsig gebruik die Tab-sleutel nie arrow of betree sleutels. Kenmerke van tydreekse, wat geopenbaar kan word deur die ondersoek van die grafiek. met die geskatte waardes, en die residue gedrag, toestand voorspelling modelle. Bewegende gemiddeldes: bewegende gemiddeldes rang onder die gewildste tegnieke vir die preprocessing van tydreekse. Hulle word gebruik om ewekansige wit geraas filter uit die data, om die tydreeks gladder te maak of selfs om sekere inligting komponente vervat in die tydreeks te beklemtoon. Eksponensiële Smoothing: Dit is 'n baie gewilde skema om 'n reëlmatige Tyd Reeks produseer. Terwyl dit in Bewegende Gemiddeldes die afgelope waarnemings word dieselfde gewig, eksponensiële Smoothing ken eksponensieel afneem gewigte as die waarneming ouer. Met ander woorde, is Onlangse waarnemings gegee relatief meer gewig in vooruitskatting as die ouer waarnemings. Double Eksponensiële Smoothing is beter op tendense hantering. Drie Eksponensiële Smoothing beter te hanteer parabool tendense. 'N exponenentially geweeg bewegende gemiddelde met 'n glad konstante a. ooreenstem rofweg 'n eenvoudige bewegende gemiddelde lengte (bv tydperk) n, waar n en N verwant deur: 'n 2 / (N1) of N (2 - a) / n. So, byvoorbeeld, 'n exponenentially geweeg bewegende gemiddelde met 'n glad konstante gelyk aan 0,1 sou rofweg ooreen met 'n 19 dag bewegende gemiddelde. En 'n 40-dag eenvoudig bewegende gemiddelde sou rofweg ooreen met 'n eksponensieel geweeg bewegende gemiddelde met 'n glad konstante gelyk aan 0,04878. Holts Lineêre Eksponensiële Smoothing: Veronderstel dat die tydreeks is nie-seisoenale maar wel vertoon tendens. Holts metode skat beide die huidige vlak en die huidige tendens. Let daarop dat die eenvoudige bewegende gemiddelde is spesiale geval van die eksponensiële gladstryking deur die oprigting van die tydperk van die bewegende gemiddelde van die heelgetal deel van (2-Alpha) / Alpha. Vir die meeste sake-data 'n Alpha parameter kleiner as 0.40 is dikwels doeltreffend. Dit kan egter 'n mens 'n rooster op soek na die parameter ruimte uit te voer, met 0,1-0,9, met inkremente van 0.1. Toe het die beste alfa die kleinste gemiddelde absolute fout (MA Fout). Hoe om 'n paar glad metodes te vergelyk: Alhoewel daar numeriese aanwysers vir die beoordeling van die akkuraatheid van die voorspelling tegniek, die mees benadering is in die gebruik van visuele vergelyking van verskeie voorspellings oor die akkuraatheid daarvan te evalueer en kies tussen die verskillende vooruitskatting metodes. In hierdie benadering, moet 'n mens stip op dieselfde grafiek die oorspronklike waardes van 'n tydreeks veranderlike en die voorspelde waardes van verskillende vooruitskatting metodes (met behulp van, bv Excel), dus 'n visuele vergelyking fasilitering. Jy kan hou die gebruik van die verlede Voorspellings deur gladstrykingstegnieke JavaScript om die verlede voorspel waardes gebaseer op gladstrykingstegnieke dat slegs enkele parameter gebruik te verkry. Holt, en winters metodes gebruik twee en drie parameters, onderskeidelik, dus is dit nie 'n maklike taak om die optimale, of selfs naby optimale waardes kies deur probeer-en foute vir die parameters. Die enkele eksponensiële gladstryking beklemtoon die kort reeks perspektief dit stel die vlak van die laaste waarneming en is gebaseer op die voorwaarde dat daar geen tendens. Die lineêre regressie, wat 'n lyn van kleinste kwadrate op die historiese data (of omskep historiese data) pas, stel die lang reeks, wat gekondisioneer op die basiese tendens. Holts lineêre eksponensiële gladstryking vang inligting oor onlangse tendens. Die parameters in Holts model is vlakke-parameter wat moet verminder word wanneer die hoeveelheid data wat variasie is groot, en tendense-parameter moet verhoog word indien die onlangse tendens rigting word ondersteun deur die oorsaaklike paar faktore. Korttermyn vooruitskatting: Let daarop dat elke JavaScript op hierdie bladsy bied 'n een-stap-ahead skatting. Om 'n twee-stap-ahead voorspelling te kry. eenvoudig die geskatte waarde toevoeg tot die einde van jou tydreeksdata en kliek dan op dieselfde Bereken knoppie. Jy kan hierdie proses herhaal vir 'n paar keer om die nodige kort termyn forecastsputational gereedskap paarsgewyse korrelasie van DataFrame kolomme verkry algemeen hierdie metodes almal dieselfde koppelvlak. Die binêre operateurs (bv rollingcorr) neem twee reekse of DataFrames. Andersins, het hulle almal aanvaar die volgende argumente: venster. grootte van die beweging venster minperiods. drumpel van nie-nul datapunte te vereis (anders resultaat is NA) freq. opsioneel spesifiseer 'n frekwensie string of DateOffset 'n pre-konformeer die data te. Let daarop dat voor v0.8.0 Pandas, is 'n navraag argument timerule gebruik word in plaas van freq wat verwys na die nalatenskap tyd reël konstantes Hierdie funksies kan toegepas word op ndarrays of reeks voorwerpe: Hulle kan ook toegepas word op DataFrame voorwerpe. Dit is regtig net sintaktiese suiker vir die toepassing van die bewegende venster operateur aan al die DataFrame8217s kolomme: Die rollingapply funksie neem 'n ekstra funk argument en voer generiese rollende berekeninge. Die funk argument moet 'n enkele funksie wat 'n enkele waarde van 'n ndarray insette lewer nie. Veronderstel ons wil die gemiddelde absolute afwyking bereken op 'n deurlopende basis: Binêre rollende oomblikke rollingcov en rollingcorr kan bereken beweeg statistieke venster oor twee reekse of 'n kombinasie van DataFrame / Series of DataFrame / DataFrame. Hier is die gedrag in elke geval: twee reekse. bereken die statistiek vir die paring DataFrame / Series. bereken die statistieke vir elke kolom van die DataFrame met die geslaag Series, dus terugkeer 'n DataFrame DataFrame / DataFrame. bereken statistiek vir wat ooreenstem met die kolom name, terugkeer 'n DataFrame Computing rollende paarsgewyse korrelasies In finansiële data-analise en ander velde it8217s gemeen bereken korrelasie matrikse vir 'n versameling van tydreekse. Moeiliker is om 'n bewegende-venster korrelasie matriks te bereken. Dit kan gedoen word met behulp van die rollingcorrpairwise funksie, wat 'n paneel wie se items is die betrokke datums oplewer: Jy kan doeltreffend te haal die tyd reeks korrelasies tussen twee kolomme behulp ix kruip: Uitbreiding venster oomblik funksioneer 'n Algemene alternatief vir rollende statistieke is om te gebruik 'n groeiende venster, wat die waarde van die statistiek met al die beskikbare tot op daardie tydstip data oplewer. Aangesien hierdie berekeninge is 'n spesiale geval van rollende statistieke, is hulle in pandas geïmplementeer sodanig dat die volgende twee oproepe is soortgelyk: Soos die rollende funksies, is die volgende metodes in die pandas naamruimte of kan geleë wees in pandas. stats. moments. Paarsgewyse korrelasie van DataFrame kolomme Afgesien van nie met 'n parameter venster, hierdie funksies het dieselfde koppelvlakke as hul rol eweknie. Soos hierbo, die parameters almal aanvaar is: minperiods. drumpel van nie-nul datapunte te vereis. Standaard minimum wat nodig is om statistiek te bereken. Geen Nans sal uitset keer wees minperiods nie-nul datapunte is gesien. freq. opsioneel spesifiseer 'n frekwensie string of DateOffset 'n pre-konformeer die data te. Let daarop dat voor v0.8.0 Pandas, is 'n navraag argument timerule gebruik word in plaas van freq wat verwys na die nalatenskap tyd reël konstantes Die uitset van die rol en die uitbreiding van funksies nie 'n NaN nie terugkeer indien daar ten minste minperiods nie-nul waardes in die huidige venster. Dit verskil van cumsum. cumprod. cummax. en koljander. wat terugkeer NaN in die uitset waar 'n NaN teëgekom in die insette. 'N groeiende venster statistiek sal meer stabiel (en minder responsief) as sy rollende venster eweknie wees as die toenemende venster grootte van die relatiewe impak van 'n individu gegee punt af. As 'n voorbeeld, hier is die expandingmean uitset vir die vorige tydreekse dataset: eksponensieel geweeg oomblik funksioneer 'n verwante stel funksies eksponensieel geweeg weergawes van baie van die opsies statistieke. 'N Aantal EW (eksponensieel geweeg) funksies word verskaf met behulp van die vermenging metode. Byvoorbeeld, waar is die gevolg en die insette, bereken ons 'n eksponensieel geweeg bewegende gemiddelde as wat jy kan een of die ander van hierdie funksies, maar nie beide slaag. Span ooreenstem met wat algemeen 'n 822020-dag EW average8221 beweeg byvoorbeeld genoem. Massamiddelpunt het 'n meer fisiese interpretasie. Byvoorbeeld, span 20 ooreenstem met com 9.5. Hier is die lys van funksies wat beskikbaar is: outoregressiewe bewegende gemiddelde fout prosesse (ARMA foute) en ander modelle wat lags van die dwaling terme betrek kan word beraam deur gebruik te maak van FIT state en gesimuleerde of voorspel deur gebruik te maak van LOS state. ARMA modelle vir die fout proses word dikwels gebruik vir modelle met autocorrelated residue. Die AR makro kan gebruik word om modelle met outoregressiewe fout prosesse spesifiseer. Die MA makro kan gebruik word om modelle spesifiseer met bewegende gemiddelde fout prosesse. Outoregressiewe Foute 'n model met die eerste-orde outoregressiewe foute, AR (1), het die vorm terwyl 'n AR (2) fout proses het die vorm en dies meer vir hoër-orde prosesse. Let daarop dat die e onafhanklik en identies verdeelde en het 'n verwagte waarde van 0. 'n Voorbeeld van 'n model met 'n AR (2) komponent is en dies meer vir hoër-orde prosesse. Byvoorbeeld, kan jy 'n eenvoudige lineêre regressiemodel met MA (2) skryf bewegende gemiddelde foute as waar Ma1 en Ma2 is die bewegende gemiddelde parameters. Let daarop dat RESID. Y outomaties word gedefinieer deur PROC model as die ZLAG funksie moet gebruik word vir MA modelle om die rekursie van die lags afgestomp. Dit verseker dat die vertraagde foute begin by nul in die lag priming fase en nie voort ontbrekende waardes wanneer-lag priming tydperk veranderlikes ontbreek, en dit verseker dat die toekomstige foute is nul eerder as vermis tydens simulasie of vooruitskatting. Vir meer besonderhede oor die lag funksies, sien die artikel Lag logika. Hierdie model geskryf met behulp van die MA makro is soos volg: Algemene vorm vir ARMA Models Die algemene ARMA (p, q) proses het die volgende vorm 'n ARMA (p, q) model kan gespesifiseer word soos volg: waar AR Ek en MA j verteenwoordig die outoregressiewe en bewegende gemiddelde parameters vir die verskillende lags. Jy kan enige name wat jy wil vir hierdie veranderlikes gebruik, en daar is baie soortgelyk maniere wat die spesifikasie kan geskryf word. Vektor ARMA prosesse kan ook beraam met PROC model. Konvergensie Probleme met ARMA Models ARMA modelle kan moeilik om te skat wees: Byvoorbeeld, kan 'n twee-veranderlike AR (1) proses vir die foute van die twee endogene veranderlikes Y1 en Y2 soos volg gespesifiseer word. As die parameter ramings is nie binne die toepaslike omvang, 'n bewegende gemiddelde modelle oorblywende terme groei eksponensieel. Die berekende residue vir latere waarnemings kan baie groot wees of kan oorloop. Dit kan gebeur óf omdat onbehoorlike beginspan waardes is gebruik of omdat die iterasies wegbeweeg van redelike waardes. Sorg moet gedra word in die keuse van beginspan waardes vir ARMA parameters. Begin waardes van 0.001 vir ARMA parameters gewoonlik werk as die model pas die data goed en die probleem is goed gekondisioneer. Let daarop dat 'n MA-model dikwels benader kan word deur 'n hoë-orde AR model, en omgekeerd. Dit kan lei tot 'n hoë collinearity in gemengde ARMA modelle, wat op sy beurt ernstige swak kondisionering in die berekeninge en onstabiliteit van die parameter ramings kan veroorsaak. As jy konvergensie probleme te hê, terwyl die skatte van 'n model met ARMA foute prosesse, probeer om te skat in stappe. In die eerste plek gebruik 'n geskikte verklaring aan net die strukturele parameters met die ARMA parameters gehou na nul (of om vooraf redelike raming indien beskikbaar) te skat. Volgende, gebruik 'n ander FIT verklaring slegs die ARMA parameters beraam, met behulp van die strukturele parameterwaardes van die eerste termyn. Sedert die waardes van die strukturele parameters is waarskynlik naby aan hul finale skattings te wees, kan die ARMA parameterberaming nou bymekaar. Ten slotte, gebruik 'n ander FIT verklaring aan gelyktydige skattings van al die parameters te produseer. Sedert die aanvanklike waardes van die parameters is nou waarskynlik baie naby aan hul finale gesamentlike skattings te wees, moet die skattings vinnig bymekaar as die model geskik is vir die data is. AR beginvoorwaardes Die aanvanklike lags van die fout terme van AR (p) modelle gemodelleer kan word in verskillende maniere. Die outoregressiewe fout begin metodes deur SAS / ETS prosedures is die volgende: voorwaardelike kleinste kwadrate (ARIMA en model prosedures) onvoorwaardelike kleinste kwadrate (AUTOREG, ARIMA, en model prosedures) die maksimum waarskynlikheid (AUTOREG, ARIMA, en model prosedures) Yule-Walker (AUTOREG prosedure net) Hildreth-Lu, wat (enigste model prosedure) die eerste p Waarnemings verwyder Sien Hoofstuk 8, die AUTOREG prosedure, vir 'n verduideliking en bespreking van die meriete van verskeie AR (p) begin metodes. Die CLS, ULS, ML, en HT initializations uitgevoer kan word deur PROC model. Vir AR (1) foute, kan hierdie initializations geproduseer, soos uiteengesit in Tabel 18.2. Hierdie metodes is ekwivalent in groot monsters. Table 18.2 Initializations Uitgevoer deur PROC Model: AR (1) FOUTE Die aanvanklike lags van die fout terme van MA (Q) modelle kan ook geskoei op verskillende maniere. Die volgende bewegende gemiddelde fout start-up paradigmas word ondersteun deur die ARIMA en model prosedures: onvoorwaardelike kleinstekwadrate voorwaardelike kleinstekwadrate die voorwaardelike kleinste kwadrate metode van beraming bewegende gemiddelde fout terme is nie optimaal omdat dit die aanloop probleem ignoreer. Dit verminder die doeltreffendheid van die skat, hoewel hulle onbevooroordeelde bly. Die aanvanklike uitgestel residue, die uitbreiding van voor die aanvang van die data, is veronderstel om 0, hul onvoorwaardelike verwagte waarde. Dit stel 'n verskil tussen hierdie residue en die algemene kleinstekwadrate residue vir die bewegende gemiddelde kovariansie, wat, in teenstelling met die outoregressiewe model, voortduur deur die datastel. Gewoonlik hierdie verskil konvergeer vinnig tot 0, maar vir byna noninvertible bewegende gemiddelde prosesse die konvergensie is baie stadig. Om hierdie probleem te verminder, moet jy baie data het, en die bewegende gemiddelde parameterberaming moet goed binne die omkeerbare reeks. Hierdie probleem reggestel kan word ten koste van die skryf van 'n meer komplekse program. Onvoorwaardelike kleinste kwadrate beramings vir die MA (1) proses kan geproduseer word deur die spesifiseer van die model soos volg: Moving-gemiddelde foute kan moeilik om te skat wees. Jy moet oorweeg om 'n AR (p) benadering tot die bewegende gemiddelde proses. 'N bewegende gemiddelde proses kan gewoonlik goed benader word deur 'n outoregressiewe proses as die data is nie stryk of differenced. Die AR Makro Die SAS makro AR genereer programmering state vir PROC model vir outoregressiemodelle. Die AR makro is deel van SAS / ETS sagteware, en geen spesiale opsies moet ingestel word om die makro gebruik. Die outoregressiewe proses toegepas kan word om die strukturele vergelyking foute of om die endogene reeks hulself. Die AR makro kan gebruik word vir die volgende tipes motor regressie: onbeperkte vector-motor regressie beperk vector-motor regressie Eenveranderlike motor regressie Om die foutterm van 'n vergelyking model as 'n outoregressiewe proses, gebruik die volgende stelling na die vergelyking: Byvoorbeeld, veronderstel dat Y is 'n lineêre funksie van x1, x2, en 'n AR (2) fout. Die oproepe na AR moet kom na al die vergelykings wat die proses van toepassing op: Jy sal hierdie model soos volg skryf. Die voorafgaande makro aanroeping, AR (y, 2), produseer die state getoon in die lys uitset in Figuur 18.58. Figuur 18.58 LYS Opsie Uitset vir 'n AR (2) Model Die pred voorafgegaan veranderlikes is tydelik program veranderlikes gebruik sodat die lags van die residue is die korrekte residue en nie dié geherdefinieer deur hierdie vergelyking. Let daarop dat hierdie is gelykstaande aan die state uitdruklik in die artikel Algemene Form vir ARMA Models geskryf. Jy kan ook die outoregressiewe parameters aan nul beperk by uitgesoekte lags. Byvoorbeeld, as jy outoregressiewe parameters wou by lags 1, 12, en 13, kan jy die volgende stellings gebruik: Hierdie state genereer die uitset in Figuur 18,59. Figuur 18,59 LYS Opsie Uitset vir 'n AR Model met lags op 1, 12, en 13 Die model Prosedure aanbieding van Saamgestel programkode Verklaring Geperste PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y pred. y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - PREDy) yl12 ZLAG12 (y - PREDy) yl13 ZLAG13 (y - PREDy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Daar is variasies op die voorwaardelike kleinste kwadrate metode, afhangende van of waarnemings op die begin van die reeks word gebruik om op te warm die AR proses. By verstek, die AR voorwaardelike kleinste kwadrate metode gebruik al die waarnemings en aanvaar nulle vir die aanvanklike lags van outoregressiewe terme. Deur die gebruik van die opsie man, kan jy versoek dat AR gebruik die onvoorwaardelike kleinste kwadrate (ULS) of metode maksimum-waarskynlikheid (ML) plaas. Byvoorbeeld, is Besprekings van hierdie metodes wat in die artikel AR beginvoorwaardes. Deur die gebruik van die MCLS N opsie, kan jy versoek dat die eerste N Waarnemings word om skattings van die aanvanklike outoregressiewe lags bereken. In hierdie geval, die ontleding begin met waarneming N 1. Byvoorbeeld: Jy kan die AR makro gebruik om 'n outoregressiewe model toe te pas om die endogene veranderlike, in plaas van om die foutterm, deur gebruik te maak van die opsie TYPEV. Byvoorbeeld, as jy wil die vyf afgelope lags van Y toe te voeg tot die vergelyking in die vorige voorbeeld, jy kan AR gebruik om die parameters te genereer en loop deur die gebruik van die volgende stellings: Die voorafgaande stellings te genereer die uitset in Figuur 18.60. Figuur 18.60 LYS Opsie Uitset vir 'n AR model van Y Hierdie model voorspel Y as 'n lineêre kombinasie van X1, X2, 'n onderskep, en die waardes van Y in die mees onlangse vyf periodes. Onbeperkte vector-motor regressie Om die fout terme van 'n stel vergelykings as 'n vektor outoregressiewe proses te modelleer, gebruik die volgende vorm van die AR makro na die vergelykings: Die processname waarde is 'n naam wat jy verskaf vir AR om te gebruik in die maak van name vir die outoregressiewe grense. Jy kan die AR makro gebruik om verskillende AR prosesse vir verskillende stelle vergelykings model deur gebruik te maak van verskillende proses name vir elke stel. Die naam proses verseker dat die veranderlike name wat uniek is. Gebruik 'n kort processname waarde vir die proses as parameter ramings geskryf moet word om 'n uitset datastel. Die AR makro probeer parameter name minder as of gelyk aan agt karakters bou, maar dit is beperk deur die lengte van processname. wat gebruik word as 'n voorvoegsel vir die AR parameter name. Die variablelist waarde is die lys van endogene veranderlikes vir die vergelykings. Byvoorbeeld, veronderstel dat foute vir vergelykings Y1, Y2, en Y3 gegenereer deur 'n tweede-orde vektor outoregressiewe proses. wat die volgende vir Y1 en soortgelyke kode vir Y2 en Y3 genereer: Slegs die voorwaardelike kleinste kwadrate (MCLS of MCLS n) metode kan gebruik word vir vektor prosesse Jy kan die volgende stellings gebruik. Jy kan ook dieselfde vorm met beperkings wat die koëffisiëntmatriks 0 by uitgesoekte lags gebruik. Byvoorbeeld, die volgende stellings pas 'n derde-orde vektor proses om die vergelyking foute met al die koëffisiënte op lag 2 beperk tot 0 en met die koëffisiënte op lags 1 en 3 onbeperkte: Jy kan die drie reekse Y1Y3 as 'n vektor outoregressiewe proses te modelleer in die veranderlikes in plaas van in die foute deur die gebruik van die opsie TYPEV. As jy wil Y1Y3 model as 'n funksie van die verlede waardes van Y1Y3 en 'n paar eksogene veranderlikes of konstantes, kan jy AR gebruik om die state vir die lag terme te genereer. Skryf 'n vergelyking vir elke veranderlike vir die nonautoregressive deel van die model, en dan bel AR met die opsie TYPEV. Byvoorbeeld, kan die nonautoregressive deel van die model 'n funksie van eksogene veranderlikes wees, of dit kan onderskep parameters wees. As daar geen eksterne komponente om die vector-motor regressie model, insluitende geen afsnitte, dan wys nul tot elk van die veranderlikes. Daar moet 'n opdrag aan elkeen van die veranderlikes voor AR genoem. Hierdie voorbeeld modelle die vektor Y (Y1 Y2 Y3) as 'n lineêre funksie net van sy waarde in die vorige twee periodes en 'n wit geraas fout vektor. Die model het 18 (3 3 3 3) parameters. Sintaksis van die AR Makro Daar is twee gevalle van die sintaksis van die AR makro. Wanneer beperkings op 'n vektor AR proses nie nodig, die sintaksis van die AR makro het die algemene vorm spesifiseer 'n voorvoegsel vir AR om te gebruik in die bou van name van veranderlikes wat nodig is om die AR proses te definieer. As die endolist nie gespesifiseer word nie, die endogene lys standaard te noem. wat moet die naam van die vergelyking waarna die AR fout proses toegepas moet word nie. Die naam mag nie meer as 32 karakters. is aan die orde van die AR proses. spesifiseer die lys van vergelykings waarna die AR proses toegepas moet word. Indien meer as een naam word gegee, is 'n onbeperkte vektor proses geskep met die strukturele residue van al die vergelykings ingesluit as voorspellers in elk van die vergelykings. As nie gespesifiseer, verstek na endolist naam. spesifiseer die lys van sloerings waarteen die AR terme is om by te voeg. Die koëffisiënte van die terme op lags nie gelys is ingestel op 0. Al die genoteerde lags moet minder as of gelyk aan nlag wees. en daar was geen duplikate moet wees. As nie gespesifiseer, die laglist standaard vir alle lags 1 deur nlag. spesifiseer die skatting metode om te implementeer. Geldige waardes van M is CLS (voorwaardelike kleinste kwadrate beramings), ULS (onvoorwaardelike kleinste kwadrate beramings), en ML (maksimum waarskynlikheid ramings). MCLS is die standaard. Slegs MCLS toegelaat wanneer meer as een vergelyking gespesifiseer. Die ULS en ML metodes word nie ondersteun nie vir vektor AR modelle deur AR. bepaal dat die AR proses toegepas moet word om die endogene veranderlikes hulself in plaas van om die strukturele residue van die vergelykings. Beperkte vector-motor regressie Jy kan beheer wat parameters ingesluit in die proses, die beperking van tot 0 diegene parameters wat jy nie in te sluit. In die eerste plek gebruik AR met die opsie eerbiedig die veranderlike lys verklaar en die dimensie van die proses te definieer. Dan gebruik addisionele AR oproepe na terme vir geselekteerde vergelykings met geselekteerde veranderlikes by sekere lags genereer. Byvoorbeeld, die fout vergelykings geproduseer is soos volg: Hierdie model stel dat die foute vir Y1 afhang van die foute van beide Y1 en Y2 (maar nie Y3) by beide lags 1 en 2, en dat die foute vir Y2 en Y3 afhang die vorige foute vir al drie veranderlikes, maar slegs op lag 1. AR Makro Sintaksis vir Beperkte vector AR 'n alternatiewe gebruik van AR toegelaat word om beperkings op 'n vektor AR proses te lê deur AR 'n paar keer 'n beroep op verskillende AR terme spesifiseer en loop vir verskillende vergelykings. Die eerste oproep het die algemene vorm spesifiseer 'n voorvoegsel vir AR om te gebruik in die bou van name van veranderlikes wat nodig is om die vektor AR proses te definieer. spesifiseer die einde van die AR proses. spesifiseer die lys van vergelykings waarna die AR proses toegepas moet word. bepaal dat AR is nie om die AR proses te genereer, maar is om te wag vir verdere inligting wat in later AR oproepe vir die gelyknamige waarde. Die daaropvolgende oproepe het die algemene vorm is dieselfde as in die eerste oproep. spesifiseer die lys van vergelykings waarna die spesifikasies in hierdie AR oproep is wat toegepas moet word. Slegs name wat in die endolist waarde van die eerste oproep vir die naam waarde kan verskyn in die lys van vergelykings in eqlist. spesifiseer die lys van vergelykings wie uitgestel strukturele residue is om ingesluit te word as voorspellers in die vergelykings in eqlist. Slegs name in die endolist van die eerste oproep vir die naam waarde kan verskyn in varlist. As nie gespesifiseer, verstek na varlist endolist. spesifiseer die lys van sloerings waarteen die AR terme is om by te voeg. Die koëffisiënte van die terme op lags nie gelys is ingestel op 0. Al die genoteerde lags moet minder as of gelyk aan die waarde van nlag wees. en daar was geen duplikate moet wees. As nie gespesifiseer, verstek laglist al lags 1 deur nlag. Die MA Makro Die SAS makro MA genereer programmering state vir PROC model vir die verskuiwing-gemiddelde modelle. Die MA makro is deel van SAS / ETS sagteware, en geen spesiale opsies is nodig om die makro gebruik. Die bewegende gemiddelde fout proses toegepas kan word om die strukturele vergelyking foute. Die sintaksis van die MA makro is dieselfde as die AR makro behalwe daar is geen argument plekke. Wanneer jy die MA en AR makros gekombineer, moet die MA makro die AR makro volg. Die volgende SAS / IML state te produseer 'n ARMA (1, (1 3)) fout proses en stoor dit in die datastel MADAT2. Die volgende PROC MODEL state word gebruik om die parameters van hierdie model skat met behulp van maksimum waarskynlikheid fout struktuur: die skat van die parameters wat deur hierdie lopie word in Figuur 18.61. Figuur 18.61 Beramings van 'n ARMA (1, (1 3)) Proses Daar is twee gevalle van die sintaksis vir die MA makro. Wanneer beperkings op 'n vektor MA proses nie nodig, die sintaksis van die MA makro het die algemene vorm spesifiseer 'n voorvoegsel vir MA om te gebruik in die bou van name van veranderlikes wat nodig is om die MA proses te definieer en is die standaard endolist. is aan die orde van die MA-proses. spesifiseer die vergelykings waarna die MA proses toegepas moet word. Indien meer as een naam word gegee, is CLS skatting gebruik vir die vektor proses. spesifiseer die lags waarteen die MA terme is om by te voeg. Al die genoteerde lags moet minder as of gelyk aan nlag wees. en daar was geen duplikate moet wees. As nie gespesifiseer, die laglist standaard vir alle lags 1 deur nlag. spesifiseer die skatting metode om te implementeer. Geldige waardes van M is CLS (voorwaardelike kleinste kwadrate beramings), ULS (onvoorwaardelike kleinste kwadrate beramings), en ML (maksimum waarskynlikheid ramings). MCLS is die standaard. Slegs MCLS toegelaat wanneer meer as een vergelyking wat in die endolist. MA Makro Sintaksis vir Beperkte Vector bewegende gemiddeldes 'n Alternatiewe gebruik van MA toegelaat word om beperkings op 'n vektor MA proses te lê deur 'n paar keer 'n beroep MA verskillende MA terme spesifiseer en loop vir verskillende vergelykings. Die eerste oproep het die algemene vorm spesifiseer 'n voorvoegsel vir MA om te gebruik in die bou van name van veranderlikes wat nodig is om die vektor MA proses te definieer. spesifiseer die einde van die MA-proses. spesifiseer die lys van vergelykings waarna die MA proses toegepas moet word. bepaal dat MA is nie tot die MA proses te genereer, maar is om te wag vir verdere inligting wat in later MA oproepe vir die gelyknamige waarde. Die daaropvolgende oproepe het die algemene vorm is dieselfde as in die eerste oproep. spesifiseer die lys van vergelykings waarna die spesifikasies in hierdie MA oproep is wat toegepas moet word. spesifiseer die lys van vergelykings wie uitgestel strukturele residue is om ingesluit te word as voorspellers in die vergelykings in eqlist. spesifiseer die lys van sloerings waarteen die MA terme moet word added. Moving gemiddelde en eksponensiële gladstryking modelle As 'n eerste stap in die beweging van buite gemiddelde modelle, ewekansige loop modelle, en lineêre tendens modelle, nonseasonal patrone en tendense kan geëkstrapoleer deur 'n bewegende - average of glad model. Die basiese aanname agter gemiddelde en glad modelle is dat die tyd reeks is plaaslik stilstaande met 'n stadig wisselende gemiddelde. Vandaar, neem ons 'n bewegende (plaaslike) gemiddelde om die huidige waarde van die gemiddelde skat en dan gebruik dit as die voorspelling vir die nabye toekoms. Dit kan beskou word as 'n kompromie tussen die gemiddelde model en die ewekansige-stap-sonder-drif-model. Dieselfde strategie gebruik kan word om te skat en ekstrapoleer 'n plaaslike tendens. 'N bewegende gemiddelde is dikwels 'n quotsmoothedquot weergawe van die oorspronklike reeks, want kort termyn gemiddelde het die effek van gladstryking uit die knoppe in die oorspronklike reeks. Deur die aanpassing van die mate van gladstryking (die breedte van die bewegende gemiddelde), kan ons hoop om 'n soort van 'n optimale balans tussen die prestasie van die gemiddelde en die stogastiese wandeling modelle slaan. Die eenvoudigste soort gemiddelde model is die. Eenvoudige (ewe-geweeg) Moving Average: Die voorspelling vir die waarde van Y op tyd T1 wat gemaak word op tydstip t is gelyk aan die eenvoudige gemiddelde van die mees onlangse m waarnemings: (hier en elders sal ek die simbool 8220Y-hat8221 gebruik om op te staan vir 'n voorspelling van die tyd reeks Y gemaak op die vroegste moontlike voor datum deur 'n gegewe model.) Hierdie gemiddelde is gesentreer op tydperk t (M1) / 2, wat impliseer dat die skatting van die plaaslike gemiddelde sal neig om agter die werklike waarde van die plaaslike gemiddelde met sowat (M1) / 2 periodes. So, sê ons die gemiddelde ouderdom van die data in die eenvoudige bewegende gemiddelde is (M1) / 2 met betrekking tot die tydperk waarvoor die voorspelling is bereken: dit is die hoeveelheid tyd waarop voorspellings sal neig om agter draaipunte in die data. Byvoorbeeld, as jy gemiddeld die afgelope 5 waardes, sal die voorspellings wees oor 3 periodes laat in reaksie op draaipunte. Let daarop dat indien M1, die eenvoudige bewegende gemiddelde (SMA) model is soortgelyk aan die ewekansige loop model (sonder groei). As m is baie groot (vergelykbaar met die lengte van die skatting tydperk), die SMA model is gelykstaande aan die gemiddelde model. Soos met enige parameter van 'n voorspelling model, is dit gebruiklik om die waarde van k te pas ten einde die beste quotfitquot om die data, dit wil sê die kleinste voorspelling foute gemiddeld behaal. Hier is 'n voorbeeld van 'n reeks wat blykbaar ewekansige skommelinge toon om 'n stadig-wisselende gemiddelde. In die eerste plek kan probeer om dit aan te pas met 'n ewekansige loop model, wat gelykstaande is aan 'n eenvoudige bewegende gemiddelde van 1 kwartaal: Die ewekansige loop model reageer baie vinnig om veranderinge in die reeks, maar sodoende dit tel baie van die quotnoisequot in die data (die ewekansige skommelinge) asook die quotsignalquot (die plaaslike gemiddelde). As ons eerder probeer 'n eenvoudige bewegende gemiddelde van 5 terme, kry ons 'n gladder lyk stel voorspellings: Die 5 termyn eenvoudige bewegende gemiddelde opbrengste aansienlik kleiner foute as die ewekansige loop model in hierdie geval. Die gemiddelde ouderdom van die data in hierdie voorspelling is 3 ((51) / 2), sodat dit is geneig om agter draaipunte met sowat drie periodes. (Byvoorbeeld, blyk 'n afswaai het plaasgevind by tydperk 21, maar die voorspellings nie omdraai tot verskeie tydperke later.) Let daarop dat die langtermyn-voorspellings van die SMA model is 'n horisontale reguit lyn, net soos in die ewekansige loop model. So, die SMA model veronderstel dat daar geen neiging in die data. Maar, terwyl die voorspellings van die ewekansige loop model is eenvoudig gelyk aan die laaste waargenome waarde, die voorspellings van die SMA model is gelykstaande aan 'n geweegde gemiddelde van die afgelope waardes. Die vertroue perke bereken deur Stat Graphics vir die langtermyn-voorspellings van die eenvoudige bewegende gemiddelde nie groter as die vooruitskatting horison styg kry. Dit is natuurlik nie korrek Ongelukkig is daar geen onderliggende statistiese teorie wat ons vertel hoe die vertrouensintervalle behoort te brei vir hierdie model. Dit is egter nie te moeilik om empiriese ramings van die vertroue perke vir die langer-horison voorspellings te bereken. Byvoorbeeld, kan jy die opstel van 'n sigblad waarop die SMA model sal gebruik word om 2 stappe vooruit, 3 stappe vooruit, ens binne die historiese data monster voorspel. Jy kan dan bereken die monster standaardafwykings van die foute op elke voorspelling horison, en dan bou vertrouensintervalle vir langer termyn voorspellings deur optelling en aftrekking veelvoude van die toepaslike standaard afwyking. As ons probeer om 'n 9-termyn eenvoudige bewegende gemiddelde, kry ons selfs gladder voorspellings en meer van 'n sloerende uitwerking: Die gemiddelde ouderdom is nou 5 periodes ((91) / 2). As ons 'n 19-termyn bewegende gemiddelde te neem, die gemiddelde ouderdom toeneem tot 10: Let daarop dat, inderdaad, is die voorspellings nou agter draaipunte met sowat 10 periodes. Watter bedrag van smoothing is die beste vir hierdie reeks Hier is 'n tabel wat hulle dwaling statistieke vergelyk, ook met 'n 3-gemiddelde: Model C, die 5-termyn bewegende gemiddelde, lewer die laagste waarde van RMSE deur 'n klein marge oor die 3 - term en 9 termyn gemiddeldes, en hul ander statistieke is byna identies. So, onder modelle met 'n baie soortgelyke fout statistieke, kan ons kies of ons 'n bietjie meer responsiewe ingesteldheid of 'n bietjie meer gladheid in die voorspellings sou verkies. (Terug na bo.) Browns Eenvoudige Eksponensiële Smoothing (eksponensieel geweeg bewegende gemiddelde) Die eenvoudige bewegende gemiddelde model hierbo beskryf het die ongewenste eienskap dat dit behandel die laaste k Waarnemings ewe en heeltemal ignoreer al voorafgaande waarnemings. Intuïtief, moet afgelope data verdiskonteer in 'n meer geleidelike mode - byvoorbeeld, die mees onlangse waarneming moet 'n bietjie meer gewig kry as 2 mees onlangse, en die 2de mees onlangse moet 'n bietjie meer gewig as die 3 mees onlangse kry, en so aan. Die eenvoudige eksponensiële gladstryking (SES) model accomplishes hierdie. Laat 945 dui n quotsmoothing constantquot ( 'n getal tussen 0 en 1). Een manier om die model te skryf is om 'n reeks L dat die huidige vlak (dit wil sê die plaaslike gemiddelde waarde) van die reeks verteenwoordig as geraamde van data tot op hede te definieer. Die waarde van L op tydstip t is rekursief bereken uit sy eie vorige waarde soos volg: Dus, die huidige stryk waarde is 'n interpolasie tussen die vorige stryk waarde en die huidige waarneming, waar 945 kontroles die nabyheid van die geïnterpoleerde waarde tot die mees onlangse waarneming. Die voorspelling vir die volgende tydperk is eenvoudig die huidige stryk waarde: anders gestel ons kan die volgende voorspelling direk in terme van vorige voorspellings en vorige waarnemings uit te druk, in enige van die volgende ekwivalent weergawes. In die eerste weergawe, die voorspelling is 'n interpolasie tussen vorige skatting en vorige waarneming: In die tweede weergawe, is die volgende voorspelling verkry deur die aanpassing van die vorige skatting in die rigting van die vorige fout deur 'n breukdeel bedrag 945. is die fout gemaak by tyd t. In die derde weergawe, die voorspelling is 'n eksponensieel geweeg (dit wil sê afslag) bewegende gemiddelde met afslag faktor 1- 945: Die interpolasie weergawe van die voorspelling formule is die eenvoudigste om te gebruik as jy die uitvoering van die model op 'n spreadsheet: dit pas in 'n enkele sel en bevat selverwysings verwys na die vorige skatting, die vorige waarneming, en die sel waar die waarde van 945 gestoor. Let daarop dat indien 945 1, die SES model is gelykstaande aan 'n ewekansige loop model (sonder groei). As 945 0, die SES model is gelykstaande aan die gemiddelde model, met die veronderstelling dat die eerste stryk waarde gelyk aan die gemiddelde is ingestel. (Terug na bo.) Die gemiddelde ouderdom van die data in die eenvoudige eksponensiële-glad voorspelling is 1/945 relatief tot die tydperk waarvoor die voorspelling is bereken. (Dit is nie veronderstel duidelik te wees, maar dit kan maklik aangetoon deur die evaluering van 'n oneindige reeks.) Dus, die eenvoudige bewegende gemiddelde voorspelling is geneig om agter draaipunte met sowat 1/945 periodes. Byvoorbeeld, wanneer 945 0.5 die lag is 2 periodes wanneer 945 0.2 die lag is 5 periodes wanneer 945 0.1 die lag is 10 periodes, en so aan. Vir 'n gegewe gemiddelde ouderdom (bv bedrag van lag), die eenvoudige eksponensiële gladstryking (SES) voorspelling is 'n bietjie beter as die eenvoudige bewegende gemiddelde (SMA) voorspel, want dit plaas relatief meer gewig op die mees onlangse waarneming --i. e. dit is 'n bietjie meer quotresponsivequot om veranderinge voorkom in die onlangse verlede. Byvoorbeeld, 'n SMA model met 9 terme en 'n SES model met 945 0.2 beide het 'n gemiddelde ouderdom van 5 vir die data in hul voorspellings, maar die SES model plaas meer gewig op die laaste 3 waardes as wel die SMA model en by die Terselfdertyd is dit doesn8217t heeltemal 8220forget8221 oor waardes meer as 9 tydperke oud was, soos getoon in hierdie grafiek: nog 'n belangrike voordeel van die SES model die SMA model is dat die SES model maak gebruik van 'smoothing parameter wat voortdurend veranderlike, so dit kan maklik new deur die gebruik van 'n quotsolverquot algoritme om die gemiddelde minimum te beperk kwadraat fout. Die optimale waarde van 945 in die SES model vir hierdie reeks blyk te wees 0,2961, soos hier gewys word: die gemiddelde ouderdom van die data in hierdie voorspelling is 1 / 0,2961 3.4 tydperke, wat soortgelyk is aan dié van 'n 6-termyn eenvoudige bewegende gemiddelde. Die langtermyn-voorspellings van die SES model is 'n horisontale reguit lyn. soos in die SMA model en die ewekansige loop model sonder groei. Let egter daarop dat die vertrouensintervalle bereken deur Stat Graphics nou divergeer in 'n redelike aantreklike mode, en dat hulle aansienlik nouer as die vertrouensintervalle vir die ewekansige loop model. Die SES model veronderstel dat die reeks is 'n bietjie quotmore predictablequot as wel die ewekansige loop model. 'N SES model is eintlik 'n spesiale geval van 'n ARIMA model. sodat die statistiese teorie van ARIMA modelle bied 'n goeie basis vir die berekening van vertrouensintervalle vir die SES model. In die besonder, 'n SES model is 'n ARIMA model met een nonseasonal verskil, 'n MA (1) termyn, en geen konstante term. andersins bekend as 'n quotARIMA (0,1,1) model sonder constantquot. Die MA (1) koëffisiënt in die ARIMA model stem ooreen met die hoeveelheid 1- 945 in die SES model. Byvoorbeeld, as jy 'n ARIMA (0,1,1) model inpas sonder konstante om die reeks te ontleed hier, die beraamde MA (1) koëffisiënt blyk te wees 0,7029, wat byna presies 'n minus 0,2961. Dit is moontlik om die aanname van 'n nie-nul konstante lineêre tendens voeg by 'n SES model. Om dit te doen, net 'n ARIMA model met een nonseasonal verskil en 'n MA (1) termyn met 'n konstante, dit wil sê 'n ARIMA (0,1,1) model met 'n konstante spesifiseer. Die langtermyn-voorspellings sal dan 'n tendens wat gelyk is aan die gemiddelde tendens waargeneem oor die hele skatting tydperk is. Jy kan dit nie doen in samewerking met seisoenale aanpassing, omdat die aanpassing opsies seisoenale is afgeskakel wanneer die model tipe is ingestel op ARIMA. Jy kan egter 'n konstante langtermyn eksponensiële tendens om 'n eenvoudige eksponensiële gladstryking model voeg (met of sonder seisoenale aanpassing) deur gebruik te maak van die opsie inflasie-aanpassing in die vooruitskatting prosedure. Die toepaslike quotinflationquot (persentasie groei) koers per periode kan geskat word as die helling koëffisiënt in 'n lineêre tendens model toegerus om die data in samewerking met 'n natuurlike logaritme transformasie, of dit kan op grond van ander, onafhanklike inligting oor die langtermyn groeivooruitsigte . (Terug na bo.) Browns Lineêre (dws dubbel) Eksponensiële glad die SMA modelle en SES modelle aanvaar dat daar geen tendens van enige aard in die data (wat gewoonlik OK of ten minste nie-te-sleg vir 1- stap-ahead voorspellings wanneer die data is relatief raserig), en hulle kan verander word om 'n konstante lineêre tendens inkorporeer soos hierbo getoon. Wat van kort termyn tendense As 'n reeks vertoon 'n wisselende koers van groei of 'n sikliese patroon wat uitstaan duidelik teen die geraas, en as daar 'n behoefte aan meer as 1 tydperk wat voorlê voorspel, dan skatting van 'n plaaslike tendens kan ook wees n probleem. Die eenvoudige eksponensiële gladstryking model veralgemeen kan word na 'n lineêre eksponensiële gladstryking (LES) model wat plaaslike begrotings van beide vlak en tendens bere te kry. Die eenvoudigste-time wisselende tendens model is Browns lineêr eksponensiële gladstryking model, wat twee verskillende reëlmatige reeks wat op verskillende punte gesentreer in die tyd gebruik. Die vooruitskatting formule is gebaseer op 'n ekstrapolasie van 'n streep deur die twee sentrums. ( 'N meer gesofistikeerde weergawe van hierdie model, Holt8217s, word hieronder bespreek.) Die algebraïese vorm van Brown8217s lineêr eksponensiële gladstryking model, soos dié van die eenvoudige eksponensiële gladstryking model, uitgedruk kan word in 'n aantal verskillende maar ekwivalente vorms. Die quotstandardquot vorm van hierdie model word gewoonlik uitgedruk as volg: Laat S dui die enkel-stryk reeks verkry deur die toepassing van eenvoudige eksponensiële gladstryking om reeks Y. Dit is, is die waarde van S op tydperk t gegee word deur: (Onthou dat, onder eenvoudige eksponensiële gladstryking, dit sou die voorspelling vir Y by tydperk T1 wees) Dan Squot dui die dubbel-stryk reeks verkry deur die toepassing van eenvoudige eksponensiële gladstryking (met behulp van dieselfde 945) tot reeks S:. ten slotte, die voorspelling vir Y tk. vir enige kgt1, word gegee deur: Dit lewer e 1 0 (dit wil sê kul n bietjie, en laat die eerste skatting gelyk wees aan die werklike eerste waarneming), en e 2 Y 2 8211 Y 1. waarna voorspellings gegenereer met behulp van die vergelyking hierbo. Dit gee dieselfde toegerus waardes as die formule gebaseer op S en S indien laasgenoemde is begin met behulp van S 1 S 1 Y 1. Hierdie weergawe van die model gebruik word op die volgende bladsy wat 'n kombinasie van eksponensiële gladstryking met seisoenale aanpassing illustreer. Holt8217s Lineêre Eksponensiële Smoothing Brown8217s LES model bere plaaslike begrotings van vlak en tendens deur glad die onlangse data, maar die feit dat dit nie so met 'n enkele glad parameter plaas 'n beperking op die data patrone wat dit in staat is om aan te pas: die vlak en tendens word nie toegelaat om wissel op onafhanklike tariewe. Holt8217s LES model spreek hierdie kwessie deur die insluiting van twee glad konstantes, een vir die vlak en een vir die tendens. Te eniger tyd t, soos in Brown8217s model, die daar is 'n skatting L t van die plaaslike vlak en 'n skatting T t van die plaaslike tendens. Hier is hulle rekursief bereken vanaf die waarde van Y op tydstip t en die vorige raming van die vlak en tendens waargeneem deur twee vergelykings wat eksponensiële gladstryking afsonderlik van toepassing op hulle. As die geskatte vlak en tendens op tydstip t-1 is L t82091 en T t-1. onderskeidelik, dan is die voorspelling vir Y tshy wat op tydstip t-1 sal gemaak is gelyk aan L t-1 T T-1. Wanneer die werklike waarde is waargeneem, is die opgedateer skatting van die vlak rekursief bereken deur interpol tussen Y tshy en sy voorspelling, L t-1 T T-1, die gebruik van gewigte van 945 en 1- 945. Die verandering in die geskatte vlak, naamlik L t 8209 L t82091. geïnterpreteer kan word as 'n lawaaierige meting van die tendens op tydstip t. Die opgedateer skatting van die tendens is dan rekursief bereken deur interpol tussen L t 8209 L t82091 en die vorige skatting van die tendens, T t-1. die gebruik van gewigte van 946 en 1-946: Die interpretasie van die tendens-glad konstante 946 is soortgelyk aan dié van die vlak glad konstante 945. Models met klein waardes van 946 aanvaar dat die tendens verander net baie stadig met verloop van tyd, terwyl modelle met groter 946 aanvaar dat dit vinniger is om te verander. 'N Model met 'n groot 946 is van mening dat die verre toekoms is baie onseker, omdat foute in die tendens-skatting word baie belangrik wanneer voorspel meer as een tydperk wat voorlê. (Terug na bo.) Die smoothing konstantes 945 en 946 kan in die gewone manier word beraam deur die vermindering van die gemiddelde kwadraat fout van die 1-stap-ahead voorspellings. Wanneer dit in Stat Graphics gedoen, die skattings uitdraai om te wees 945 0.3048 en 946 0,008. Die baie klein waarde van 946 beteken dat die model veronderstel baie min verandering in die tendens van een tydperk na die volgende, so basies hierdie model is besig om 'n langtermyn-tendens skat. Volgens analogie met die idee van die gemiddelde ouderdom van die data wat gebruik word in die skatte van die plaaslike vlak van die reeks, die gemiddelde ouderdom van die data wat gebruik word in die skatte van die plaaslike tendens is eweredig aan 1/946, hoewel nie presies gelyk aan Dit. In hierdie geval is dit blyk 1 / 0,006 125. Dit isn8217t n baie presiese aantal sover die akkuraatheid van die skatting van 946 isn8217t regtig 3 desimale plekke te wees, maar dit is van dieselfde algemene orde van grootte as die steekproefgrootte van 100 , so hierdie model is gemiddeld oor 'n hele klomp van die geskiedenis in die skatte van die tendens. Die voorspelling plot hieronder toon dat die LES model skat 'n effens groter plaaslike tendens aan die einde van die reeks as die konstante tendens geskat in die SEStrend model. Ook waarvan die beraamde waarde van 945 is byna identies aan die een wat deur die pas van die SES model met of sonder tendens, so dit is amper dieselfde model. Nou, doen hierdie lyk redelike voorspellings vir 'n model wat veronderstel is om te beraming 'n plaaslike tendens As jy hierdie plot 8220eyeball8221, dit lyk asof die plaaslike tendens afwaarts gedraai aan die einde van die reeks: Wat het die parameters van hierdie model gebeur is beraam deur die vermindering van die kwadraat fout van 1-stap-ahead voorspellings, nie langer termyn voorspellings, in welke geval die tendens 'n groot verskil doesn8217t maak. As alles wat jy is op soek na is 1-stap-ahead foute, is jy nie sien die groter prentjie van tendense oor (sê) 10 of 20 periodes. Ten einde hierdie model meer in harmonie te kry met ons oogbal ekstrapolasie van die data, kan ons met die hand die tendens-glad konstante pas sodat dit 'n korter basislyn vir tendens skatting. Byvoorbeeld, as ons kies om te stel 946 0.1, dan is die gemiddelde ouderdom van die gebruik in die skatte van die plaaslike tendens data is 10 periodes, wat beteken dat ons die gemiddeld van die tendens oor daardie laaste 20 periodes of so. Here8217s wat die voorspelling plot lyk asof ons '946 0.1 terwyl 945 0.3. Dit lyk intuïtief redelike vir hierdie reeks, maar dit is waarskynlik gevaarlik om hierdie tendens te ekstrapoleer nie meer as 10 periodes in die toekoms. Wat van die fout statistieke Hier is 'n model vergelyking vir die twee modelle hierbo asook drie SES modelle getoon. Die optimale waarde van 945.Vir die SES model is ongeveer 0,3, maar soortgelyke resultate (met 'n bietjie meer of minder 'n responsiewe ingesteldheid, onderskeidelik) verkry met 0,5 en 0,2. (A) Holts lineêre exp. glad met alfa 0,3048 en beta 0,008 (B) Holts lineêre exp. glad met alfa 0,3 en beta 0,1 (C) Eenvoudige eksponensiële gladstryking met alfa 0,5 (D) Eenvoudige eksponensiële gladstryking met alfa 0,3 (E) Eenvoudige eksponensiële gladstryking met alfa 0,2 hul statistieke is byna identies, so ons can8217t regtig die keuse te maak op die basis van 1-stap-ahead voorspelling foute binne die data monster. Ons het om terug te val op ander oorwegings. As ons glo dat dit sinvol om die huidige tendens skatting van wat die afgelope 20 periodes of so gebeur baseer, kan ons 'n saak vir die LES model met 945 0.3 en 946 0.1 maak. As ons wil hê agnostikus te wees oor die vraag of daar 'n plaaslike tendens, dan een van die SES modelle makliker om te verduidelik kan wees en sou ook vir meer middel-of-the-road voorspellings vir die volgende 5 of 10 periodes. (Terug na bo.) Watter tipe tendens-ekstrapolasie die beste: horisontale of lineêre empiriese bewyse dui daarop dat, indien die data is reeds aangepas (indien nodig) vir inflasie, dan is dit dalk onverstandig om kort termyn lineêre ekstrapoleer wees tendense baie ver in die toekoms. Tendense duidelik vandag mag verslap in die toekoms as gevolg van uiteenlopende oorsake soos produk veroudering, toenemende mededinging en sikliese afswaai of opwaartse fases in 'n bedryf. Om hierdie rede, eenvoudige eksponensiële gladstryking voer dikwels beter out-of-monster as wat dit andersins word verwag, ten spyte van sy quotnaivequot horisontale tendens ekstrapolasie. Gedempte tendens veranderinge van die lineêre eksponensiële gladstryking model word ook dikwels gebruik in die praktyk om 'n aantekening van konserwatisme in te voer in die tendens projeksies. Die gedempte-tendens LES model geïmplementeer kan word as 'n spesiale geval van 'n ARIMA model, in die besonder, 'n ARIMA (1,1,2) model. Dit is moontlik om vertrouensintervalle rondom langtermyn voorspellings wat deur eksponensiële gladstryking modelle bereken deur die oorweging van hulle as spesiale gevalle van ARIMA modelle. (Pasop: nie alle sagteware bereken vertrouensintervalle vir hierdie modelle korrek.) Die breedte van die vertrouensintervalle hang af van (i) die RMS fout van die model, (ii) die tipe glad (eenvoudige of lineêr) (iii) die waarde (s) van die smoothing konstante (s) en (iv) die aantal periodes voor jy voorspel. In die algemeen, die tussenposes versprei vinniger as 945 kry groter in die SES model en hulle uitgebrei, sodat baie vinniger as lineêre, eerder as eenvoudige smoothing gebruik. Hierdie onderwerp word verder in die ARIMA modelle deel van die notas bespreek. (Terug na bo.) Primêre Menu bewegende gemiddelde tydreekse 8212 Bofbal Gewoonlik gebruik ek statistieke om bofbal te beskryf, maar hierdie post gaan bofbal gebruik om statistieke te illustreer. There8217ll paar wiskunde wees. As jy skaars, you8217ve behoorlik gewaarsku. Ook het ek die SAS uitset vir elke model vir tegniese verwysing ingesamel. 'N tyd-reeks is data wat op 'n gereelde interval met verloop van tyd het ingesamel. Dit is eerder intuïtief wanneer die lig van die definisie, maar hulle is anders as deursnee-data. wat is die aard van die data stel die meeste mense is vertroud met. Die sluitingsprys van 'n voorraad is 'n tydreeks, want it8217s n meting op 16:00 elke M-F. Deursnee-data sal kyk na watter tipe aandele het hy die meeste oor 'n kwart in jou portefeulje. Dit is een meting (kwartaallikse verandering) gemaak vir 'n baie verskillende aandele. Nie elke datastel pas netjies in 'n kategorie en die ontleding doel is verskillend vir elke instrument. Die doel van eenveranderlike tydreekse ontleding (TSA) is 'n veranderlike slegs met behulp van verlede waarnemings van daardie veranderlike voorspel. In die geval van die voorbeeld aandelemark, TSA wil projekteer wat die sluitingsprys vir die volgende dag sal wees met behulp van data van die gespesifiseerde tyd raam. Maar finansies is vervelig en ek wou 'n datastel wat ek 'n paar insig van kan onttrek, sodat we8217ll kyk na MLB strikeouts (K) per jaar en die huis lopies (HR) per jaar as die datastelle. Wat beteken 'n tydreeks lyk. As jy scroll down of kyk op 'n aandelemark grafiek, you8217ll sien wat 'n tydreeks lyk. It8217s slordig. Ek het hierdie datastel, so ek kan hierdie proses akkuraat beskryf. It8217s n eerste-orde bewegende gemiddelde proses met 'n lag1 koëffisiënt van 0.9 en 'n reeks gemiddelde van 0. I8217ve het ook die normale lineêre regressie (OLS) tendens vir die tyd reeks wat toon dat dit 'n effens positiewe tendens het. Dit is 'n tipiese analitiese tegniek om te wys dat 'n tydreeks beweeg. In hierdie geval is die tendens is nie-betekenisvolle oor hierdie 50 datapunte. Daar is geen tendens, en die gemiddelde is nul. Die model wat ooreenstem met die grafiek hierbo het die algemene vorm soos volg: waar is die tyd-afhanklike teiken veranderlike, is die gemiddelde van die hele reeks van data, is die regressiekoëffisiënt, en is 'n tyd-afhanklik skok vir die stelsel. Die terme beskryf wat tydperk die veranderlike is van die begin met die mees onlangse een,. Voordat die beskrywing van die model hierbo, is dit belangrik om ten volle te verstaan wat die voorstel. Dit is 'n skok term wat 'n baie verskillende dinge kan omvat. As jy kyk na iets soos kwartaallikse verdienste, faktore wat die skok termyn is werkloosheid, ekonomiese groei, marketing, ens Ons is op soek na die data in afwesigheid van hierdie kennis, en omdat ons in die donker, die oorsake van die skokke verskyn lukraak. Die voorwaardes moet wees 'n normaal verdeel en nie autocorrelated. Die verwagte waarde moet wees nul,. Die verwagte waarde is 'n ander manier om die gemiddeld van al die terme beskryf. Here8217s 'n goeie manier om te dink oor die MA proses. Dink aan 'n vereenvoudigde persoonlike maandelikse uitgawes waar jy 'n konstante salaris en 'n beskeie besparing rekening gehad. Skokke wat jou sal ingesluit word in die term sou wees onverwagte uitgawes. Die onverwagse koste kan die volgende tydperk beïnvloed as jy moes duik in spaar. So 'n hoë onverwagte koste in Januarie 'n invloed die besteding in Februarie, omdat you8217d het payoff jou kredietkaart of sit geld terug in spaar. Daar is baie meer inligting begrip tydreekse soos outokorrelasie. Hopelik I8217ll skryf 'n aparte post op dat in die toekoms. Let8217s kyk na 'n paar werklike data. Gelukkig het ek het die volste spel van MLB in 'n databasis te danke aan retrosheet. org, sodat we8217ll kyk na 'n paar keer reeks van daar spesifiek, HR en Ks per jaar. Konseptueel vir hierdie basiese model, 'n MA proses sinvol. 'N skok van die vorige jaar, soos die uitbreiding, steroïede, of seleksie vooroordeel sou oordra jaar tot jaar. As ons kyk na die tyd reeks grafiek hieronder, doesn8217t dit gedra soos die vorige tydreekse wat gesentreer rondom nul. Dit tydreekse word beskou as nie-stasionêre, wat beteken there8217s n tendens en dat die tendens verander met verloop van tyd. Die aantal HR per seisoen toegeneem met verloop van tyd tot rondom 2001 toe dit afgeplat en begin om te daal. There8217s n tendens tot 2001 'n tendens nadat dit, en hulle aren8217t dieselfde. Om rondom hierdie plaas van modellering die werklike waardes te kry, sal die verskille tussen twee jaar van ure model wees. 'N verskil () is eenvoudig. Of die verskil in ure in 2013 en 2012, wat sou wees -279 ure. Die groen lyn is die werklike ure elke jaar. Die 8216cantaloupe8217 gekleurde lyne is die 50 vertrouensinterval (GI) van die skatting. Die rooi lyn is die voorspelde waardes. Ek gebruik 50 cis om waarskynlik afwykings, nie statisties beduidend afwykings toon. Die differenced bewegende gemiddelde model ARIMA (0,1,1) neem die vorm: Die vervanging van die beraamde koëffisiënt vir en 'n voorspelling gemaak kan word met die volgende vergelyking: die laaste vergelyking word gebruik om die voorspelling lyn te genereer en die uiteindelik die 50 GI lyne . Die interpretasie van hierdie vergelyking is dat die helfte van die skok van die vorige tydperk het nog 'n uitwerking op die verandering in die huidige tydperk. Die voorspelling voorspel dat die huis lopies eintlik sal toeneem oor die afgelope paar jaar en die afname nie voortgaan nie. Op soek na agter die model gebruik kan word om 'n paar jaar van belang te identifiseer, en I8217ve gemerk diegene op die grafiek. Uitbreiding het waarskynlik die grootste impak op die aantal ure, want dit verdun die talentpoel en verhoog die totale aantal wedstryde per seisoen. As jy wil om te meet die impak opleiding of steroïede gehad op HRS, you8217d wou 'n HR / speelkans reeks gebruik sien hieronder in plaas van die totale ure. Dit is totaal ure tussen die twee spanne. Die HR / GM is die tyd reeks wat 'n bofbal ontleder sal wil gebruik, want dit beheer vir ekstra speletjies van uitbreiding, sodat die tendense is ook minder uitgespreek. Dit is nog steeds 'n nie-stasionêre tydreekse, so dit moet verskil soos die vorige model wees en kan beskryf word deur die volgende vergelyking: Nog steeds die grootste skokke is die uitbreiding jaar, wat geneig is om 'n bietjie van 'n voortslepende effek hê voordat agteruit . 1987 staan nou as 'n baie raaiselagtige uitskieter. Daar was geen uitbreiding in daardie jaar. Die beste verduideliking is daar 'n staking sone verandering, maar ek kan net vind dat in een artikel. Die huis hardloop uitbarsting van die laat 90's en vroeë 2000's gebeur met die 8216steroid era8217 en twee naby periodes van uitbreiding. Hierdie pos isn8217t belangstel in die ontleding van steroïede uitwerking op MLB, net dat it8217s 8216shock8217 is met uitbreiding span 8216shock8217 gemeng. Ook dit moet op gelet ure / GM-haven8217t teruggekeer na pre-1993 uitbreiding vlakke. As ons kyk na die teenoorgestelde van 'n huis hardloop, die staking outs per jaar het 'n tendens wat is veel meer bestendige en it8217s toeneem. Bogenoemde vertoon grafiek ook differenced eerste orde bewegende gemiddelde proses, ARIMA (0,1,1). Die vergelyking lyk baie soortgelyk aan die laaste twee so ek won8217t dit uit te skryf. Die parameters kan gevind word in die SAS uitset bylaag. Ek het vir hierdie bladsy. Die voorspelling het 'n definitiewe toename in totale staking outs oor die volgende paar jaar. Net soos die HR per jaar tydreekse, is die tyd reeks Ks beste ontleed deur te kyk na die K / GM. Die K / GM-tydreekse blyk na 'n ander model as die eerste drie modelle wees, want dit is 'n net 'n ewekansige loop om 'n lineêre tendens. Hierdie proses het ewekansige skokke rondom 'n positiewe tendens met geen 8216memory8217 van die afgelope skokke soos die ander drie modelle het. Hierdie model vir K / GM-, ARIMA (0,1,0), lyk 'n bietjie anders as die ARIMA (0,1,1) modelle vroeër gesien want daar is geen uitgestel termyn. Die ARIMA (0,1,0) model word gegee deur die volgende vergelyking voorgestel: en die voorspelling vergelyking met parameters in dit sou wees: Dit dui daarop dat die K / GM-verhoog deur 0,11637 elke jaar op die gemiddelde. Dit is duidelik dat, aangesien daar slegs 54 outs in 'n baseball wedstryd hierdie tendens can8217t vir ewig aanhou. Vanaf die begin Augustus 2014, die huidige K / GM is 15.4 en dit word voorspel om 15,2497, wat binne die 50 GI van die skatting. Terwyl hierdie modelle voorspellings oor bofbal kan maak, wouldn8217t Ek oorweeg dit die beste of selfs goeie modelle vir die voorspelling omdat ons ander veranderlikes kan inkorporeer of verbeter die korrelig van die voorspelling vir individuele spelers. Daar isn8217t ook baie waarde te sê there8217ll meer staking outs in 2014 as 2013 egter hierdie voorbeeld is 'n goeie akademiese oefening in die begrip van hoe eenveranderlike tydreekse werk. En hopelik is dit bied 'n insig in beide tyd reeks en 'n bietjie oor tendense in bofbal. Post navigasie Related Posts
No comments:
Post a Comment