Análise preditiva com o Microsoft Excel: Trabalhando com séries temporais sazonais Neste capítulo Simples Médias Sazonais Médias Móveis e Centradas Médias Móveis Regressão Linear com Vetores Codificados Simples Sazonal Suavização Exponencial Modelos Holt-Invernos As questões ficam cada vez mais complicadas quando você tem uma série de tempo caracterizada em Parte por sazonalidade: a tendência de seu nível de subir e descer de acordo com o passar das estações. Nós usamos a estação do termo em um sentido mais geral do que seu significado diário do ano de 8217s quatro estações. No contexto da análise preditiva, uma estação pode ser um dia se os padrões repetem semanalmente, ou um ano em termos de ciclos de eleição presidencial, ou apenas sobre qualquer coisa no meio. Um turno de oito horas em um hospital pode representar uma temporada. Este capítulo dá uma olhada em como decompor uma série de tempo para que você possa ver como sua sazonalidade opera além de sua tendência (se houver). Como você poderia esperar do material nos Capítulos 3 e 4, várias abordagens estão disponíveis para você. Médias Sazonais Simples O uso de médias sazonais simples para modelar uma série temporal às vezes pode fornecer um modelo relativamente bruto para os dados. Mas a abordagem presta atenção às estações no conjunto de dados, e pode facilmente ser muito mais preciso como uma técnica de previsão do que simples suavização exponencial quando a sazonalidade é pronunciada. Certamente ele serve como uma introdução útil para alguns dos procedimentos usados com séries temporais que são sazonais e tendência, então dê uma olhada no exemplo da Figura 5.1. Figura 5.1 Com um modelo horizontal, médias simples resultam em previsões que não são mais do que meios sazonais. Os dados e gráficos mostrados na Figura 5.1 representam o número médio de acessos diários a um site que atende aos fãs da Liga Nacional de Futebol. Cada observação na coluna D representa o número médio de acessos por dia em cada um dos quatro trimestres ao longo de um período de cinco anos. Identificando um padrão sazonal Você pode dizer a partir das médias na faixa G2: G5 que um efeito trimestral distinto está ocorrendo. O maior número médio de hits ocorre durante o outono e inverno, quando os principais 16 jogos e os playoffs são programados. Os juros, medidos pelos acertos médios diários, diminuem durante os meses de primavera e verão. As médias são fáceis de calcular ou não você se sinta confortável com fórmulas de matriz. Para obter a média de todas as cinco instâncias do trimestre 1, por exemplo, você pode usar esta fórmula de matriz na célula G2 da Figura 5.1: Array-digite-a com CtrlShiftEnter. Ou você pode usar a função AVERAGEIF (), que você pode digitar da maneira normal, pressionando a tecla Enter. Em geral, eu prefiro a abordagem de matriz de fórmula porque me dá espaço para um maior controle sobre as funções e critérios envolvidos. A série de dados gráficos inclui rótulos de dados que mostram que trimestre cada ponto de dados pertence. O gráfico ecoa a mensagem das médias em G2: G5: Quarters 1 e 4 repetidamente obter a maioria dos hits. A sazonalidade não é clara neste conjunto de dados. Calculando Índices Sazonais Depois de ter decidido que uma série temporal tem uma componente sazonal, você gostaria de quantificar o tamanho do efeito. As médias mostradas na Figura 5.2 representam como o método das médias simples realiza essa tarefa. Figura 5.2 Combine a grande média com as médias sazonais para obter os índices sazonais. Na Figura 5.2. Você obtém índices sazonais aditivos na faixa G10: G13 subtraindo a média grande na célula G7 de cada média sazonal em G2: G5. O resultado é o 8220effect8221 de estar no Quarto 1, de estar no Quarto 2, e assim por diante. Se um determinado mês estiver no 1 º trimestre, você espera que ele tenha 99,65 mais batidas diárias médias do que a grande média de 140,35 hits por dia. Esta informação dá-lhe um sentido de como importante é estar em uma determinada estação. Suponha que você possui o site em questão e você quer vender espaço publicitário nele. Você pode certamente pedir um preço mais alto de anunciantes durante o primeiro e quarto trimestres do que durante o segundo e terceiro. Mais ao ponto, você pode carregar provavelmente duas vezes tanto durante o primeiro quarto do que durante o segundo ou terceiro. Com os índices sazonais na mão, você também está em uma posição para calcular os ajustes sazonais. Por exemplo, ainda na Figura 5.2. Os valores corrigidos de sazonalidade para cada trimestre em 2005 aparecem no G16: G19. Eles são calculados subtraindo o índice da medida trimestral associada. Tradicionalmente, o termo índice sazonal refere-se ao aumento ou diminuição do nível de uma série de 8217s associada a cada estação. O efeito sinônimo sazonal tem aparecido na literatura nos últimos anos. Porque você verá ambos os termos, I8217ve os usou ambos neste livro. É uma questão pequena, basta ter em mente que os dois termos têm o mesmo significado. Observe que, no curso normal dos eventos de 2001 a 2005, você espera que os resultados do segundo trimestre fiquem atrás dos resultados do primeiro trimestre em 133,6 (ou seja, 99,65 menos 821133,95). Mas em 2004 e 2005, os resultados ajustados sazonalmente para o segundo quarto excedem aqueles para o primeiro quarto. Esse resultado pode muito bem levá-lo a perguntar o que mudou nos últimos dois anos que inverte a relação entre os resultados ajustados sazonalmente para os dois primeiros trimestres. (I don8217t perseguir essa questão aqui. Eu trago-lo para sugerir que você quer muitas vezes ter um olhar tanto o observado e os dados ajustados sazonalmente.) Previsão a partir de Médias Sazonais Simples: Sem Tendência Embora o método de médias simples is8212as como eu disse Pode ser muito mais preciso do que a alternativa mais sofisticada de suavização exponencial, particularmente quando os efeitos sazonais são pronunciados e confiáveis. Quando a série de tempo não é alterada, como é o caso com o exemplo discutido nesta seção, as previsões sazonais simples são nada mais do que as médias sazonais. Quando a série não tende para cima ou para baixo, sua melhor estimativa do valor para a próxima temporada é que season8217s média histórica. Consulte a Figura 5.3. Figura 5.3 Combine a grande média com as médias sazonais para obter os índices sazonais. No gráfico da Figura 5.3. A linha tracejada representa as previsões a partir de suavização simples. As duas linhas contínuas representam as observações sazonais reais e as médias sazonais. Observe que as médias sazonais acompanham as observações sazonais reais de forma muito mais próxima do que as previsões suavizadas. Você pode ver quanto mais próximo dos dois RMSEs nas células F23 e H23. O RMSE para as médias sazonais é apenas um pouco mais de um terço do RMSE para as previsões suavizadas. Você pode calcular que até o tamanho dos efeitos sazonais, bem como a sua consistência: Suponha, por exemplo, que a diferença entre a média primeiro e segundo trimestres foram 35,0 em vez de 133,6 (que é a diferença entre as células G2 e G3 na Figura 5.2). Em seguida, num contexto de suavização, o valor real para o trimestre 1 seria um preditor muito melhor do valor para o trimestre 2 do que é o caso com esta série de tempo. E a suavização exponencial pode depender fortemente do valor da observação atual para sua previsão do próximo período. Se a constante de suavização é ajustada em 1,0, a suavização exponencial resolve a previsão na239ve ea previsão sempre é igual à real anterior. O fato de que o tamanho de cada variação sazonal é tão consistente de trimestre para trimestre significa que as médias sazonais simples são previsões confiáveis: Nenhuma observação trimestral real parte muito longe da média sazonal geral. Médias sazonais simples com tendência O uso de médias sazonais simples com uma série de tendências tem algumas desvantagens reais, e I8217m tentado a sugerir que nós ignorá-lo e passar para tópicos meatier. Mas é possível que você se deparar com situações em que alguém tenha usado esse método e, em seguida, não duvidará saber como ele funciona e por que há melhores escolhas. Qualquer método de lidar com a sazonalidade em uma série tendencializada deve lidar com o problema fundamental de desenredar o efeito da tendência daquela da sazonalidade. A sazonalidade tende a obscurecer a tendência, e vice-versa. Consulte a Figura 5.4. Figura 5.4 A presença de tendência complica o cálculo dos efeitos sazonais. O fato de que a tendência na série é para cima ao longo do tempo significa que simplesmente a média de cada temporada 8217s observações, como foi feito no caso sem tendência, confunde a tendência geral com a variação sazonal. A idéia usual é explicar a tendência separadamente dos efeitos sazonais. Você poderia quantificar a tendência e subtrair seu efeito dos dados observados. O resultado é uma série sem tendência que mantém a variação sazonal. Poderia ser tratado da mesma maneira como eu ilustrado anteriormente neste capítulo. Calculando a média para cada ano Uma maneira de detrend os dados (e outras maneiras sem dúvida ocorrerá a você) é calcular a tendência baseada em médias anuais ao invés de dados trimestrais. A idéia é que a média anual é insensível aos efeitos sazonais. Ou seja, se você subtrair um ano de média do valor de cada um de seus trimestres, a soma (e, portanto, a média) dos quatro efeitos trimestrais é precisamente zero. Portanto, uma tendência calculada com base nas médias anuais não é afetada pelas variações sazonais. Esse cálculo aparece na Figura 5.5. Figura 5.5 Este método agora impõe uma regressão linear sobre as médias simples. O primeiro passo para detrending os dados é obter a média diária hits para cada ano. That8217s feito na faixa H3: H7 na Figura 5.5. A fórmula na célula H3, por exemplo, é MÉDIA (D3: D6). Calculando a tendência com base em médias anuais Com as médias anuais na mão, você está em uma posição para calcular sua tendência. That8217s gerenciado usando LINEST () no intervalo I3: J7, usando esta fórmula de matriz: Se você don8217t fornecer x-values como o segundo argumento para PROJ. LIN (). O Excel fornece valores x padrão para você. Os padrões são simplesmente os inteiros consecutivos começando com 1 e terminando com o número de valores y que você chama no primeiro argumento. Neste exemplo, os valores x padrão são idênticos aos especificados na planilha no G3: G7, portanto, você poderia usar PROJ. LIN (H3: H7. VERDADEIRO). Esta fórmula usa dois padrões, para os valores x e a constante, representada pelas três vírgulas consecutivas. O objetivo deste exercício é quantificar a tendência de ano para ano, e PROJ. LIN () faz isso para você na célula I3. Essa célula contém o coeficiente de regressão para os valores de x. Multiplique 106,08 por 1 então por 2 então por 3, 4 e 5 e adicione a cada resultado a intercepção de 84,63. Apesar disso, o ponto importante para este procedimento é o valor do coeficiente 106,08, que quantifica a tendência anual. O passo que eu acabei de discutir é a fonte de minhas dúvidas sobre toda a abordagem descrita nesta seção. Normalmente, você tem um pequeno número de períodos abrangentes no exemplo, que é para executar a regressão. Os resultados da regressão tendem a ser terrivelmente instáveis quando, como aqui, eles são baseados em um pequeno número de observações. E, no entanto, esse procedimento depende muito desses resultados para diminuir a tendência das séries temporais. Prorratear a tendência ao longo das estações O método das médias simples de lidar com uma série sazonal tendencializada como esta continua dividindo a tendência pelo número de períodos no período abrangente para obter uma tendência por período. Aqui, o número de períodos por ano é de quatro8212we8217re trabalhando com dados trimestrais8212e dividimos 106,08 por 4 para estimar a tendência por trimestre em 26,5. O procedimento usa essa tendência periódica subtraindo-a do resultado periódico médio. O objetivo é eliminar o efeito da tendência anual dos efeitos sazonais. Primeiro, porém, precisamos calcular o resultado médio em todos os cinco anos para o Período 1, para o Período 2 e assim por diante. Para fazer isso, ajuda a reorganizar a lista de hits trimestrais reais, mostrados na faixa D3: D22 da Figura 5.5. Em uma matriz de cinco anos por quatro quartos, mostrados no intervalo G11: J15. Observe que os valores nessa matriz correspondem à lista na coluna D. Com os dados dispostos dessa forma, é fácil calcular o valor médio trimestral ao longo dos cinco anos no conjunto de dados. That8217s feito no intervalo G18: J18. O efeito da tendência retornada por PROJ. LIN () aparece no intervalo G19: J19. O valor inicial para cada ano é a média observada de acessos diários para o primeiro trimestre, portanto, não fazemos nenhum ajuste para o primeiro trimestre. Um quarto de 8217s vale a pena de tendência, ou 26,5, é subtraído do segundo quarter8217s média hits, resultando em um ajustado segundo trimestre valor de 329,9 (ver célula H21, Figura 5.5). Dois quarters8217 de tendência, 2 215 26,5 ou 53 na célula I19, é subtraído da média do terceiro trimestre de 8217s para obter um valor ajustado no terceiro trimestre de 282,6 na célula I21. E da mesma forma para o quarto trimestre, subtraindo três quartos da tendência de 454,4 para obter 374,8 na célula J21. Lembre-se de que, se a tendência fosse menor do que acima, como neste exemplo, você adicionaria o valor de tendência periódica aos meios periódicos observados em vez de subtraí-lo. Convertendo os Meios Sazonais Ajustados aos Efeitos Sazonais Segundo a lógica deste método, os valores mostrados nas linhas 20821121 da Figura 5.5 são os resultados trimestrais médios para cada um dos quatro trimestres, com o efeito da tendência geral ascendente no conjunto de dados removido. (As linhas 20 e 21 são fundidas nas colunas G a J.) Com sua tendência fora do caminho, podemos converter esses números para estimativas de efeitos sazonais. O resultado de estar no primeiro trimestre, no segundo trimestre, e assim por diante. Para obter esses efeitos, comece por calcular a média geral dos meios trimestrais ajustados. Essa grande média ajustada aparece na célula I23. A análise continua na Figura 5.6. Figura 5.6 Os efeitos trimestrais, ou índices, são usados para dessazonalizar os trimestres observados. A Figura 5.6 repete os ajustes trimestrais e a grande média ajustada do fundo da Figura 5.5. Eles são combinados para determinar os índices trimestrais (que você também pode pensar como efeitos sazonais). Por exemplo, a fórmula na célula D8 é a seguinte: Retorna 821133.2. Em relação ao grande meio, podemos esperar que um resultado que pertence ao segundo trimestre caia abaixo da grande média em 33,2 unidades. Aplicando os efeitos sazonais aos trimestres observados Para recapitular: Até agora, nós quantificamos a tendência anual nos dados por meio de regressão e dividimos essa tendência por 4 para propor-la a um valor trimestral. Pegando na Figura 5.6. Ajustamos a média para cada trimestre (em C3: F3) subtraindo as tendências proporcionais em C4: F4. O resultado é uma estimativa da média de cada trimestre, independentemente do ano em que o trimestre ocorre, em C5: F5. Subtraímos a média grande ajustada, na célula G5, da média trimestral ajustada em C5: F5. Isso converte cada trimestre em uma medida do efeito de cada trimestre em relação à média grande ajustada. Esses são os índices ou efeitos sazonais em C8: F8. Em seguida, removemos os efeitos sazonais dos trimestres observados. Conforme mostrado na Figura 5.6. Você faz isso subtraindo os índices trimestrais em C8: F8 dos valores correspondentes em C12: F16. E a maneira mais fácil de fazer isso é inserir esta fórmula na célula C20: Observe o único sinal de dólar antes do 8 na referência a C8. Essa é uma referência mista: parcialmente relativa e parcialmente absoluta. O sinal de dólar ancora a referência à oitava linha, mas a parte da coluna da referência é livre para variar. Portanto, depois que a última fórmula for inserida na célula C20, você pode clicar na alça de seleção cell8217s (o pequeno quadrado no canto inferior direito de uma célula selecionada) e arrastar para a direita na célula F20. Os endereços são ajustados à medida que você arrasta para a direita e você termina com os valores, com os efeitos sazonais removidos, para o ano de 2001 em C20: F20. Selecione esse intervalo de quatro células e use o identificador multiple selection8217s, agora em F20, para arrastar para baixo na linha 24. Assim fazendo preenche o restante da matriz. É importante ter em mente aqui que estamos ajustando os valores trimestrais originais para os efeitos sazonais. Seja qual for a tendência que existisse nos valores originais, ainda existe, e, na teoria, pelo menos 8212 permanece lá depois de termos feito os ajustes para os efeitos sazonais. Removemos uma tendência, sim, mas apenas dos efeitos sazonais. Assim, quando subtraímos os efeitos sazonais (detrended) das observações trimestrais originais, o resultado são as observações originais com a tendência, mas sem os efeitos sazonais. Eu tracei esses valores ajustados sazonalmente na Figura 5.6. Compare esse gráfico com o gráfico da Figura 5.4. Observe na Figura 5.6 que embora os valores dessazonalizados não estejam exatamente em uma linha reta, grande parte do efeito sazonal foi removida. Regressando os trimestrais desestacionalizados para os períodos de tempo O próximo passo é criar previsões a partir dos dados ajustados sazonalmente, tendência na Figura 5.6. Células C20: F24, e neste ponto você tem várias alternativas disponíveis. Você poderia usar a abordagem de diferenciação combinada com a suavização exponencial simples que foi discutida no Capítulo 3, 8220 Trabalhando com a Série de Tempo Trendada.8221 Você também pode usar a abordagem Holt8217s para alisar séries de tendências, discutidas no Capítulo 3 e Capítulo 4, Métodos permitem que você possa criar uma previsão de um passo adiante, à qual você adicionaria o índice sazonal correspondente. Outra abordagem, que aqui se usa, primeiro coloca os dados tendenciosos através de outra instância de regressão linear e depois adiciona o índice sazonal. Consulte a Figura 5.7. Figura 5.7 A primeira previsão verdadeira está na linha 25. A Figura 5.7 retorna os meios trimestrais dessazonalizados da disposição tabular em C20: F24 da Figura 5.6 para o arranjo de lista na faixa C5: C24 da Figura 5.7. Poderíamos usar LINEST () em conjunto com os dados em B5: C24 na Figura 5.7 para calcular a equação de regressão8217s intercept e coeficiente então, poderíamos multiplicar o coeficiente por cada valor na coluna B, e adicionar o intercepto a cada produto, para criar As previsões na coluna D. Mas embora LINEST () retorna informações úteis que não sejam o coeficiente e interceptar, TREND () é uma forma mais rápida de obter as previsões, e eu usá-lo na Figura 5.7. O intervalo D5: D24 contém as previsões que resultam da regressão dos dados trimestrais dessazonalizados em C5: C24 para os números de período em B5: B24. A fórmula de matriz usada em D5: D24 é a seguinte: Esse conjunto de resultados reflete o efeito da tendência geral ascendente nas séries temporais. Como os valores que a TENDÊNCIA () está prevendo de terem sido dessazonalizados, resta acrescentar os efeitos sazonais, também conhecidos como índices sazonais, à previsão de tendência. Adicionando os índices sazonais de volta Os índices sazonais, calculados na Figura 5.6. São fornecidos na Figura 5.7. Primeiro na gama C2: F2 e depois repetidamente na gama E5: E8, E9: E12, e assim por diante. As previsões reseasonalized são colocadas em F5: F24 adicionando os efeitos sazonais na coluna E às previsões de tendência na coluna D. Para obter a previsão um passo em frente na célula F25 da Figura 5.7. O valor de t para o próximo período vai para a célula B25. A seguinte fórmula é inserida na célula D25: Instrui o Excel a calcular a equação de regressão que prevê valores na faixa C5: C24 daqueles em B5: B24 e aplicar essa equação ao novo valor x na célula B25. O índice sazonal apropriado é colocado na célula E25 ea soma de D25 e E25 é colocada em F25 como a primeira verdadeira previsão das séries temporais tendência e sazonal. Você encontrará todo o conjunto de trimestres desestacionalizados e as previsões traçadas na Figura 5.8. Figura 5.8 Os efeitos sazonais são devolvidos às previsões. Avaliando Médias Simples A abordagem para lidar com uma série temporal sazonal, discutida em várias seções anteriores, tem algum apelo intuitivo. A idéia básica parece direta: Calcule uma tendência anual, regrindo meios anuais contra uma medida de períodos de tempo. Divida a tendência anual entre os períodos dentro do ano. Subtraia a tendência proporcional dos efeitos periódicos para obter efeitos ajustados. Subtraia os efeitos ajustados das medidas reais para dessazonalizar as séries temporais. Criar previsões a partir da série dessazonalizada e adicionar os efeitos sazonais ajustados de volta dentro Minha opinião é que vários problemas enfraquecem a abordagem, e eu não teria incluído neste livro, exceto que você é provável que encontrá-lo e, portanto, deve ser familiar com isso. E fornece um trampolim útil para discutir alguns conceitos e procedimentos encontrados em outras abordagens mais fortes. Em primeiro lugar, a questão (sobre qual eu me queixei anteriormente neste capítulo) sobre o tamanho de amostra muito pequeno para a regressão de médias anuais em inteiros consecutivos que identificam cada ano. Mesmo com apenas um preditor, apenas 10 observações estão realmente raspando o fundo do barril. Pelo menos você deve olhar para o R 2 resultante ajustado para encolhimento e, provavelmente, recalcular o erro padrão de estimativa em conformidade. É verdade que quanto mais forte a correlação na população, menor a amostra que você pode se safar. Mas trabalhando com trimestres dentro de anos, você tem sorte de encontrar até 10 anos de observações trimestrais consecutivas, cada um medido da mesma maneira em toda essa extensão de tempo. Não estou convencido de que a resposta ao padrão problemático que você encontra dentro de um ano (veja o gráfico na Figura 5.4) é a média dos picos e vales e obter uma estimativa de tendência dos meios anuais. Certamente é uma resposta para esse problema, mas, como você verá, há um método muito mais forte de segregar os efeitos sazonais de uma tendência subjacente, respondendo por ambos, e prever de acordo. I8217ll cobrirão esse método mais adiante neste capítulo, na seção Regressão Linear 8220 com Vectores Codificados8221. Além disso, não há fundamento teórico para distribuir a tendência anual uniformemente entre os períodos que compõem o ano. É verdade que a regressão linear faz algo semelhante quando coloca suas previsões em linha reta. Mas há um enorme abismo entre fazer uma suposição fundamental porque o modelo analítico não pode manipular os dados e aceitar um resultado falho cujos defeitos nas previsões podem ser medidos e avaliados. Dito isto, let8217s passar para o uso de médias móveis, em vez de médias simples como uma forma de lidar com a sazonalidade. Moving média: o que é e como calculá-lo Assistir ao vídeo ou ler o artigo abaixo: Uma média móvel é uma técnica Para obter uma idéia geral das tendências em um conjunto de dados é uma média de qualquer subconjunto de números. A média móvel é extremamente útil para prever as tendências a longo prazo. Você pode calculá-lo para qualquer período de tempo. Por exemplo, se você tiver dados de vendas para um período de vinte anos, você pode calcular uma média móvel de cinco anos, uma média móvel de quatro anos, uma média móvel de três anos e assim por diante. Os analistas do mercado de ações usarão frequentemente uma média movente de 50 ou 200 dias para ajudá-los a ver tendências no mercado conservado em estoque e (esperançosamente) prever onde os estoques estão indo. Uma média representa o valor 8220middling8221 de um conjunto de números. A média móvel é exatamente a mesma, mas a média é calculada várias vezes para vários subconjuntos de dados. Por exemplo, se você deseja uma média móvel de dois anos para um conjunto de dados de 2000, 2001, 2002 e 2003, você encontrará médias para os subconjuntos 20002001, 20012002 e 20022003. As médias móveis são normalmente plotadas e são visualizadas melhor. Calculando uma Média Móvel de 5 Anos Exemplo Exemplo Problema: Calcule uma média móvel de cinco anos a partir do seguinte conjunto de dados: (4M 6M 5M 8M 9M) 5 6.4M As vendas médias para o segundo subconjunto de cinco anos (2004 8211 2008). Centrada em torno de 2006, é de 6,6M: (6M 5M 8M 9M 5M) 5 6.6M As vendas médias para o terceiro subconjunto de cinco anos (2005 8211 2009). Centrado em torno de 2007, é 6.6M: (5M 8M 9M 5M 4M) 5 6.2M Continuar a calcular cada média de cinco anos, até chegar ao final do conjunto (2009-2013). Isso lhe dá uma série de pontos (médias) que você pode usar para traçar um gráfico de médias móveis. A seguinte tabela do Excel mostra as médias móveis calculadas para 2003-2012 juntamente com um gráfico de dispersão dos dados: Assista ao vídeo ou leia os passos abaixo: O Excel tem um poderoso add-in, o Data Analysis Toolpak (como carregar os dados Analysis Toolpak) que oferece muitas opções extras, incluindo uma função de média móvel automatizada. A função não só calcula a média móvel para você, mas também grava os dados originais ao mesmo tempo. Economizando um monte de batidas de tecla. Etapa 1: Clique na guia 8220Data8221 e, em seguida, clique em 8220Data Analysis.8221 Etapa 2: Clique em 8220Moving average8221 e, em seguida, clique em 8220OK.8221 Etapa 3: Clique na caixa 8220Input Range8221 e selecione os dados. Se você incluir cabeçalhos de colunas, verifique a caixa Rótulos na primeira linha. Passo 4: Digite um intervalo na caixa. Um intervalo é o número de pontos anteriores que você deseja que o Excel use para calcular a média móvel. Por exemplo, 822058221 utilizaria os 5 pontos de dados anteriores para calcular a média de cada ponto subsequente. Quanto menor o intervalo, mais próxima a sua média móvel é do seu conjunto de dados original. Etapa 5: Clique na caixa 8220Output Range8221 e selecione uma área na planilha onde deseja que o resultado apareça. Ou, clique no botão de opção 8220New worksheet8221. Etapa 6: Verifique a caixa 8220Chart Output8221 se você quiser ver um gráfico de seu conjunto de dados (se você esquecer de fazer isso, você sempre pode voltar e adicioná-lo ou escolher um gráfico a partir do 8220Insert8221 tab.8221 Passo 7: Pressione 8220OK .8221 O Excel retornará os resultados na área especificada na Etapa 6. Observe o vídeo ou leia as etapas abaixo: Exemplo de problema: Calcule a média móvel de três anos no Excel para os seguintes dados de vendas: 2003 (33M), 2004 (22M), 2006 (36M), 2006 (34M), 2007 (43M), 2008 (39M), 2009 (41M), 2010 (36M), 2011 (45M), 2012 (56M), 2013 (64M). 1: Digite seus dados em duas colunas no Excel. A primeira coluna deve ter o ano ea segunda coluna os dados quantitativos (neste exemplo problema, os números de vendas). Certifique-se de que não há linhas em branco em seus dados de célula. : Calcule a primeira média de três anos (2003-2005) para os dados. Para este problema de exemplo, digite 8220 (B2B3B4) 38221 na célula D 3. Calcular a primeira média Etapa 3: Arraste o quadrado no canto inferior direito d Para mover a fórmula para todas as células na coluna. Isso calcula médias para anos sucessivos (por exemplo, 2004-2006, 2005-2007). Arrastando a fórmula. Etapa 4: (Opcional) Crie um gráfico. Selecione todos os dados na planilha. Clique na guia 8220Insert8221 e, em seguida, clique em 8220Scatter, 8221 e, em seguida, clique em 8220Scatter com linhas suaves e marcadores.8221 Um gráfico de sua média móvel aparecerá na planilha. Confira nosso canal do YouTube para obter mais dicas e dicas de estatísticas Média em Movimento: O que é e Como Calcular foi modificado pela última vez: 8 de janeiro de 2016 por Andale 22 pensamentos sobre ldquo Média Móvel: O que é e Como Calcular rdquo Isto é Perfeito e simples de assimilar. Obrigado pelo trabalho Isso é muito claro e informativo. Pergunta: Como se calcula uma média móvel de 4 anos Em que ano a média móvel de 4 anos se centralizaria Centraria no final do segundo ano (ou seja, 31 de dezembro). Posso usar a renda média para prever ganhos futuros qualquer um sabe sobre meio centrado, por favor diga-me se alguém sabe. Aqui it8217s dado que temos de considerar 5 anos para obter a média que está no center. Then que sobre os anos de descanso, se queremos obter a média de 20118230as que don8217t têm valores após 2012, então como é que vamos calculá-lo Como você Don8217t tem mais informações seria impossível calcular o MA de 5 anos para 2011. Você poderia obter uma média móvel de dois anos embora. Olá, Obrigado pelo vídeo. No entanto, uma coisa não é clara. Como fazer uma previsão para os próximos meses O vídeo mostra a previsão dos meses para os quais os dados já estão disponíveis. Oi, Raw, I8217m trabalhando em expandir o artigo para incluir previsão. O processo é um pouco mais complicado do que usar dados passados. Dê uma olhada neste artigo Duke University, que explica em profundidade. Atenciosamente, Stephanie obrigado por uma explanantion claro. Hi Não é possível localizar o link para o artigo sugerido Universidade Duke. Modelos de suavização média e exponencial Como um primeiro passo para ir além dos modelos de média, modelos de caminhada aleatória e modelos de tendência linear, padrões e tendências não sazonais podem ser extrapolados usando um modelo de média móvel ou suavização. A suposição básica por trás dos modelos de média e suavização é que a série temporal é estacionária localmente com uma média lentamente variável. Assim, tomamos uma média móvel (local) para estimar o valor atual da média e, em seguida, usá-lo como a previsão para o futuro próximo. Isto pode ser considerado como um compromisso entre o modelo médio eo modelo randômico-sem-deriva. A mesma estratégia pode ser usada para estimar e extrapolar uma tendência local. Uma média móvel é chamada frequentemente uma versão quotsmoothedquot da série original porque a média de curto prazo tem o efeito de alisar para fora os solavancos na série original. Ajustando o grau de suavização (a largura da média móvel), podemos esperar encontrar algum tipo de equilíbrio ótimo entre o desempenho dos modelos de caminhada média e aleatória. O tipo mais simples de modelo de média é o. Média Móvel Simples (igualmente ponderada): A previsão para o valor de Y no tempo t1 que é feita no tempo t é igual à média simples das observações m mais recentes: (Aqui e em outro lugar usarei o símbolo 8220Y-hat8221 para ficar Para uma previsão da série de tempo Y feita o mais cedo possível antes de um determinado modelo). Esta média é centrada no período t (m1) 2, o que implica que a estimativa da média local tende a ficar aquém do verdadeiro Valor da média local em cerca de (m1) 2 períodos. Dessa forma, dizemos que a idade média dos dados na média móvel simples é (m1) 2 em relação ao período para o qual a previsão é calculada: é a quantidade de tempo que as previsões tendem a ficar atrás de pontos de viragem nos dados . Por exemplo, se você estiver calculando a média dos últimos 5 valores, as previsões serão cerca de 3 períodos atrasados em responder a pontos de viragem. Observe que se m1, o modelo de média móvel simples (SMA) é equivalente ao modelo de caminhada aleatória (sem crescimento). Se m é muito grande (comparável ao comprimento do período de estimação), o modelo SMA é equivalente ao modelo médio. Como com qualquer parâmetro de um modelo de previsão, é costume ajustar o valor de k para obter o melhor quotfitquot aos dados, isto é, os erros de previsão mais baixos em média. Aqui está um exemplo de uma série que parece apresentar flutuações aleatórias em torno de uma média de variação lenta. Primeiro, vamos tentar encaixá-lo com um modelo de caminhada aleatória, o que equivale a uma média móvel simples de um termo: O modelo de caminhada aleatória responde muito rapidamente às mudanças na série, mas ao fazê-lo ele escolhe grande parte do quotnoise no Dados (as flutuações aleatórias), bem como o quotsignalquot (a média local). Se preferirmos tentar uma média móvel simples de 5 termos, obtemos um conjunto de previsões mais suaves: a média móvel simples de 5 períodos produz erros significativamente menores do que o modelo de caminhada aleatória neste caso. A idade média dos dados nessa previsão é 3 ((51) 2), de modo que ela tende a ficar atrás de pontos de viragem em cerca de três períodos. (Por exemplo, uma desaceleração parece ter ocorrido no período 21, mas as previsões não virar até vários períodos mais tarde.) Observe que as previsões de longo prazo do modelo SMA são uma linha reta horizontal, assim como na caminhada aleatória modelo. Assim, o modelo SMA assume que não há tendência nos dados. No entanto, enquanto as previsões a partir do modelo de caminhada aleatória são simplesmente iguais ao último valor observado, as previsões do modelo SMA são iguais a uma média ponderada de valores recentes. Os limites de confiança calculados pela Statgraphics para as previsões de longo prazo da média móvel simples não se alargam à medida que o horizonte de previsão aumenta. Isto obviamente não é correto Infelizmente, não há uma teoria estatística subjacente que nos diga como os intervalos de confiança devem se ampliar para este modelo. No entanto, não é muito difícil calcular estimativas empíricas dos limites de confiança para as previsões de longo prazo. Por exemplo, você poderia configurar uma planilha na qual o modelo SMA seria usado para prever 2 passos à frente, 3 passos à frente, etc. dentro da amostra de dados históricos. Você poderia então calcular os desvios padrão da amostra dos erros em cada horizonte de previsão e então construir intervalos de confiança para previsões de longo prazo adicionando e subtraindo múltiplos do desvio padrão apropriado. Se tentarmos uma média móvel simples de 9 termos, obteremos previsões ainda mais suaves e mais de um efeito retardado: A idade média é agora de 5 períodos ((91) 2). Se tomarmos uma média móvel de 19 períodos, a idade média aumenta para 10: Observe que, de fato, as previsões estão ficando atrás de pontos de inflexão por cerca de 10 períodos. A quantidade de suavização é melhor para esta série Aqui está uma tabela que compara suas estatísticas de erro, incluindo também uma média de 3-termo: Modelo C, a média móvel de 5-termo, rende o menor valor de RMSE por uma pequena margem sobre o 3 E médias de 9-termo, e suas outras estatísticas são quase idênticas. Assim, entre modelos com estatísticas de erro muito semelhantes, podemos escolher se preferiríamos um pouco mais de resposta ou um pouco mais de suavidade nas previsões. O modelo de média móvel simples descrito acima tem a propriedade indesejável de tratar as últimas k observações de forma igual e ignora completamente todas as observações anteriores. (Voltar ao início da página.) Browns Simple Exponential Smoothing (média ponderada exponencialmente ponderada) Intuitivamente, os dados passados devem ser descontados de forma mais gradual - por exemplo, a observação mais recente deve ter um pouco mais de peso que a segunda mais recente, ea segunda mais recente deve ter um pouco mais de peso do que a 3ª mais recente, e em breve. O modelo de suavização exponencial simples (SES) realiza isso. Vamos 945 denotar uma constante quotsmoothingquot (um número entre 0 e 1). Uma maneira de escrever o modelo é definir uma série L que represente o nível atual (isto é, o valor médio local) da série, conforme estimado a partir dos dados até o presente. O valor de L no tempo t é calculado recursivamente a partir de seu próprio valor anterior como este: Assim, o valor suavizado atual é uma interpolação entre o valor suavizado anterior e a observação atual, onde 945 controla a proximidade do valor interpolado para o mais recente observação. A previsão para o próximo período é simplesmente o valor suavizado atual: Equivalentemente, podemos expressar a próxima previsão diretamente em termos de previsões anteriores e observações anteriores, em qualquer uma das seguintes versões equivalentes. Na primeira versão, a previsão é uma interpolação entre previsão anterior e observação anterior: Na segunda versão, a próxima previsão é obtida ajustando a previsão anterior na direção do erro anterior por uma fração 945. é o erro feito em Tempo t. Na terceira versão, a previsão é uma média móvel exponencialmente ponderada (ou seja, descontada) com o fator de desconto 1- 945: A versão de interpolação da fórmula de previsão é a mais simples de usar se você estiver implementando o modelo em uma planilha: ela se encaixa em um Célula única e contém referências de células que apontam para a previsão anterior, a observação anterior ea célula onde o valor de 945 é armazenado. Observe que se 945 1, o modelo SES é equivalente a um modelo de caminhada aleatória (sem crescimento). Se 945 0, o modelo SES é equivalente ao modelo médio, assumindo que o primeiro valor suavizado é definido igual à média. A idade média dos dados na previsão de suavização exponencial simples é de 1 945 em relação ao período para o qual a previsão é calculada. (Isso não é suposto ser óbvio, mas pode ser facilmente demonstrado pela avaliação de uma série infinita.) Portanto, a previsão média móvel simples tende a ficar para trás de pontos de viragem em cerca de 1 945 períodos. Por exemplo, quando 945 0,5 o atraso é 2 períodos quando 945 0,2 o atraso é de 5 períodos quando 945 0,1 o atraso é de 10 períodos, e assim por diante. Para uma determinada idade média (isto é, a quantidade de atraso), a previsão de suavização exponencial simples (SES) é um pouco superior à previsão de média móvel simples (SMA) porque coloca relativamente mais peso na observação mais recente - i. e. É ligeiramente mais quotresponsivequot às mudanças que ocorrem no passado recente. Por exemplo, um modelo SMA com 9 termos e um modelo SES com 945 0,2 têm uma idade média de 5 para os dados nas suas previsões, mas o modelo SES coloca mais peso nos últimos 3 valores do que o modelo SMA e no modelo SMA. Uma outra vantagem importante do modelo SES sobre o modelo SMA é que o modelo SES usa um parâmetro de suavização que é continuamente variável, de modo que pode ser otimizado com facilidade Usando um algoritmo quotsolverquot para minimizar o erro quadrático médio. O valor óptimo de 945 no modelo SES para esta série revela-se 0.2961, como mostrado aqui: A idade média dos dados nesta previsão é 10.2961 3.4 períodos, que é semelhante ao de uma média móvel simples de 6-termo. As previsões a longo prazo do modelo SES são uma linha reta horizontal. Como no modelo SMA e no modelo randômico sem crescimento. No entanto, note que os intervalos de confiança calculados por Statgraphics agora divergem de uma forma razoável, e que eles são substancialmente mais estreitos do que os intervalos de confiança para o modelo de caminhada aleatória. O modelo SES assume que a série é um tanto quotmore previsível do que o modelo de caminhada aleatória. Um modelo SES é realmente um caso especial de um modelo ARIMA. Assim a teoria estatística dos modelos ARIMA fornece uma base sólida para o cálculo de intervalos de confiança para o modelo SES. Em particular, um modelo SES é um modelo ARIMA com uma diferença não sazonal, um termo MA (1) e nenhum termo constante. Também conhecido como um modelo quotARIMA (0,1,1) sem constantequot. O coeficiente MA (1) no modelo ARIMA corresponde à quantidade 1-945 no modelo SES. Por exemplo, se você ajustar um modelo ARIMA (0,1,1) sem constante para a série aqui analisada, o coeficiente MA estimado (1) resulta ser 0,7029, que é quase exatamente um menos 0,2961. É possível adicionar a hipótese de uma tendência linear constante não-zero para um modelo SES. Para fazer isso, basta especificar um modelo ARIMA com uma diferença não sazonal e um termo MA (1) com uma constante, ou seja, um modelo ARIMA (0,1,1) com constante. As previsões a longo prazo terão então uma tendência que é igual à tendência média observada durante todo o período de estimação. Você não pode fazer isso em conjunto com o ajuste sazonal, porque as opções de ajuste sazonal são desativadas quando o tipo de modelo é definido como ARIMA. No entanto, você pode adicionar uma tendência exponencial de longo prazo constante a um modelo de suavização exponencial simples (com ou sem ajuste sazonal) usando a opção de ajuste de inflação no procedimento de Previsão. A taxa adequada de inflação (crescimento percentual) por período pode ser estimada como o coeficiente de declive num modelo de tendência linear ajustado aos dados em conjunto com uma transformação de logaritmo natural, ou pode basear-se em outra informação independente sobre as perspectivas de crescimento a longo prazo . (Voltar ao início da página.) Browns Linear (ie duplo) Suavização exponencial Os modelos SMA e SES assumem que não há tendência de qualquer tipo nos dados (o que normalmente é OK ou pelo menos não muito ruim para 1- Antecipadamente quando os dados são relativamente ruidosos), e podem ser modificados para incorporar uma tendência linear constante como mostrado acima. O que acontece com as tendências de curto prazo Se uma série exibir uma taxa de crescimento variável ou um padrão cíclico que se destaque claramente contra o ruído, e se houver uma necessidade de prever mais de um período à frente, a estimativa de uma tendência local também pode ser um problema. O modelo de suavização exponencial simples pode ser generalizado para obter um modelo linear de suavização exponencial (LES) que calcula as estimativas locais de nível e tendência. O modelo de tendência de variação de tempo mais simples é o modelo de alisamento exponencial linear de Browns, que usa duas séries suavizadas diferentes que são centradas em diferentes pontos do tempo. A fórmula de previsão é baseada em uma extrapolação de uma linha através dos dois centros. (Uma versão mais sofisticada deste modelo, Holt8217s, é discutida abaixo.) A forma algébrica do modelo de suavização exponencial linear de Brown8217s, como a do modelo de suavização exponencial simples, pode ser expressa em um número de formas diferentes mas equivalentes. A forma quotstandard deste modelo é usualmente expressa da seguinte maneira: Seja S a série de suavização simples obtida aplicando-se a suavização exponencial simples à série Y. Ou seja, o valor de S no período t é dado por: (Lembre-se que, Exponencial, esta seria a previsão para Y no período t1.) Então deixe Squot denotar a série duplamente-alisada obtida aplicando a suavização exponencial simples (usando o mesmo 945) à série S: Finalmente, a previsão para Y tk. Para qualquer kgt1, é dada por: Isto resulta em e 1 0 (isto é, enganar um pouco, e deixar a primeira previsão igual à primeira observação real) e e 2 Y 2 8211 Y 1. Após o que as previsões são geradas usando a equação acima. Isto produz os mesmos valores ajustados que a fórmula baseada em S e S se estes últimos foram iniciados utilizando S 1 S 1 Y 1. Esta versão do modelo é usada na próxima página que ilustra uma combinação de suavização exponencial com ajuste sazonal. Holt8217s Linear Exponential Smoothing Brown8217s O modelo LES calcula as estimativas locais de nível e tendência alisando os dados recentes, mas o fato de que ele faz isso com um único parâmetro de suavização coloca uma restrição nos padrões de dados que é capaz de ajustar: o nível ea tendência Não podem variar em taxas independentes. Holt8217s modelo LES aborda esta questão, incluindo duas constantes de alisamento, um para o nível e um para a tendência. Em qualquer momento t, como no modelo Brown8217s, existe uma estimativa L t do nível local e uma estimativa T t da tendência local. Aqui eles são calculados recursivamente a partir do valor de Y observado no tempo t e as estimativas anteriores do nível e tendência por duas equações que aplicam alisamento exponencial para eles separadamente. Se o nível estimado ea tendência no tempo t-1 são L t82091 e T t-1. Respectivamente, então a previsão para Y tshy que teria sido feita no tempo t-1 é igual a L t-1 T t-1. Quando o valor real é observado, a estimativa atualizada do nível é calculada recursivamente pela interpolação entre Y tshy e sua previsão, L t-1 T t-1, usando pesos de 945 e 1-945. A mudança no nível estimado, Nomeadamente L t 8209 L t82091. Pode ser interpretado como uma medida ruidosa da tendência no tempo t. A estimativa actualizada da tendência é então calculada recursivamente pela interpolação entre L t 8209 L t82091 e a estimativa anterior da tendência, T t-1. Usando pesos de 946 e 1-946: A interpretação da constante de suavização de tendência 946 é análoga à da constante de suavização de nível 945. Modelos com valores pequenos de 946 assumem que a tendência muda apenas muito lentamente ao longo do tempo, enquanto modelos com Maior 946 supor que está mudando mais rapidamente. Um modelo com um 946 grande acredita que o futuro distante é muito incerto, porque os erros na tendência-estimativa tornam-se completamente importantes ao prever mais de um período adiante. As constantes de suavização 945 e 946 podem ser estimadas da maneira usual minimizando o erro quadrático médio das previsões de 1 passo à frente. Quando isso é feito em Statgraphics, as estimativas se tornam 945 0,3048 e 946 0,008. O valor muito pequeno de 946 significa que o modelo assume muito pouca mudança na tendência de um período para o outro, então basicamente este modelo está tentando estimar uma tendência de longo prazo. Por analogia com a noção de idade média dos dados que é utilizada na estimativa do nível local da série, a idade média dos dados que são utilizados na estimativa da tendência local é proporcional a 1 946, embora não exatamente igual a . Neste caso, isto é 10.006 125. Isto não é um número muito preciso, na medida em que a precisão da estimativa de 946 é realmente de 3 casas decimais, mas é da mesma ordem geral de magnitude que o tamanho da amostra de 100, portanto Este modelo está calculando a média sobre bastante muita história em estimar a tendência. O gráfico de previsão abaixo mostra que o modelo LES estima uma tendência local ligeiramente maior no final da série do que a tendência constante estimada no modelo SEStrend. Além disso, o valor estimado de 945 é quase idêntico ao obtido pela montagem do modelo SES com ou sem tendência, de modo que este é quase o mesmo modelo. Agora, eles parecem previsões razoáveis para um modelo que é suposto ser estimar uma tendência local Se você 8220eyeball8221 esse enredo, parece que a tendência local virou para baixo no final da série O que aconteceu Os parâmetros deste modelo Foram calculados minimizando o erro quadrático das previsões de um passo à frente, e não as previsões a mais longo prazo, caso em que a tendência não faz muita diferença. Se tudo o que você está olhando são 1-passo-frente erros, você não está vendo a imagem maior de tendências sobre (digamos) 10 ou 20 períodos. A fim de obter este modelo mais em sintonia com a nossa extrapolação do globo ocular dos dados, podemos ajustar manualmente a tendência de alisamento constante para que ele usa uma linha de base mais curto para a estimativa de tendência. Por exemplo, se escolhemos definir 946 0,1, então a idade média dos dados usados na estimativa da tendência local é de 10 períodos, o que significa que estamos fazendo a média da tendência ao longo dos últimos 20 períodos. Here8217s o que o lote de previsão parece se definimos 946 0,1, mantendo 945 0,3. Isso parece intuitivamente razoável para esta série, embora seja provavelmente perigoso para extrapolar esta tendência mais de 10 períodos no futuro. E sobre as estatísticas de erro Aqui está uma comparação de modelos para os dois modelos mostrados acima, assim como três modelos SES. O valor ótimo de 945 para o modelo SES é de aproximadamente 0,3, mas resultados semelhantes (com ligeiramente mais ou menos responsividade, respectivamente) são obtidos com 0,5 e 0,2. (A) Holts linear exp. Alisamento com alfa 0,3048 e beta 0,008 (B) Holts linear exp. Alisamento com alfa 0,3 e beta 0,1 (C) Suavização exponencial simples com alfa 0,5 (D) Suavização exponencial simples com alfa 0,3 (E) Suavização exponencial simples com alfa 0,2 Suas estatísticas são quase idênticas, portanto, realmente não podemos fazer a escolha com base De erros de previsão de 1 passo à frente dentro da amostra de dados. Temos de recorrer a outras considerações. Se acreditarmos firmemente que faz sentido basear a estimativa de tendência atual sobre o que aconteceu nos últimos 20 períodos, podemos fazer um caso para o modelo LES com 945 0,3 e 946 0,1. Se queremos ser agnósticos quanto à existência de uma tendência local, então um dos modelos do SES pode ser mais fácil de explicar e também dar mais previsões de médio-caminho para os próximos 5 ou 10 períodos. Evidências empíricas sugerem que, se os dados já tiverem sido ajustados (se necessário) para a inflação, então pode ser imprudente extrapolar os resultados lineares de curto prazo Muito para o futuro. As tendências evidentes hoje podem afrouxar no futuro devido às causas variadas tais como a obsolescência do produto, a competição aumentada, e os abrandamentos cíclicos ou as ascensões em uma indústria. Por esta razão, a suavização exponencial simples geralmente desempenha melhor fora da amostra do que poderia ser esperado, apesar de sua extrapolação de tendência horizontal quotnaivequot. Modificações de tendência amortecida do modelo de suavização exponencial linear também são freqüentemente usadas na prática para introduzir uma nota de conservadorismo em suas projeções de tendência. O modelo LES com tendência a amortecimento pode ser implementado como um caso especial de um modelo ARIMA, em particular, um modelo ARIMA (1,1,2). É possível calcular intervalos de confiança em torno de previsões de longo prazo produzidas por modelos exponenciais de suavização, considerando-os como casos especiais de modelos ARIMA. A largura dos intervalos de confiança depende de (i) o erro RMS do modelo, (ii) o tipo de suavização (simples ou linear) (iii) o valor (S) da (s) constante (s) de suavização e (iv) o número de períodos à frente que você está prevendo. Em geral, os intervalos se espalham mais rapidamente à medida que o 945 fica maior no modelo SES e eles se espalham muito mais rápido quando se usa linear ao invés de alisamento simples. Este tópico é discutido mais adiante na seção de modelos ARIMA das notas. (Voltar ao topo da página.)
No comments:
Post a Comment