Centrado em movimento média em r


A largura da janela em movimento deve ser um número inteiro entre 1 e n uma opção para escolher algoritmos diferentes C - uma versão está escrita em C. Ela pode lidar com números não finitos como NaNs e Infs (como a média (x, na. rm TRUE)). . Funciona o mais rápido para endrulemean. Rápido - segundo, ainda mais rápido, versão C. Este algoritmo não funciona com números não finitos. Ele também funciona o mais rápido para endrulagem diferente da média. R - código muito mais lento escrito em R. Útil para depuração e como documentação. Exato - o mesmo que C., exceto que todas as adições são realizadas usando o algoritmo que rastreia e corrige a sequência de caracteres de arredondamento de adição, indicando como os valores no início e no final dos dados devem ser tratados. Apenas os primeiros e últimos valores de k2 em ambas as extremidades são afetados, onde k2 é a largura de banda k2 k 2. significa - aplica a função subjacente a seções menores e menores da matriz. Equivalente a: para (i em 1: k2) outi significa (x1: (ik2)). Esta opção é implementada em C se o algC. Caso contrário, é feito em R. trim - trim the ends O comprimento da matriz de saída é igual ao comprimento (x) -2k2 (out out (k21) :( n-k2)). Esta opção imita a saída de aplicar (incorporar (x, k), 1, significar) e outras funções relacionadas. Manter - preencher as extremidades com números de x vetor (out1: k2 x1: k2) constante - preencher as extremidades com o primeiro e último valor calculado na matriz de saída (out1: k2 outk21) NA - preencher as extremidades com NAs (out1: k2 NA ) Func - o mesmo que a média, mas implantado em R. Esta opção pode ser muito lenta e está incluída principalmente para testes semelhantes a endrule na função runmed que possui as seguintes opções: ldquo c (mediana, keep, constant) rdquo. specifica se o resultado Deve ser centrado (padrão), alinhado à esquerda ou alinhado à direita. Se endrule significa que o ajuste alinhado à esquerda ou à direita retornará a implementação mais lenta equivalente a endrule func. Além dos valores finais, o resultado de y runmean (x, k) é o mesmo que ldquo para (j (1k2) :( n-k2)) yjmean (x (j-k2) :( jk2)) rdquo. O principal incentivo para escrever esse conjunto de funções foi a lentidão relativa da maioria das funções de janela em movimento disponíveis em R e seus pacotes. Com a exceção de runmed. Uma função de medição de janela de execução, todas as funções listadas na seção veja também são mais lentas do que as ldquo muito ineficientes aplicam (incorporar (x, k), 1, FUN) abordagem rdquo. A velocidade relativa da função runmean é O (n). Function EndRule aplica um dos cinco métodos (veja o argumento endrule) para processar os pontos finais da matriz de entrada x. Na versão atual do código, a opção default endrulemean é calculada dentro do código C. Isso é feito para melhorar a velocidade no caso de grandes janelas em movimento. No caso da função runmean (.gegexact), um algoritmo especial é usado (ver seção de referências) para garantir que os erros de arredondamento não se acumulam. Como resultado, o modo de execução é mais preciso do que as funções filtro (x, rep (1k, k)) e runmean (. AlgC). Retorna um vetor ou matriz numérica do mesmo tamanho que x. Somente em caso de endruletrim, os vetores de saída serão mais curtos e as matrizes de saída terão menos linhas. Função runmean (.algexact) é baseado em código por Vadim Ogranovich, que é baseado no código Python (veja a última referência), apontada por Gabor Grothendieck. Referências Sobre a correção de erro de arredondamento usada no runmean. Shewchuk, Jonathan Adaptive Precision Floating-Point Arithmetic and Fast Robust Geometric Predicates. Www-2.cs. cmu. eduafscsprojectquakepublicpapersrobust-arithmetic. ps Mais informações sobre a correção de erros de arredondamento podem ser encontradas em: aspn. activestateASPNCookbookPythonRecipe393090 Links relacionados a: significa-mudança - significa. Kernapply. filtro. decompor. Stl. Rollmean da biblioteca do zoológico, subsums da biblioteca mágica, Outras funções da janela móvel deste pacote: runmin. Runmax. Runquantile. Runmad e rund funções genéricas de janela de execução: aplique (incorporar (x, k), 1, FUN) (mais rápido), executando o pacote de gtools (extremamente lento para esse propósito), os subsums da biblioteca mágica podem executar operações de janela em execução com dados com Quaisquer dimensões. Pacote caTools versão 1.12 Proporções IndexMoving Médias móveis Com conjuntos de dados convencionais, o valor médio é geralmente o primeiro, e um dos mais úteis, estatísticas de resumo a serem calculadas. Quando os dados são na forma de uma série temporal, a série significa uma medida útil, mas não reflete a natureza dinâmica dos dados. Os valores médios calculados em períodos curtos, quer antes do período atual ou centrados no período atual, são geralmente mais úteis. Como esses valores médios variam, ou se movem, à medida que o período atual se move do tempo t 2, t 3. etc., eles são conhecidos como médias móveis (Mas). Uma média móvel simples é (tipicamente) a média não ponderada de k valores anteriores. Uma média móvel ponderada exponencialmente é essencialmente a mesma que uma média móvel simples, mas com contribuições para a média ponderada pela proximidade com a hora atual. Como não há um, mas toda uma série de médias móveis para qualquer série, o conjunto de Mas pode ser plotado em gráficos, analisados ​​como uma série e usados ​​em modelagem e previsão. Uma série de modelos pode ser construída usando médias móveis, e estas são conhecidas como modelos MA. Se esses modelos forem combinados com modelos autorregressivos (AR), os modelos compostos resultantes são conhecidos como modelos ARMA ou ARIMA (o I é para integrado). Médias móveis simples Uma vez que uma série temporal pode ser considerada como um conjunto de valores, t 1,2,3,4, n a média desses valores pode ser calculada. Se assumirmos que n é bastante grande, e selecionamos um inteiro k, que é muito menor do que n. Podemos calcular um conjunto de médias de bloco, ou médias móveis simples (da ordem k): cada medida representa a média dos valores de dados ao longo de um intervalo de observações k. Observe que o primeiro MA possível da ordem k gt0 é aquele para t k. Mais geralmente podemos soltar o subíndice extra nas expressões acima e escrever: Isto indica que a média estimada no tempo t é a média simples do valor observado no tempo t e os passos de tempo precedentes de k-1. Se forem aplicados pesos que diminuam a contribuição das observações que estão mais longe no tempo, a média móvel é dito suavizar exponencialmente. As médias móveis são freqüentemente usadas como forma de previsão, pelo que o valor estimado para uma série no instante t 1, S t1. É tomado como MA durante o período até e inclusive o tempo t. por exemplo. A estimativa de hoje é baseada em uma média de valores previamente registrados até e inclusive ontem (para dados diários). As médias móveis simples podem ser vistas como uma forma de suavização. No exemplo ilustrado abaixo, o conjunto de dados de poluição do ar mostrado na introdução deste tópico foi aumentado por uma linha de média móvel de 7 dias (MA), mostrada aqui em vermelho. Como pode ser visto, a linha MA suaviza os picos e as depressões nos dados e pode ser muito útil na identificação de tendências. A fórmula de cálculo de frente padrão significa que os primeiros pontos de dados de k -1 não possuem valor de MA, mas, posteriormente, os cálculos se estendem ao ponto de dados final da série. PM10 valores médios diários, Greenwich fonte: London Air Quality Network, londonair. org. uk Um dos motivos para o cálculo de médias móveis simples da maneira descrita é que ele permite que os valores sejam computados para todos os intervalos de tempo do tempo tk até o presente, e Como uma nova medida é obtida para o tempo t 1, o MA para o tempo t 1 pode ser adicionado ao conjunto já calculado. Isso fornece um procedimento simples para conjuntos de dados dinâmicos. No entanto, existem algumas questões com essa abordagem. É razoável argumentar que o valor médio nos últimos 3 períodos, por exemplo, deve estar localizado no tempo t -1, e não no tempo t. E para um MA em um número par de períodos talvez ele deve estar localizado no meio do ponto entre dois intervalos de tempo. Uma solução para esta questão é usar cálculos de MA centrados, nos quais o MA no tempo t é a média de um conjunto simétrico de valores em torno de t. Apesar de seus méritos óbvios, essa abordagem não é geralmente usada, pois exige que os dados estejam disponíveis para eventos futuros, o que pode não ser o caso. Nos casos em que a análise é inteiramente de uma série existente, o uso de Mas centrado pode ser preferível. As médias móveis simples podem ser consideradas como uma forma de suavização, eliminando alguns componentes de alta freqüência de uma série de tempo e destacando (mas não removendo) as tendências de maneira similar à noção geral de filtragem digital. De fato, as médias móveis são uma forma de filtro linear. É possível aplicar uma computação média móvel a uma série que já foi suavizada, ou seja, suavizando ou filtrando uma série já suavizada. Por exemplo, com uma média móvel da ordem 2, podemos considerá-la como sendo computada usando pesos, de modo que o MA em x 2 0,5 x 1 0,5 x 2. Do mesmo modo, o MA em x 3 0,5 x 2 0,5 x 3. Se nós Aplicar um segundo nível de suavização ou filtragem, temos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3, ou seja, a filtragem de 2 estágios O processo (ou convolução) produziu uma média móvel simétrica ponderada de forma variável, com pesos. Várias convoluções podem produzir médias móveis bastante ponderadas, algumas das quais foram encontradas de particular uso em campos especializados, como nos cálculos do seguro de vida. As médias móveis podem ser usadas para remover efeitos periódicos se computados com o comprimento da periodicidade como conhecido. Por exemplo, com os dados mensais, as variações sazonais podem muitas vezes ser removidas (se este for o objetivo), aplicar uma média móvel simétrica de 12 meses com todos os meses ponderados igualmente, exceto o primeiro e o último que são ponderados por 12. Isso ocorre porque haverá Ter 13 meses no modelo simétrico (tempo atual, t. - 6 meses). O total é dividido por 12. Procedimentos similares podem ser adotados para qualquer periodicidade bem definida. Médias móveis ponderadas exponencialmente (EWMA) Com a fórmula média móvel simples: todas as observações são igualmente ponderadas. Se chamássemos esses pesos iguais, alfa t. Cada um dos pesos k seria igual a 1 k. Então a soma dos pesos seria de 1, e a fórmula seria: já vimos que as múltiplas aplicações desse processo resultam na variação dos pesos. Com médias móveis exponencialmente ponderadas, a contribuição para o valor médio de observações mais removidas no tempo é deliberada reduzida, enfatizando eventos mais recentes (locais). Essencialmente, um parâmetro de suavização, 0lt alfa lt1, e a fórmula revisada para: Uma versão simétrica desta fórmula seria da forma: se os pesos no modelo simétrico forem selecionados como os termos dos termos da expansão binomial, (1212) 2q. Eles somarão para 1, e como q se tornar grande, irá se aproximar da distribuição Normal. Esta é uma forma de ponderação do kernel, com o Binomial atuando como a função do kernel. A convolução de dois estágios descrita na subseção anterior é precisamente esse arranjo, com q 1, produzindo os pesos. Em suavização exponencial, é necessário usar um conjunto de pesos que somem para 1 e que reduzem de tamanho geométricamente. Os pesos utilizados são geralmente da forma: Para mostrar que esses pesos somam para 1, considere a expansão de 1 como uma série. Podemos escrever e expandir a expressão entre parênteses usando a fórmula binomial (1- x) p. Onde x (1-) e p -1, que dá: Isto fornece uma forma de média móvel ponderada da forma: Este somatório pode ser escrito como uma relação de recorrência: o que simplifica bastante a computação e evita o problema de que o regime de ponderação Deve ser estritamente infinito para que os pesos somem para 1 (para valores pequenos de alfa. Isso geralmente não é o caso). A notação utilizada por diferentes autores varia. Alguns usam a letra S para indicar que a fórmula é essencialmente uma variável suavizada e escreve: enquanto a literatura da teoria do controle geralmente usa Z ao invés de S para valores ponderados exponencialmente ou suavizados (veja, por exemplo, Lucas e Saccucci, 1990, LUC1 , E o site NIST para mais detalhes e exemplos trabalhados). As fórmulas citadas acima derivam do trabalho de Roberts (1959, ROB1), mas Hunter (1986, HUN1) usa uma expressão da forma: que pode ser mais apropriada para uso em alguns procedimentos de controle. Com alfa 1, a estimativa média é simplesmente seu valor medido (ou o valor do item de dados anterior). Com 0,5 a estimativa é a média móvel simples das medições atual e anterior. Nos modelos de previsão, o valor, S t. É freqüentemente usado como estimativa ou valor de previsão para o próximo período de tempo, ou seja, como a estimativa para x no tempo t 1. Assim, temos: Isso mostra que o valor de previsão no tempo t 1 é uma combinação da média móvel ponderada exponencialmente anterior Mais um componente que representa o erro de previsão ponderado, epsilon. No tempo t. Assumindo que uma série de tempo é fornecida e uma previsão é necessária, é necessário um valor para alfa. Isso pode ser estimado a partir dos dados existentes, avaliando a soma dos erros de predição quadrados obtidos com valores variáveis ​​de alfa para cada t 2,3. Definindo a primeira estimativa para ser o primeiro valor de dados observado, x 1. Nas aplicações de controle, o valor de alfa é importante, isto é, é usado na determinação dos limites de controle superior e inferior e afeta o comprimento de execução médio (ARL) esperado Antes que esses limites de controle sejam quebrados (sob o pressuposto de que a série temporal representa um conjunto de variáveis ​​independentes aleatoriamente, distribuídas de forma idêntica com variância comum). Nessas circunstâncias, a variância da estatística de controle: é (Lucas e Saccucci, 1990): Os limites de controle geralmente são definidos como múltiplos fixos desta variância assintótica, e. - 3 vezes o desvio padrão. Se alfa 0.25, por exemplo, e os dados que estão sendo monitorados assumem ter uma distribuição Normal, N (0,1), quando no controle, os limites de controle serão - 1.134 e o processo atingirá um ou outro limite em 500 etapas na média. Lucas e Saccucci (1990 LUC1) derivam os ARLs para uma ampla gama de valores alfa e sob vários pressupostos usando os procedimentos da Cadeia de Markov. Eles tabulam os resultados, incluindo o fornecimento de ARL quando a média do processo de controle foi deslocada por algum múltiplo do desvio padrão. Por exemplo, com uma mudança de 0,5 com alfa 0.25, o ARL tem menos de 50 etapas de tempo. As abordagens descritas acima são conhecidas como suavização exponencial única. Uma vez que os procedimentos são aplicados uma vez na série temporal e, em seguida, os processos de análise ou controle são realizados no conjunto de dados suavizado resultante. Se o conjunto de dados incluir uma tendência e / ou componentes sazonais, o alisamento exponencial de dois ou três estágios pode ser aplicado como meio de remoção (modelagem explícita) desses efeitos (veja mais adiante, a seção sobre Previsão abaixo e o exemplo do NIST). CHA1 Chatfield C (1975) The Analysis of Times Series: Teoria e Prática. Chapman and Hall, London HUN1 Hunter J S (1986) A média móvel ponderada exponencialmente. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de controle de média móvel ponderada exponencialmente: propriedades e aprimoramentos. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Testes de gráficos de controle baseados em médias móveis geométricas. Technometrics, 1, 239-2506.2 Médias móveis ma 40 elecsales, ordem 5 41 Na segunda coluna desta tabela, uma média móvel da ordem 5 é mostrada, fornecendo uma estimativa do ciclo da tendência. O primeiro valor nesta coluna é a média das cinco primeiras observações (1989-1993), o segundo valor na coluna 5-MA é a média dos valores 1990-1994 e assim por diante. Cada valor na coluna 5-MA é a média das observações no período de cinco anos centrado no ano correspondente. Não há valores nos dois primeiros anos ou nos últimos dois anos porque não temos duas observações em ambos os lados. Na fórmula acima, a coluna 5-MA contém os valores de hatwith k2. Para ver o que a estimativa do ciclo de tendência se parece, traçamo-lo juntamente com os dados originais na Figura 6.7. Planilha 40 elesales, quot principal de vendas de eletricidade residencial, ylab quotGWhot. Xlab quotYearquot 41 linhas 40 ma 40 elecsales, 5 41. col quotredquot 41 Observe como a tendência (em vermelho) é mais suave do que os dados originais e captura o movimento principal das séries temporais sem todas as pequenas flutuações. O método de média móvel não permite estimativas de T onde t é próximo das extremidades da série, portanto, a linha vermelha não se estende para as bordas do gráfico de cada lado. Mais tarde, usaremos métodos mais sofisticados de estimativa do ciclo de tendência que permitem estimativas próximas aos pontos finais. A ordem da média móvel determina a suavidade da estimativa do ciclo de tendência. Em geral, uma ordem maior significa uma curva mais suave. O gráfico a seguir mostra o efeito de alterar a ordem da média móvel para os dados residenciais de vendas de eletricidade. As médias móveis simples, como estas, geralmente são de ordem ímpar (por exemplo, 3, 5, 7, etc.). É assim que são simétricas: em uma média móvel da ordem m2k1, há k observações anteriores, k observações posteriores e a observação do meio Que estão em média. Mas se eu estivesse em ponto, não seria mais simétrico. Médias móveis das médias móveis É possível aplicar uma média móvel a uma média móvel. Um dos motivos para isso é fazer uma média móvel de ordem par simétrica. Por exemplo, podemos levar uma média móvel da ordem 4 e, em seguida, aplicar outra média móvel da ordem 2 aos resultados. Na Tabela 6.2, isso foi feito para os primeiros anos dos dados de produção australiana de cerveja trimestral. Beer2 lt - window 40 ausbeer, começar 1992 41 ma4 lt-ma 40 beer2, order 4. center FALSE 41 ma2x4 lt-ma 40 beer2, order 4. center TRUE 41 A notação 2times4-MA na última coluna significa 4-MA Seguido por um 2-MA. Os valores na última coluna são obtidos tomando uma média móvel da ordem 2 dos valores na coluna anterior. Por exemplo, os dois primeiros valores na coluna 4-MA são 451.2 (443410420532) 4 e 448.8 (410420532433) 4. O primeiro valor na coluna 2times4-MA é a média desses dois: 450.0 (451.2448.8) 2. Quando um 2-MA segue uma média móvel de ordem par (como 4), ela é chamada de média móvel centrada da ordem 4. Isso ocorre porque os resultados agora são simétricos. Para ver que este é o caso, podemos escrever o 2times4-MA da seguinte forma: comece o amplificador de amplificação. Bigfrac (y y y y) frac (y y y y) Grande amplificação fractura fractura fratura e fractura fratura. Fim É agora uma média ponderada de observações, mas sim simétrico. Outras combinações de médias móveis também são possíveis. Por exemplo, um 3x3-MA é freqüentemente usado e consiste em uma média móvel da ordem 3 seguida de outra média móvel da ordem 3. Em geral, uma ordem final MA deve ser seguida por uma ordem final MA para torná-la simétrica. Da mesma forma, uma ordem ímpar MA deve ser seguida por uma ordem ímpar MA. Estimando o ciclo de tendência com dados sazonais O uso mais comum de médias móveis centradas é estimar o ciclo de tendência a partir de dados sazonais. Considere o 2times4-MA: hatfrac y fraclly frac14y frac14y frac18y. Quando aplicado a dados trimestrais, cada trimestre do ano recebe peso igual à medida que o primeiro e o último termos se aplicam ao mesmo trimestre em anos consecutivos. Conseqüentemente, a variação sazonal será promediada e os valores resultantes do chapéu t terão pouca ou nenhuma variação sazonal restante. Um efeito semelhante seria obtido usando um 2x 8-MA ou um 2x 12-MA. Em geral, 2 vezes m-MA é equivalente a uma média móvel ponderada da ordem m1 com todas as observações tomando peso 1m, exceto para os primeiros e últimos termos que tomam pesos 1 (2m). Então, se o período sazonal é igual e de ordem m, use um 2-m-MA para estimar o ciclo da tendência. Se o período sazonal for estranho e de ordem m, use um m-MA para estimar o ciclo de tendências. Em particular, um 2x 12-MA pode ser usado para estimar o ciclo de tendência dos dados mensais e um 7-MA pode ser usado para estimar o ciclo de tendência dos dados diários. Outras opções para a ordem do MA geralmente resultarão em estimativas do ciclo de tendência sendo contaminadas pela sazonalidade nos dados. Exemplo 6.2 Fabricação de equipamentos elétricos A Figura 6.9 mostra um 2x12-MA aplicado ao índice de pedidos de equipamentos elétricos. Observe que a linha suave mostra nenhuma sazonalidade é quase o mesmo que o ciclo de tendência mostrado na Figura 6.2, que foi estimado usando um método muito mais sofisticado do que as médias móveis. Qualquer outra escolha para a ordem da média móvel (exceto 24, 36, etc.) teria resultado em uma linha suave que mostra algumas flutuações sazonais. Lote 40 elecequip, ylab quotNúmero de índice de ordens. Quotgrayquot col, quot principal. Produção de equipamentos elétricos (área do euro) 41 linhas 40 ma 40 elecequip, ordem 12 41. col quotredquot 41 Médias móveis ponderadas As combinações de médias móveis resultam em médias móveis ponderadas. Por exemplo, o 2x4-MA discutido acima é equivalente a 5-MA ponderado com pesos dados por frac, frac, frac, frac, frac. Em geral, um m-MA ponderado pode ser escrito como hat t sum k aj y, onde k (m-1) 2 e os pesos são dados por a, pontos, ak. É importante que todos os pesos somem para um e que sejam simétricos para que aj a. O m-MA simples é um caso especial em que todos os pesos são iguais a 1m. Uma grande vantagem das médias móveis ponderadas é que eles produzem uma estimativa mais suave do ciclo da tendência. Em vez das observações que entram e saem do cálculo em peso total, seus pesos aumentam lentamente e depois diminuem lentamente resultando em uma curva mais suave. Alguns conjuntos específicos de pesos são amplamente utilizados. Alguns destes são apresentados na Tabela 6.3.

Comments