Previsão da série temporal é uma das técnicas mais procuradas da ciência dos dados, seja na negociação de ações, previsão de vendas ou previsão do tempo. É claramente uma habilidade muito útil de se ter e vou equipá-lo com isso mesmo no final deste artigo.
Neste tutorial, vamos construir um modelo ARIMA (não se preocupe se você ainda não sabe exatamente como isso funciona) para prever os valores futuros de temperatura de uma determinada cidade usando python. O link do GitHub para o código e conjunto de dados pode ser encontrado no final deste blog. Eu também anexei meu vídeo do YouTube no final, caso você esteja interessado em uma explicação em vídeo. Então sem perder tempo vamos começar.
O primeiro passo em qualquer série temporal é ler seus dados e ver como eles se parecem. O seguinte trecho de código demonstra como fazer isso.
O código é bem simples. Nós lemos os dados usando pd.read_csv e escrevendo parse_date=True, assegura que pandas entende que está lidando com valores de data e não com valores de string.
Próximo, deixamos cair quaisquer valores faltantes e imprimimos a forma dos dados. df.head() imprime as 5 primeiras linhas do conjunto de dados. Aqui está a saída que você deve ver para isto:
O próximo é plotar os seus dados. Isto dá-lhe uma ideia se os dados são estacionários ou não. Para aqueles que não sabem o que significa estacionaridade, deixe-me dar-lhe uma ideia geral. Embora eu tenha feito vários vídeos sobre este tópico, tudo se resume a isto:
Todos os dados da série temporal que têm de ser modelados precisam de ser estacionários. Estacionário significa que as suas propriedades estatísticas são mais ou menos constantes com o tempo. Faz sentido, certo? De que outra forma é suposto fazer previsões se as propriedades estatísticas estão a variar com o tempo? Estas são as seguintes propriedades que qualquer modelo de estacionaridade terá:
Média Constante
Variação Constante(Pode haver variações, mas as variações não devem ser irregulares)
Sem sazonalidade(Sem repetição de padrões no conjunto de dados)
Então o primeiro passo é verificar a estacionaridade. Se o seu conjunto de dados não estiver estacionário, você terá que convertê-lo para uma série estacionária. Agora antes de começar a se preocupar com tudo isso, relaxe! Nós temos um teste fácil e fixo para verificar a estacionaridade chamado ADF(Augmented Dickey Fuller Test). Mas antes de mostrar isso, vamos plotar os dados primeiro.
Desde que eu só estou interessado em prever a temperatura média, essa é a única coluna que eu estarei plotando.
Deixe uma resposta