Veri Bilimi İçin Ralli Maratonu Etap — 24.ipynb
Python Kütüphanelerine Giriş — Pandas — 5
Pandas kütüphaneleri için son yazımızdayız. Zaman serileri ile devam edelim.
Time series:
Zaman serileri, finans ve ekonomi gibi farklı alanlardaki zaman serileri önemli bir veri yapısıdır. Zaman serileri analizi için yine pandas kütüphanesini kullanacağız. ilk olarak veri yapımızı projemize dahil edelim.
Hemen örnek bir zaman serisi oluşturalım.
Tek bir tarihi zaman göstergesine çevirmek için pd.to_datetime() metodunu kullanacağız. Hemen bir örnek ile gösterelim.
Farklı formatta ki tarihleri DatatimeIndex nesnesine dönüştürebiliriz.
Görselimize baktığımızda çıktı hücremizde freq adında bir parametremiz var bu parametreye gün, ay veya yıl için kullanacağımız değişkenler mevcuttur. pd.to_period() metodu ile kullanılır.
Zaman serileri içi iki tarih birbirinden çıkarılabilir. Hemen örneğimizden devam edelim.
NumPy kütüphanesinden hatırlayacak olursak düzenli bir veri oluşturmak için np.arange() metodunu kullanırdık. Bu metodunu parametrelerinde Başlangıç değeri, bitiş değeri ve artış miktarı yer almaktadır. Zaman serileri için de data_range() metodunu kullanacağız aynı parametreler burada da geçerli olacaktır.
Bitiş değerini istersek biz girebiliriz; istersek de periods parametresini kullanıp kaç gün ileri gideceğini söyleyebiliriz. Frekans değerimizin varsayılan olarak gün olduğunu unutmayalım!
Peki varsayılan olarak gün değerinden nasıl çıkarabiliriz? Elbette freq parametresini kullanarak değişimi gerçekleştirebiliriz.
Gün, ay veya yıl bazlı zaman seri artışı için timedelta kullanabiliriz. Peki data_range ile arasında ne fark var? Hemen örnek üzerinden görelim.
freq parametresi için günü baz aldım.
timedelta_range gün bazlı artış sağlarken; date_range ise bize yıl, ay ve gün bazlı artış sağlıyor.
Zaman serisi oluştururken istediğimiz bir şekilde, belirli aralık ve bu aralığın hangi tarihler olduğunu belirtebiliyoruz.
Zaman serilerinden sonra artık son kısım olan format okuma ve format değiştirme işlemlerine bakalım.
Bize lazım olan sık kullanacağımız format türleri üzerinden işlemler yapacağız. Daha fazlası için buradan ulaşabilirsiniz.
İlk olarak excel çalışma sayfasından da aşina olduğumuz format türü .csv ile işlem yapacağız. İlk olarak bir veri oluşturalım.
Görsele baktığımızda columns parametresinin farklı bir kullanım şeklini görmekteyiz. Normalde her bir sütun değeri için tek tek isimlendirirken; bu kullanımda ise list veri tipine dönüştürerek her bir harf bir sütun değerini belirtecek şekilde ilerliyor.
Şu an da veri tablomuz hazır. Haydi bunu .csv formatına çevirelim.
Şimdi de Jupyter Notebook dizinine gidelim.
Şimdi de dosyamızı bulup çalıştıralım.
→ .csv : Virgülle ayrılmış değerler dosyası, değerleri ayırmak için virgül kullanan sınırlandırılmış bir metin dosyasıdır.
Excel dosyasında bazı değişiklik yapıp bu seferde nasıl projemize dahil edileceğini görelim. Yeni bir sütun oluşturup satırlara değerler girelim.
Sütun hücresine “ TEST ” adında bir veri ekledik; satır hücrelerine ise farklı veriler girdik.
Haydi yeni veri tablomuzu projemize dahil edelim.
Görsele baktığımızda dosyamızı düzenlediğimizde “ Unnamed: 0 “ adında bir sütun oluştuğunu görüyoruz. Bunu kaldırmak için önceden bildiğimiz bir metot kullanacağız.
Bu metot için kullanacağımız bazı parametreler var. Bunları hemen anlamlarını görelim.
→ inplace : Değişiklik yapacağımız bir işlem için; değişikliğin kalıcı mı yoksa geçici mi olduğunu söyler. True veya False ile atama işlemini gerçekleştiririz.
→ axis : vereceğimiz “ 0 “ veya “ 1 “ için satır veya sütun yerini belirtir. “ 0 “ , satırı temsil eder. “ 1 “ , sütunları temsil eder.
drop() metodu ile istenilmeyen sütun ismi veya satır ismini kaldırabiliriz. Burada ise “ Unnamed : 0 “ istenmeyen bir sütun ismi idi. axis = 1 ile sütun olduğunu belirttik, inplace = True ile de veri tablomuzda işlemini gerçekleşeceğini belirttik.
Pandas kütüphanesi ile anlatacaklarımızı bu kadardı. Bir sonraki yazımızda matplotlib kütüphanesine değineceğiz.
Bir sonraki yazımızda görüşmek üzere.