Veri Bilimi İçin Ralli Maratonu Etap — 20.ipynb
Python Kütüphanelerine Giriş — Pandas — 1
Bu yazımızda veri bilimi için artık işimize yarayacak kütüphaneler ile devam edeceğiz. En çok kullanılan kütüphanelerden biri olan pandas kütüphanesine değineceğiz. Pandas kütüphanesi, ilk kütüphanemiz olan NumPy kütüphanesi ile bağlantılı bir kütüphanedir.
Bu kütüphaneden bahsederken işimize çok yarayacak bazı bilgiler vereceğiz ve bu bilgiler doğrultusunda kullanım durumlarını göreceğiz.
→ Pandas: Kütüphanemizin temel amacı olarak veri işleme ve analizi için kullanılan açık kaynak kodlu Python programlama dili için yazılmış bir yazılım kütüphanesidir.
Neden Pandas Kullanmalıyız?
Bu sorunun cevabı için aslında aralarında bir farkı söylememiz yeterli. Peki nedir o ?
→ NumPy kütüphanesi sadece sayısal veriler üzerinden çalışırken; pandas kütüphanesi birden fazla veri tipi üzerinden çalışırlar.
→ Sürekli verilerden bahsediyoruz. Peki biz bu verileri nasıl bir format dosyasına dönüştürebiliriz? Elbette, pandas kütüphanesini kullanarak.
Pandas kütüphanesi, herhangi bir veri bilimcinin kullanması gereken diğer ana kitaplıklardan ikisi olan Numpy kütüphanesi ve Matplotlib kütüphanesine dayanır ve göreceğimiz gibi, onlardan doğal olarak türetilen birçok pandas kütüphane metotları vardır.
Matplotlib kelimesini ilk defa gördük. Matplotlib bir kütüphane ismidir. Şu an sadece bu kütüphanenin verileri düzenledikten sonra görselleştirme işlemi yapmamızı sağlayan bir kütüphane olarak bilmemiz yeterli olacaktır.
Pandas kütüphanesini kullanırken, verileri depolamak için kullandığı iki veri yapısından bahsetmemiz gerekiyor.
→ Serileri Yapısı
→Veri Çerçevesi ( Data Frame ) Yapısı
Seriler:
Seriler, indeksli verilerden oluşan tek boyutlu bir veri yapısıdır. Verinin kendisi sayılar, dizeler ya da başka Python objelerinden oluşabilir. Başka bir deyişle NumPy kütüphanesini gördüğümüz için tek boyutlu bir dizi olarak ta düşünebiliriz. Haydi bir seri oluşturalım.
İlk olarak kütüphanemizin import edilmesi gerekiyor.
Şimdi ise serilerin yapısına bakalım ve yapıda hangi parametreler alacağına değinelim.
Yapımızdan sonra şimdi ise parametrelerin ne olduğuna bakalım.
data = Oluşturduğumuz bir veri dizisinin, data parametresi atayıp artık bunun bir seri verisi olduğunu söyleyebiliriz.
index = Varsayılan olarak, indeks mantığına göre sıfırdan başlar ve verinin uzunluğuna kadar gider. İndeks numarası yerine başka veri tiplerini de getirebiliriz.
dtype= Bu parametreyi NumPy kütüphanesinde de görmüştük . Oluşan verinin hangi tip olduğunu söylememiz gerekiyor.
copy = Giriş verilerini kopyalar. Yalnızca Seri veya 1 boyutlu dizilerin girişini etkiler.
İlk seri örneğimizi oluşturalım.
Görsele baktığımızda verimizin ilk halini normal bir dizi olarak görebiliyoruz. Pandas kütüphanesi ile birlikte seriler ile kullandığımızda; indeks numarası ile birlikte tek boyutlu bir dizi olarak karşımıza gelmektedir.
Eğer indeks numarasını varsayılan olarak sıfırdan verinin uzunluğuna olan kısmından değiştirmek istiyorsak, parametrelerde yer alan index parametresini kullanmalıyız. Haydi bir örnekte görelim.
Not = index parametresini kullanırken, kullanacağımız verinin uzunluğu kadar değerler girmeliyiz. Yoksa uzunluklar eşleşmiyor diye bir hata ile karşılaşırız.
Ya da hiç indeks parametresini kullanmadan oluşturacağımız veri tipini dictionary yapıp doğrudan bir seri yapabiliriz. Hemen görelim.
Biz zaten python konularında dictionary veri tipinden bahsederken farkına varmadan bir seri oluşturmuşuz :)
Beşinci hücremizde her ne kadar da dtype değerini bize gösterse de biz yine de dtype parametresinin kullanımı göstermek istedik.
Bu yazımızda seriler kısmına değindik diğer yazımızda pandas kütüphanelerinde kullanacağımız bir diğer yapı olan veri çerçevesine değineceğiz ( Data Frame ).
Diğer yazımızda görüşmek üzere.