Veri setini tanıma aşaması, veri bilim projelerinin ilk ve en önemli adımlarından biridir. Bu aşamada, veri setinin içeriğini, yapısını ve özelliklerini anlamak için çeşitli teknikler kullanılır. Bu sayede, veri setinin analizine ve modellemeye hazır hale getirilmesi sağlanır.
Aşağıda, Veri Setini Tanıma aşamasında kullanılabilecek bazı fonksiyonlar ve teknikler örneklendirilmiştir:
Genel Bilgi Edinme:
df.info()
: Veri setinin genel bilgilerini (boyut, veri tipleri, bellek kullanımı, vs.) gösterir.df.head()
: Veri setinin ilk birkaç satırını gösterir.df.tail()
: Veri setinin son birkaç satırını gösterir.df.columns
: Veri setindeki sütun isimlerini listeler.df.index
: Veri setinin satır indislerini listeler.df.dtypes
: Veri setindeki her bir sütunun veri tipini gösterir.df.describe()
: Sayısal değişkenler için özet istatistikler (ortalama, standart sapma, minimum, maksimum, vs.) gösterir.
Değişkenlerin Anlamını Anlama:
- Sütun isimlerini ve veri tiplerini inceleyerek değişkenlerin anlamları hakkında fikir edinebilirsiniz.
- Veri setine ilişkin dokümantasyon veya meta veri (metadata) varsa, bu kaynaklardan da faydalanabilirsiniz.
- Veri setinin sahibi veya kaynağıyla iletişime geçerek değişkenler hakkında bilgi alabilirsiniz.
Veri Yapısını İnceleme:
df.shape
: Veri setinin boyutunu (satır ve sütun sayısı) gösterir.df.isnull().sum()
: Her bir sütundaki eksik değerlerin sayısını gösterir.df.duplicated()
: Tekrar eden satırları gösterir.df.unique()
: Her bir sütundaki farklı değerleri gösterir.df.value_counts()
: Kategorik değişkenler için her bir değerin sayısını gösterir.
Örnek:
Python
# Veri setini yükleme
df = pd.read_csv("data.csv")
# Genel bilgi edinme
df.info()
# İlk ve son satırları inceleme
df.head()
df.tail()
# Değişkenlerin anlamlarını anlama
df.columns
df.dtypes
# Değişkenlerin dağılımlarını inceleme
df.hist(figsize=(10, 10))
plt.show()
# Eksik değerleri kontrol etme
df.isnull().sum()
# Tekrar eden satırları kontrol etme
df.duplicated()
# Kategorik değişkenlerin değerlerini inceleme
df['kategorik_sutun'].value_counts()
Veri setini tanıma aşamasında dikkat edilmesi gereken bazı noktalar:
- Veri setinin içeriğini ve yapısını dikkatlice inceleyin.
- Eksik değerler, tutarsızlıklar ve hatalar gibi veri setindeki problemleri tespit edin.
- Veri setindeki değişkenlerin anlamlarını ve birbirleriyle ilişkilerini anlamaya çalışın.
- Veri setinin analizine ve modellemeye uygun hale getirilmesi için gerekli işlemleri gerçekleştirin.
Veri setini tanıma aşaması, veri bilim projelerinin başarısı için kritik önem taşır. Bu aşamada harcanacak zaman ve emek, veri setinin doğru şekilde analiz edilmesine ve anlamlı sonuçlar elde edilmesine katkıda bulunacaktır.