Web sitemizde size en iyi deneyimi sunmak için çerezleri kullanıyoruz. Hangi çerezleri kullandığımız hakkında daha fazla şey öğrenmek için Gizlilik
Onayla
Türker UZUNTürker UZUN
  • VERİ ANALİZİ
    • Veri Analiz Aşamaları
    • Pandas
    • CRM Analitiği
    • Makine Öğrenmesi
    • Ölçümleme Problemleri
    • Özellik Mühendisliği
    • Tavsiye Sistemleri
    • BI Araçları
  • LLM – AI
  • METODOLOJİ
  • PROGRAMLAMA
  • BLOG
  • DİZİ & FİLM
  • İLETİŞİM
Reading: Temel İstatistik Terimleri ve Açıklamaları
Paylaş
Aa
Türker UZUNTürker UZUN
Aa
  • VERİ ANALİZİ
  • LLM – AI
  • METODOLOJİ
  • PROGRAMLAMA
  • BLOG
  • DİZİ & FİLM
  • İLETİŞİM
Ara...
  • VERİ ANALİZİ
    • Veri Analiz Aşamaları
    • Pandas
    • CRM Analitiği
    • Makine Öğrenmesi
    • Ölçümleme Problemleri
    • Özellik Mühendisliği
    • Tavsiye Sistemleri
    • BI Araçları
  • LLM – AI
  • METODOLOJİ
  • PROGRAMLAMA
  • BLOG
  • DİZİ & FİLM
  • İLETİŞİM
Follow US
Türker UZUN > Blog > Veri Analizi > Python Veri Analizi > Temel İstatistik Terimleri ve Açıklamaları
Python Veri Analizi

Temel İstatistik Terimleri ve Açıklamaları

9 Min Read
Paylaş
9 Min Read
Python Programlama Dersleri, Python Blog, Python Programlama Örnekleri

İstatistik, veri analizi ve yorumlamada kritik bir rol oynayan bir bilim dalıdır. Bu ders notu, temel istatistik terimlerini anlamanıza yardımcı olacak açıklamalara odaklanacaktır.

Contents
VeriHipotezT-Testi ve F-TestiT-Testi ÖrneğiF-Testi Örneği:P DeğeriStandart Sapma ve VaryansZ-Score ve Normalizasyon/StandardizasyonANOVA Analizi ve KorelasyonRegresyon AnaliziDoğrusal Regresyon AnaliziDoğrusal Olmayan Regresyon AnaliziKurtosisSkewness (Çarpıklık)Güven Aralığı

Veri

Veri, gözlemlenen veya ölçülen değerlerdir ve genellikle sayılar, metinler veya kategorik değerler olarak temsil edilir. İstatistik, bu verileri anlamak, analiz etmek ve çeşitli çıkarımlarda bulunmak için kullanılır.

Hipotez

İstatistiksel analizler genellikle bir hipotezi test etmeyi içerir. İki ana hipotez türü şunlardır:

  • Null Hypothesis (H0): Mevcut bir durumu ifade eder.
  • Alternative Hypothesis (H1): Belirli bir değişikliği veya ilişkiyi öne sürer.

T-Testi ve F-Testi

T Testi, iki grup arasındaki ortalama farklılığını değerlendirmek için kullanılır. Örneğin, bir ilaç tedavisinin etkisini test etmek için kullanılabilir. F Testi, gruplar arasındaki varyansın farklı olup olmadığını değerlendirmek için kullanılır ve genellikle ANOVA analizi içinde yer alır.

T-Testi Örneği

import scipy.stats as stats

# İki grup veri örneği
group1 = [25, 30, 35, 40, 45]
group2 = [20, 28, 32, 38, 42]

# İki bağımsız örneklem t-testi
t_statistic, p_value = stats.ttest_ind(group1, group2)

# Hesaplanan t istatistiği ve p değeri
print("t istatistiği:", t_statistic)
print("p değeri:", p_value)

# p değeri 0.05'ten küçükse, null hipotezi reddedilir.
if p_value < 0.05:
    print("İki grup arasında istatistiksel olarak anlamlı bir fark vardır.")
else:
    print("İki grup arasında istatistiksel olarak anlamlı bir fark yoktur.")

F-Testi Örneği:

import scipy.stats as stats

# İki farklı grup verisi
group1 = [4, 8, 12, 16, 20]
group2 = [5, 10, 15, 20, 25]

# İki varyansın karşılaştırılması için F-testi
f_statistic, p_value = stats.f_oneway(group1, group2)

# Hesaplanan F istatistiği ve p değeri
print("F istatistiği:", f_statistic)
print("p değeri:", p_value)

# p değeri 0.05'ten küçükse, varyanslar arasında istatistiksel olarak anlamlı bir fark vardır.
if p_value < 0.05:
    print("İki grup arasında varyans açısından istatistiksel olarak anlamlı bir fark vardır.")
else:
    print("İki grup arasında varyans açısından istatistiksel olarak anlamlı bir fark yoktur.")

P Değeri

P Değeri (P-value), istatistiksel bir test sonucunun gözlemlenen verilerin rastgele oluşumu ile uyumlu olup olmadığını değerlendiren bir ölçüdür. Düşük bir p değeri, null hypothesis’in reddedilmesine ve sonuçların istatistiksel olarak anlamlı olduğuna işaret eder.

import numpy as np
import scipy.stats as stats

# Örnek veri
data = np.random.normal(loc=0, scale=1, size=100)

# Tek örneklem t-testi
t_statistic, p_value = stats.ttest_1samp(data, 0)

# Hesaplanan t istatistiği ve p değeri
print("t istatistiği:", t_statistic)
print("p değeri:", p_value)

# p değeri 0.05'ten küçükse, null hipotezi reddedilir.
if p_value < 0.05:
    print("Ortalama, popülasyon ortalamasından istatistiksel olarak farklıdır.")
else:
    print("Ortalama, popülasyon ortalamasından istatistiksel olarak farklı değildir.")

Standart Sapma ve Varyans

Standart Sapma, bir veri setindeki değerlerin ortalama etrafında ne kadar yayıldığını ölçer. Varyans, standart sapmanın karesidir. Bu terimler, veri setinin dağılımını anlamak için önemlidir.

Z-Score ve Normalizasyon/Standardizasyon

Z Skoru, bir veri noktasının ortalamadan kaç standart sapma uzakta olduğunu ifade eder. Normalizasyon, veri setindeki değerleri belirli bir aralığa ölçeklendirir. Standardizasyon, veri setindeki değerleri ortalamadan çıkarıp standart sapmaya böler ve veri setini standart normal dağılıma yaklaştırır.

import numpy as np
from scipy.stats import zscore

# Örnek veri
data = np.array([10, 12, 15, 18, 20, 22, 25, 28, 30])

# Z-skoru hesapla
z_scores = zscore(data)

# Hesaplanan z-skorları yazdır
print("Z-skorları:", z_scores)

ANOVA Analizi ve Korelasyon

ANOVA Analizi, üç veya daha fazla grup arasındaki ortalamaların istatistiksel olarak anlamlı bir fark olup olmadığını değerlendirmek için kullanılır. Korelasyon, iki değişken arasındaki ilişkiyi ölçer.

Regresyon Analizi

Regresyon Analizi, bir veya daha fazla bağımsız değişkenin, bir bağımlı değişken üzerindeki etkisini modelleme ve anlama amacı taşıyan bir istatistiksel analiz yöntemidir. Bu analiz, değişkenler arasındaki ilişkiyi anlamak, gelecekteki değerleri tahmin etmek veya bağımsız değişkenlerin bağımlı değişken üzerindeki etkilerini keşfetmek için kullanılır.

Regresyon analizi genellikle bir doğru (doğrusal regresyon) veya eğri (doğrusal olmayan regresyon) şeklinde ifade edilen bir model kullanır. Temelde, bu modeller, bağımsız değişkenlerin değerlerine göre bağımlı değişkenin ortalamasını tahmin etmeye çalışır.

Doğrusal Regresyon Analizi

Doğrusal regresyon analizi, bir bağımlı değişkenin bağımsız değişken(ler) tarafından lineer bir şekilde tahmin edilmesini amaçlar. Örneğin, bir kişinin kilosunu cinsiyet, yaş ve beslenme alışkanlıkları gibi faktörlere dayanarak tahmin etmek için doğrusal regresyon kullanılabilir. Temelde, bir doğru formülü şu şekildedir:

Y=β0​+β1​X1​+β2​X2​+…+βn​Xn​+ϵ

Burada:

  • Y, bağımlı değişkeni temsil eder.
  • X1​,X2​,…,Xn​, bağımsız değişkenleri temsil eder.
  • β0​,β1​,β2​,…,βn​, regresyon katsayılarını temsil eder.
  • ϵ, hata terimidir, yani modelin bağımlı değişkeni tam olarak açıklamamasından kaynaklanan hata.

Doğrusal Olmayan Regresyon Analizi

Doğrusal olmayan regresyon analizi, bağımlı değişkenin bağımsız değişkenlere karşı lineer olmayan bir ilişki içinde olduğu durumlar için kullanılır. Bu yöntem, daha karmaşık ilişkileri modellemek için esnek bir çözüm sunar.

Regresyon analizi, özellikle veri madenciliği, finansal analiz, ekonometri ve pazar araştırmaları gibi birçok alanda yaygın olarak kullanılır. Bu analiz türü, veri setlerindeki ilişkileri anlamak ve gelecekteki olayları tahmin etmek için güçlü bir araç sağlar.

Kurtosis

Kurtosis, bir olasılık dağılımının, özellikle de normal dağılıma, ne kadar “taşkın” (veya “çukur”) olduğunu ölçen bir terimdir. Bu, bir veri setinin kuyruklarının ve zirvelerinin normal dağılıma kıyasla daha geniş veya daha dar olup olmadığını belirlemede kullanılır.

  1. Mesokurtik: Normal dağılıma benzeyen bir kurtosis değeridir (genellikle 3 olarak alınır). Bu durumda, veri setinin kuyrukları normal dağılıma benzer bir şekilde yayılmıştır.
  2. Leptokurtik: Kurtosis değeri 3’ten büyükse, bu duruma leptokurtik denir. Bu, veri setinin kuyruklarının normalden daha dar ve zirvelerinin daha yüksek olduğu anlamına gelir. Veri seti, daha yoğun kümelenmiş ve uç noktalarda daha fazla odaklanmış olabilir.
  3. Platykurtik: Kurtosis değeri 3’ten küçükse, bu duruma platykurtik denir. Bu durumda, veri setinin kuyrukları daha geniş ve zirveleri daha düşüktür. Veri seti, daha geniş bir dağılıma sahip olabilir ve uç noktalarda daha az odaklanmış olabilir.

Kurtosis değeri, veri setinin dağılımının “ağırlığı” veya “yoğunluğu” hakkında bilgi verir ve bu, özellikle finansal veri analizi ve risk değerlendirmesi gibi alanlarda önemlidir. Ancak, kurtosis değeri tek başına bir dağılımın doğruluğu hakkında yeterli bilgi vermez; başka istatistiksel ölçümlerle birlikte değerlendirilmelidir.

Skewness (Çarpıklık)

Skewness (Çarpıklık) bir olasılık dağılımının eğrisinin simetrik olup olmadığını ölçen bir terimdir. Bir dağılımın çarpık olması, eğrisinin sağa veya sola doğru çekik olduğunu ifade eder. Skewness değeri, genellikle üçüncü dereceden moment olarak ifade edilir ve bu, veri setindeki dağılımın çarpıklığını belirlemek için kullanılır. Bu terim, veri setinin dağılımının daha ayrıntılı bir analizi için önemlidir ve özellikle regresyon analizinde veya finansal veri analizinde kullanılır.

  • Pozitif Skewness: Sağa doğru çarpık bir dağılımı temsil eder. Yani, veri setindeki ağırlık noktaları sağ tarafta yoğunlaşır. Ortalama, mod ve medyan sırasıyla sıralandığında, ortalamadan mod ve medyan daha küçük olacaktır.
  • Negatif Skewness: Sola doğru çarpık bir dağılımı temsil eder. Yani, veri setindeki ağırlık noktaları sola doğru yoğunlaşır. Ortalama, mod ve medyan sırasıyla sıralandığında, ortalamadan mod ve medyan daha büyük olacaktır.

Güven Aralığı

Güven aralığı, istatistiksel veri analizinde kullanılan önemli bir kavramdır. Bu kavram, bir örneklemin bir popülasyon parametresini belirli bir güven düzeyinde içermesi olasılığını ifade eder. Güven aralığı, veri bilimciler ve istatistikçiler tarafından örneklem verilerinden popülasyon hakkında çıkarımlar yapmak için kullanılan güçlü bir araçtır.

Bir güven aralığı genellikle bir nokta tahmini ve belirli bir güven düzeyiyle birlikte gelir. Nokta tahmini, örnekleme dayalı olarak elde edilen bir değeri temsil eder, ancak bu tahminin kesin olduğunu söylemek genellikle mümkün değildir. Bu nedenle, güven aralığı, bu nokta tahminin belirli bir aralık içinde bulunma olasılığını gösterir.

Bir güven aralığı genellikle şu formatta ifade edilir: (Alt Sınır, Üst Sınır). Örneğin, bir 95% güven aralığı, aynı popülasyondan alınan farklı örneklemlerden elde edilen aralıkların %95’inin, gerçek popülasyon parametresini içermesi beklenen bir aralığı ifade eder.

Güven aralıkları, özellikle örneklem büyüklüğü, standart sapma ve güven düzeyi gibi faktörlere bağlı olarak değişebilir. Veri analizinde güven aralıkları kullanılarak, bir parametrenin tahmin edilen değeri hakkında belirsizliği anlamak ve çıkarımların güvenilirliğini değerlendirmek mümkündür.

Editor Şubat 13, 2024
Paylaş
Whatsapp Whatsapp LinkedIn Email Copy Link

Son Yazılar

  • LangChain Tool Tanıtımı (Kategorik)
  • Flowise Tool Node Tanıtımı
  • Flowise – Hazır Chatflow Akışları
  • Flowise – Hangi Node Ne Zaman Kullanılır?
  • Flowise Eğitimi – Node’ları Tanıyalım

Takip Et

Sponsor Linkler

İlginizi Çekebilir

Doğal Dil İşleme (NLP)LLM - AI AJANLARPython Veri AnaliziVeri Analizi

Türkiye’deki Mobil Bankacılık Deneyiminde Neler Gizli: “Part1 – IOS”

Makine ÖğrenmesiPython Veri AnaliziVeri Analizi

Sorun: CatBoost ve NumPy 2.x Anlaşamıyorlar

BLOGPython Veri AnaliziVeri Analizi

Yemek Yapmayı Kolaylaştıran Gizli Güç: Yapay Zeka ile Tarif Önerisi ve Zorluk Tahmini

Python Blog, Python Soruları, Python Dersleri, Python Veri Analizi, Python İlginç Sorular
Python Veri Analizi

Veri Analizi Aşamaları 09 – Özellik Mühendisliği

Türker UZUNTürker UZUN
Takip Et

Veri Analizi, ETL Süreçleri, Makine Öğrenimi, Doğal Dil İşleme Projeleri, Python Dersleri, Python Blog, Teknoloji Yazarı, AI Agents

Removed from reading list

Undo