Merhaba. Hem yazılım kısmının çok inaktif durduğunu fark ettiğim için hem de kullanıcıların bilgilenmesi amacıyla yeni bir makale serisi başlatıyorum. Bu makalelerde sizlere istatistik bilimi ile ilgili bilgiler ve fikirler vereceğim. Aynı zamanda bu bilgilerin gerek programlama ortamında gerek Excel gibi yazılımlarda uygulamalarını yapacağım. Makale ekledikçe bu makaleye linklerini ekleyeceğim. Hemen ilk konumuzla başlayalım. Sizin de konuya okumadan önce daha efektif olması açısından istatistiğin tam tanımını internetten araştırmanızı tavsiye ederim. Formülleri elimle yazmak yerine hazır görsellerden yararlanacağım ve kaynak belirteceğim. Elimden geldiğince de akademik müfredata uygun gitmeye çalışacağım.

Normal Dağılım

Normal dağılım istatistikte en çok kullanılan dağılım türüdür. Aslında bir çoğumuzun bildiği çan eğrisi normal dağılımdır. Grafiğinin şeklinden ve adından anlaşılacağı üzere çana benzer bir yapısı vardır. Aşağıda bir normal dağılım grafiği görebilirsiniz.(Kaynak: Wikimedia Commons)

Bu grafik simetriktir. Yani ortasından böldüğümüzde sağda kalan alan ile solda kalan alan birbirine eşittir. Normal dağılımda x ekseninin üstünde kalan alan(Boyalı alanlar) 1'e eşittir.

1712578876930.webp


Daha da ilerlemeden önce size grafikte gördüğünüz bazı sembollerin anlamlarını açıklayayım.

μ işareti

  • Mü olarak teleffuz edebiliriz. Bize ortalamayı ifade eder.

σ işareti

  • Sigma olarak telaffuz ettiğimiz bu sembol ise standart sapmayı ifade eder.

Varyans

  • Varyans bu tabloda bulunmamaktadır. Ama varyansı standart sapmanın karesini alarak bulabiliriz. Aynı şekilde standart sapmayı bulmak için varyansın karekökünü alabiliriz.

Grafikte sağdaki ve soldaki alanların birbirine eşit olduğunu söylemiştik. Yani seçeceğimiz rastgele bir değerin tabloda ortalamadan düşük veya yüksek olma olasılığı aynıdır. Bu grafiğin altında da verilmiştir.





Standart Normal Dağılım


X ~ N(μ,σ²) şeklinde gösterilir. Standartlaştırma işlemi için X(değişken)'ten ortalamayı(μ) çıkartıp standart sapmaya böleriz. Aşağıdaki şekilde görebilirsiniz. (Kaynak: Wikipedia)

1712580034256.webp


Örnek olarak bir soru çözelim.

Örnek: Paket ağırlıklarının ortalama 80 kilogram ve varyansın 100 olduğu bir depoda seçilen bir paketin 83 kilogramdan daha hafif olma olasılığını bulunuz.

Her şeyden önce değerlerinizi yazalım ve sorunun bizden aslında ne istediğini bulalım.

μ = 80

σ²=100 (
Eğer Varyans yerine standart sapma verilmiş olsaydı karesini alıp varyansı bulabilirdik)

σ=10 (
Varyans değerinden standart sapmayı bulduk. Bunun için varyansın karekökünü aldık)

X=83


Soru bizden P(X<83) değerini istiyor.

Bulduğumuz değerleri yerine yazalım.

X ~ N(80,100) olarak dağılımımızı tanımlayalım. Şimdi X'ten Z'ye geçme zamanı. Verilerimizi normal dağılıma geçirmek için
1712580034256.webp
formülünü kullanalım.

1712580983798.webp


şeklinde formülümüzü yazdık ve değer sonucundan Z'yi 0.3 bulduk. Yani

1712582577562.webp


Normalde 0.3 ün olasılık değerini bulmamız için bir takım integral hesabı yapmamız gerekiyor. Ama neyse ki gerek akademide İstatistiğe giriş derslerinde gerek gerçek hayatta çalışırken kullanmamız için Standart Normal Dağılım tablosu veya diğer adıyla Z tablosu karşımıza çıkıyor. Z tablosunu kullanırken mavi renkli satırlar ondalıklı kısmın ilk basamağını sütunlar ise ikinci ondalık basamağı takip etmemiz için. Normal dağılım grafiğinde x ekseninin üst tarafında kalan alanın 1'e eşit olduğunu söylemiştik. Aşağıdaki tabloda tam gözükmese de değerlerin 0.5000'te bittiğini görebiliriz. 0.5000 değerine karşılık gelen Z değeri 3.9'dur. Yani bu tablo bize aynı zamanda sağ ve sol tarafın oranlarının aynı olduğunu da gösterir. Pekiştirmek için aşağıdaki örneklere göz atabilirsiniz

P(0<Z<0.64) = 0.2389
P(0<Z<0.23) = 0.0910
P(0<Z<0.65) = 0.2422
P(0<Z<0.76) = 0.2764

Peki her şey çok güzel gitti. Fakat tabloyu kullanırken ondalık basamak sayımız 2'den fazla olsaydı ne olacaktı? Aslında bunu bulmak için bir sürü yol var fakat ben yazılarımda akademide öğrendiğim şekilde yani değere en yakın değeri, eğer yakınlıklar eşitse sonu çift olan değeri alacağım.

Normal dağılım grafiğinde x ekseninin üst tarafında kalan alanın 1'e eşit olduğunu söylemiştik. Aşağıdaki tabloda tam gözükmese de değerlerin 0.5000'te bittiğini görebiliriz. 0.5000 değerine karşılık gelen Z değeri 3.9'dur. Yani bu tablo bize aynı zamanda sağ ve sol tarafın oranlarının aynı olduğunu da gösterir
(Bu ifadeyi şu an anlamadıysanız merak etmeyin gelecek yazılarda daha karmaşık sorular çözdükçe daha anlaşılır olacak).

1712581298122.webp




Sorumuza devam edecek olursak 0.3 değerini tablodan hesapladığımızda 0.1179 değerini buluruz. Fakat soru bize 83 ten küçük tüm değerlerin olasılığını soruyor. Fakat biz ortalama ile 83 arasındaki değerleri yani grafiğin sadece sağ tarafındaki olasılığı hesapladık. Küçük eşiti sorduğundan dolayı tablonun toplam alanı 1 olduğundan dolayı sol tarafın tamamının alanını 0.500 değerini de eklemeliyiz (Eğer P(0<Z<0.3) ifadesini verseydi 0.5 eklememize gerek yoktu.). Elde edeceğimiz toplam 0.6179 olarak bulunur. Yani depodan seçilen bir paketin 83 kilogramdan daha hafif olma olasılığı %61.79'dur.

Şimdi hadi bu soruyu dijital ortamlarda çözmeye çalışalım.

Öncelikle Python üzerinden bulmaya çalışacak olursak:


Python ile normal dağılım üzerinde olasılık hesabı:

Python:
import scipy.stats as stats

# Soruda bize verilen değerler
ortalama = 80
standart_sapma = 10


X = 83  # Bize verilen değer

# Z değeri
Z = (X - ortalama) / standart_sapma  # Z değerini hesaplanması. Yukarıda formülü v ermiştik
print("Z değeri:", Z)

# Z değeri için olasılığı  bulalım
probability = stats.norm.cdf(Z)
print("P(Z < {:.2f}) = {:.4f}".format(Z, probability))

Şimdi istatistik için en çok kullanılan programlama dillerinden biri olan R üzerinde yapacak olursak:

R ile normal dağılım üzerinde olasılık hesabı:

Kod:
# Verilen değerler
ortalama <- 80  # Ortalama
standart_sapma <- 10  # Standart sapma


X <- 83 # Bize verilen değer

#Z değerini hesaplamak için
Z <- (X - ortalama) / standart_sapma
cat("Z'nin değeri", Z, "\n")

#Z değeri için olasılığı  bulalım
probability <- pnorm(Z)
cat("P(Z<", round(Z, 2), ") = ", round(probability, 4), "\n")


Bu yazımız bu kadar olsun. Sonraki yazımda örnek olarak üniversitedeki not dağılım sistemini hesaplayacağımız bir örnekte yapacağız. Lütfen hatalarımı, merak ettiklerinizi ve her türlü eleştirinizi yazmayı unutmayın.
 
Son düzenleyen: Moderatör:
Dün onlarca istatistik ve ekonometri çözdükten sonra iyi geldi, elinize sağlık.

Pardon iyi gelmedi kusacağım.
Bende baktım aldığım istatistik ve olasılık kitabı duruyor. Bende bir şeyler yazayım hem bana hatırlatma olur hem de millet faydalanır dedim.
 
Bu arada yazıda var mıydı, göremedim ama Z tablosunu sample size'ın "large" olduğu durumlarda kullanılacağını da ekleyelim. n > 30 ise Z, n < 30 ise t tablosu.

Bende baktım aldığım istatistik ve olasılık kitabı duruyor. Bende bir şeyler yazayım hem bana hatırlatma olur hem de millet faydalanır dedim.
 
Bu arada yazıda var mıydı, göremedim ama Z tablosunu sample size'ın "large" olduğu durumlarda kullanılacağını da ekleyelim. n > 30 ise Z, n < 30 ise t tablosu.
Haklısınız. İlk yazı olduğu için fazla detaya girmedim ve olabildiğince basit tuttum yoksa eklenecek daha çok şey vardı.

Arkadaşlar size anlattığım konunun dersinden 0 almam dolayısıyla bir süre devam edemiyorum 😂.

Dersten kaldım arkadaşlar direkt. Seneye birlikle çalışabiliriz :love:.
 
Son düzenleme: