Konu Başlıkları Gizle
Merhaba. Hem yazılım kısmının çok inaktif durduğunu fark ettiğim için hem de kullanıcıların bilgilenmesi amacıyla yeni bir makale serisi başlatıyorum. Bu makalelerde sizlere istatistik bilimi ile ilgili bilgiler ve fikirler vereceğim. Aynı zamanda bu bilgilerin gerek programlama ortamında gerek Excel gibi yazılımlarda uygulamalarını yapacağım. Makale ekledikçe bu makaleye linklerini ekleyeceğim. Hemen ilk konumuzla başlayalım. Sizin de konuya okumadan önce daha efektif olması açısından istatistiğin tam tanımını internetten araştırmanızı tavsiye ederim. Formülleri elimle yazmak yerine hazır görsellerden yararlanacağım ve kaynak belirteceğim. Elimden geldiğince de akademik müfredata uygun gitmeye çalışacağım.
Bu grafik simetriktir. Yani ortasından böldüğümüzde sağda kalan alan ile solda kalan alan birbirine eşittir. Normal dağılımda x ekseninin üstünde kalan alan(Boyalı alanlar) 1'e eşittir.
Daha da ilerlemeden önce size grafikte gördüğünüz bazı sembollerin anlamlarını açıklayayım.
Grafikte sağdaki ve soldaki alanların birbirine eşit olduğunu söylemiştik. Yani seçeceğimiz rastgele bir değerin tabloda ortalamadan düşük veya yüksek olma olasılığı aynıdır. Bu grafiğin altında da verilmiştir.
X ~ N(μ,σ²) şeklinde gösterilir. Standartlaştırma işlemi için X(değişken)'ten ortalamayı(μ) çıkartıp standart sapmaya böleriz. Aşağıdaki şekilde görebilirsiniz. (Kaynak: Wikipedia)
Örnek olarak bir soru çözelim.
Örnek: Paket ağırlıklarının ortalama 80 kilogram ve varyansın 100 olduğu bir depoda seçilen bir paketin 83 kilogramdan daha hafif olma olasılığını bulunuz.
Her şeyden önce değerlerinizi yazalım ve sorunun bizden aslında ne istediğini bulalım.
μ = 80
σ²=100 (Eğer Varyans yerine standart sapma verilmiş olsaydı karesini alıp varyansı bulabilirdik)
σ=10 (Varyans değerinden standart sapmayı bulduk. Bunun için varyansın karekökünü aldık)
X=83
Soru bizden P(X<83) değerini istiyor.
Bulduğumuz değerleri yerine yazalım.
X ~ N(80,100) olarak dağılımımızı tanımlayalım. Şimdi X'ten Z'ye geçme zamanı. Verilerimizi normal dağılıma geçirmek için formülünü kullanalım.
şeklinde formülümüzü yazdık ve değer sonucundan Z'yi 0.3 bulduk. Yani
Normalde 0.3 ün olasılık değerini bulmamız için bir takım integral hesabı yapmamız gerekiyor. Ama neyse ki gerek akademide İstatistiğe giriş derslerinde gerek gerçek hayatta çalışırken kullanmamız için Standart Normal Dağılım tablosu veya diğer adıyla Z tablosu karşımıza çıkıyor. Z tablosunu kullanırken mavi renkli satırlar ondalıklı kısmın ilk basamağını sütunlar ise ikinci ondalık basamağı takip etmemiz için. Normal dağılım grafiğinde x ekseninin üst tarafında kalan alanın 1'e eşit olduğunu söylemiştik. Aşağıdaki tabloda tam gözükmese de değerlerin 0.5000'te bittiğini görebiliriz. 0.5000 değerine karşılık gelen Z değeri 3.9'dur. Yani bu tablo bize aynı zamanda sağ ve sol tarafın oranlarının aynı olduğunu da gösterir. Pekiştirmek için aşağıdaki örneklere göz atabilirsiniz
P(0<Z<0.64) = 0.2389
P(0<Z<0.23) = 0.0910
P(0<Z<0.65) = 0.2422
P(0<Z<0.76) = 0.2764
Peki her şey çok güzel gitti. Fakat tabloyu kullanırken ondalık basamak sayımız 2'den fazla olsaydı ne olacaktı? Aslında bunu bulmak için bir sürü yol var fakat ben yazılarımda akademide öğrendiğim şekilde yani değere en yakın değeri, eğer yakınlıklar eşitse sonu çift olan değeri alacağım.
Normal dağılım grafiğinde x ekseninin üst tarafında kalan alanın 1'e eşit olduğunu söylemiştik. Aşağıdaki tabloda tam gözükmese de değerlerin 0.5000'te bittiğini görebiliriz. 0.5000 değerine karşılık gelen Z değeri 3.9'dur. Yani bu tablo bize aynı zamanda sağ ve sol tarafın oranlarının aynı olduğunu da gösterir (Bu ifadeyi şu an anlamadıysanız merak etmeyin gelecek yazılarda daha karmaşık sorular çözdükçe daha anlaşılır olacak).
Sorumuza devam edecek olursak 0.3 değerini tablodan hesapladığımızda 0.1179 değerini buluruz. Fakat soru bize 83 ten küçük tüm değerlerin olasılığını soruyor. Fakat biz ortalama ile 83 arasındaki değerleri yani grafiğin sadece sağ tarafındaki olasılığı hesapladık. Küçük eşiti sorduğundan dolayı tablonun toplam alanı 1 olduğundan dolayı sol tarafın tamamının alanını 0.500 değerini de eklemeliyiz (Eğer P(0<Z<0.3) ifadesini verseydi 0.5 eklememize gerek yoktu.). Elde edeceğimiz toplam 0.6179 olarak bulunur. Yani depodan seçilen bir paketin 83 kilogramdan daha hafif olma olasılığı %61.79'dur.
Şimdi hadi bu soruyu dijital ortamlarda çözmeye çalışalım.
Öncelikle Python üzerinden bulmaya çalışacak olursak:
Python ile normal dağılım üzerinde olasılık hesabı:
Şimdi istatistik için en çok kullanılan programlama dillerinden biri olan R üzerinde yapacak olursak:
R ile normal dağılım üzerinde olasılık hesabı:
Bu yazımız bu kadar olsun. Sonraki yazımda örnek olarak üniversitedeki not dağılım sistemini hesaplayacağımız bir örnekte yapacağız. Lütfen hatalarımı, merak ettiklerinizi ve her türlü eleştirinizi yazmayı unutmayın.
Normal Dağılım
Normal dağılım istatistikte en çok kullanılan dağılım türüdür. Aslında bir çoğumuzun bildiği çan eğrisi normal dağılımdır. Grafiğinin şeklinden ve adından anlaşılacağı üzere çana benzer bir yapısı vardır. Aşağıda bir normal dağılım grafiği görebilirsiniz.(Kaynak: Wikimedia Commons)Bu grafik simetriktir. Yani ortasından böldüğümüzde sağda kalan alan ile solda kalan alan birbirine eşittir. Normal dağılımda x ekseninin üstünde kalan alan(Boyalı alanlar) 1'e eşittir.
Daha da ilerlemeden önce size grafikte gördüğünüz bazı sembollerin anlamlarını açıklayayım.
μ işareti
- Mü olarak teleffuz edebiliriz. Bize ortalamayı ifade eder.
σ işareti
- Sigma olarak telaffuz ettiğimiz bu sembol ise standart sapmayı ifade eder.
Varyans
- Varyans bu tabloda bulunmamaktadır. Ama varyansı standart sapmanın karesini alarak bulabiliriz. Aynı şekilde standart sapmayı bulmak için varyansın karekökünü alabiliriz.
Grafikte sağdaki ve soldaki alanların birbirine eşit olduğunu söylemiştik. Yani seçeceğimiz rastgele bir değerin tabloda ortalamadan düşük veya yüksek olma olasılığı aynıdır. Bu grafiğin altında da verilmiştir.
Standart Normal Dağılım
X ~ N(μ,σ²) şeklinde gösterilir. Standartlaştırma işlemi için X(değişken)'ten ortalamayı(μ) çıkartıp standart sapmaya böleriz. Aşağıdaki şekilde görebilirsiniz. (Kaynak: Wikipedia)
Örnek olarak bir soru çözelim.
Örnek: Paket ağırlıklarının ortalama 80 kilogram ve varyansın 100 olduğu bir depoda seçilen bir paketin 83 kilogramdan daha hafif olma olasılığını bulunuz.
Her şeyden önce değerlerinizi yazalım ve sorunun bizden aslında ne istediğini bulalım.
μ = 80
σ²=100 (Eğer Varyans yerine standart sapma verilmiş olsaydı karesini alıp varyansı bulabilirdik)
σ=10 (Varyans değerinden standart sapmayı bulduk. Bunun için varyansın karekökünü aldık)
X=83
Soru bizden P(X<83) değerini istiyor.
Bulduğumuz değerleri yerine yazalım.
X ~ N(80,100) olarak dağılımımızı tanımlayalım. Şimdi X'ten Z'ye geçme zamanı. Verilerimizi normal dağılıma geçirmek için
şeklinde formülümüzü yazdık ve değer sonucundan Z'yi 0.3 bulduk. Yani
Normalde 0.3 ün olasılık değerini bulmamız için bir takım integral hesabı yapmamız gerekiyor. Ama neyse ki gerek akademide İstatistiğe giriş derslerinde gerek gerçek hayatta çalışırken kullanmamız için Standart Normal Dağılım tablosu veya diğer adıyla Z tablosu karşımıza çıkıyor. Z tablosunu kullanırken mavi renkli satırlar ondalıklı kısmın ilk basamağını sütunlar ise ikinci ondalık basamağı takip etmemiz için. Normal dağılım grafiğinde x ekseninin üst tarafında kalan alanın 1'e eşit olduğunu söylemiştik. Aşağıdaki tabloda tam gözükmese de değerlerin 0.5000'te bittiğini görebiliriz. 0.5000 değerine karşılık gelen Z değeri 3.9'dur. Yani bu tablo bize aynı zamanda sağ ve sol tarafın oranlarının aynı olduğunu da gösterir. Pekiştirmek için aşağıdaki örneklere göz atabilirsiniz
P(0<Z<0.64) = 0.2389
P(0<Z<0.23) = 0.0910
P(0<Z<0.65) = 0.2422
P(0<Z<0.76) = 0.2764
Peki her şey çok güzel gitti. Fakat tabloyu kullanırken ondalık basamak sayımız 2'den fazla olsaydı ne olacaktı? Aslında bunu bulmak için bir sürü yol var fakat ben yazılarımda akademide öğrendiğim şekilde yani değere en yakın değeri, eğer yakınlıklar eşitse sonu çift olan değeri alacağım.
Normal dağılım grafiğinde x ekseninin üst tarafında kalan alanın 1'e eşit olduğunu söylemiştik. Aşağıdaki tabloda tam gözükmese de değerlerin 0.5000'te bittiğini görebiliriz. 0.5000 değerine karşılık gelen Z değeri 3.9'dur. Yani bu tablo bize aynı zamanda sağ ve sol tarafın oranlarının aynı olduğunu da gösterir (Bu ifadeyi şu an anlamadıysanız merak etmeyin gelecek yazılarda daha karmaşık sorular çözdükçe daha anlaşılır olacak).
Sorumuza devam edecek olursak 0.3 değerini tablodan hesapladığımızda 0.1179 değerini buluruz. Fakat soru bize 83 ten küçük tüm değerlerin olasılığını soruyor. Fakat biz ortalama ile 83 arasındaki değerleri yani grafiğin sadece sağ tarafındaki olasılığı hesapladık. Küçük eşiti sorduğundan dolayı tablonun toplam alanı 1 olduğundan dolayı sol tarafın tamamının alanını 0.500 değerini de eklemeliyiz (Eğer P(0<Z<0.3) ifadesini verseydi 0.5 eklememize gerek yoktu.). Elde edeceğimiz toplam 0.6179 olarak bulunur. Yani depodan seçilen bir paketin 83 kilogramdan daha hafif olma olasılığı %61.79'dur.
Şimdi hadi bu soruyu dijital ortamlarda çözmeye çalışalım.
Öncelikle Python üzerinden bulmaya çalışacak olursak:
Python ile normal dağılım üzerinde olasılık hesabı:
Python:
import scipy.stats as stats
# Soruda bize verilen değerler
ortalama = 80
standart_sapma = 10
X = 83 # Bize verilen değer
# Z değeri
Z = (X - ortalama) / standart_sapma # Z değerini hesaplanması. Yukarıda formülü v ermiştik
print("Z değeri:", Z)
# Z değeri için olasılığı bulalım
probability = stats.norm.cdf(Z)
print("P(Z < {:.2f}) = {:.4f}".format(Z, probability))
Şimdi istatistik için en çok kullanılan programlama dillerinden biri olan R üzerinde yapacak olursak:
R ile normal dağılım üzerinde olasılık hesabı:
Kod:
# Verilen değerler
ortalama <- 80 # Ortalama
standart_sapma <- 10 # Standart sapma
X <- 83 # Bize verilen değer
#Z değerini hesaplamak için
Z <- (X - ortalama) / standart_sapma
cat("Z'nin değeri", Z, "\n")
#Z değeri için olasılığı bulalım
probability <- pnorm(Z)
cat("P(Z<", round(Z, 2), ") = ", round(probability, 4), "\n")
Bu yazımız bu kadar olsun. Sonraki yazımda örnek olarak üniversitedeki not dağılım sistemini hesaplayacağımız bir örnekte yapacağız. Lütfen hatalarımı, merak ettiklerinizi ve her türlü eleştirinizi yazmayı unutmayın.
Son düzenleyen: Moderatör: