Yükleniyor

Örneklem Varyansının Yanlı Olduğunu Gösteren Simülasyon

Video açıklaması

Merhaba, karşımızda, Peter Collingridge’in Khan Academy bilgisayar bilimleri modülünü kullanarak yarattığı, yansız örneklem varyansını hesaplamak ya da popülasyonun gerçek varyansını yansız bir şekilde tahmin etmek için neden n eksi 1’e bölmemiz gerektiğini biraz daha detaylı anlatan bir simülasyon var. Harika! Bakalım, bu simülasyon ne yapıyormuş! Önce, popülasyon için rastgele bir dağılım oluşturuyor. Ve bu dağılımı her seferinde değiştiriyor. Yani simülasyonu yeniden çalıştırırsanız, farklı bir dağılım elde ediyorsunuz. Mesela burada boyutu 383 olan bir popülasyon var, tamam mı? Daha sonra, bu dağılımdan yola çıkarak, popülasyon için parametreleri hesaplıyor. Ortalama 10 virgül 9, varyans ise 25 virgül 5’miş. Sonra, bu popülasyondan örnekler almaya başlıyor. Örneklemlerin boyutları 2, 3, 4, 5, 6, 7, 8, 9 ya da 10. Gördüğünüz gibi, şu anda bile örnek almaya devam ediyor . ve bunlar için örneklem istatistiklerini mesela örneklem ortalaması ve varyansını hesaplıyor. Bu istatistikler arasında, özellikle de yanlı örneklem varyansı bize bazı sezgisel bilgiler veriyor. Hatta eğer grafikleri daha detaylı incelemek isterseniz, üzerine tıklayıp, yakınlaştırabilirsiniz! Ben bu ekranın bir kopyasını karalama ekranıma yapıştırdım bile! Haydi, gelin, şimdi karalama ekranıma geçelim ve bu simülasyonun yapmaya çalıştığı şeyi daha yakından inceleyelim! Evet, bahsettiğim ekran görüntüsü işte burada. Popülasyon boyutu 529, ortalaması 10 virgül 6. Bu grafikte, popülasyon ortalaması, 10 virgül 6 olarak gösterilmiş.Popülasyon varyansı da 36 virgül 8. Ve bunu da aynı grafikte, burada, görebiliyoruz. Şimdi bu grafik üzerinde biraz daha duralım. Önce, burada gösterilenin yanlı örneklem varyansı olduğunu tekrar hatırlatmak istiyorum. Aynen burada olduğu gibi, bu da, yanlı örneklem varyansı. Evet, elimizdeki her veri için, bu hesaplanıyor. Birinci veriden, n’inci veriye kadar, verinin değerinden, örneklem ortalamasını çıkarıp, karesini alıyor. Ve sonra da, tüm bunu, N eksi 1’e değil, N’e bölüyor! Ve böylece, burada da görebileceğimiz, bazı ilginç sonuçlar elde ediyoruz. Mesela bakın, buradaki, örneklem varyansını olması gerekenden düşük olarak tahmin eden hatta sıfıra yakın değerler veren, buradaki ve buradaki noktacıklardan bahsediyorum, evet, bu noktaların ortalamaları da, örneklemin gerçek ortalamasından baya farklı. Bunun tam tersini de söyleyebiliriz, yani, ortalamanın, gerçek ortalamadan farklı olduğu durumlarda, Varyans için de olması gerekenden düşük bir tahmin yapılıyor. Ayrıca, pembe noktalar küçük örneklemleri, mavilerse daha büyük örneklemleri temsil ediyorlar. Bu tepeciğin etekleri, yani bu uçlardaki noktalar kırmızı renkteler. Mor ya da mavi noktalar, merkezde konumlanmış gibi görünüyorlar. Bunun için de, bize daha iyi tahmin değerleri veriyorlar. Merkezde tabii ki kırmızı noktalardan da var, zaten mor rengi elde etmemizin sebebi de bu. Ama bunların, yani uçtaki noktaların hemen hemen hepsi kırmızı! Arada bazı maviler gözüme çarpıyor ama dediğim gibi çoğunluğu kırmızı! Peki, sizce, bu mantıklı mı? Evet mantıklı! Çünkü, küçük örneklemlerin ortalamaları, popülasyon ortalaması için kötü bir tahmin verir. İşte bu yüzden, buradaki noktalar, gerçek ortalamadan uzakta ve örneklem varyansını da olması gerekenden daha düşük olarak gösteriyorlar. Şimdi de, ikinci grafiğe geçelim. Burada çok önemli bir noktaya belki de noktalara değmem gerek. Grafikteki her örneklem boyutu için, mesela burada boyutu 2 olan örneklemler var, Bunların sayısı arttıkça, yanlı örneklem varyansını hesaplayıp, bunu popülasyon varyansına böldüğümüzde, ve bunların hepsinin ortalamasını aldığımızda, tekrar ediyorum, bunu defalarca ama defalarca yaptığımızda, yanlı örneklem varyansı bölü popülasyon varyansının değeri, popülasyonun gerçek varyansının ancak ve ancak yarı değerine yaklaşıyor! Örneklem boyutu 3 olduğunda, 2 bölü 3’üne yaklaşıyor, yani bu durumda, popülasyonun gerçek varyansının yüzde 66 virgül 6’sı diyebiliriz. Örneklem boyutu 4 olduğundaysa popülasyonun gerçek varyansının 3 bölü 4’üne yaklaşıyor. Evet, şimdi, buna bakarak, bir genelleme yapabileceğimizi artık düşünüyorum. Yanlı tahmini kullandığımız zaman, popülasyonun gerçek varyansına değil de, N eksi 1 bölü n çarpı popülasyonun gerçek varyansına yaklaşıyoruz! Neymiş? N eksi 1 bölü n çarpı popülasyonun gerçek varyansı.. Sakın kafanız karışmasın, şunu demeye çalışıyorum, mesela N, 2’yken, yaklaştığımız değer, popülasyonun gerçek varyansının yarısıydı, yani popülasyonun gerçek varyansı çarpı 1 bölü 2! N, 3’ken, bu oran 2 bölü 3’tü! 4’ken,3 bölü 4! İşte bunun için, bu tahmin yanlı bir tahmindir. Peki, bu tahmini yansız, buna tarafsız diyenler de var, bir tahmin haline getirmenin bir yolu var mıdır? Popülasyonun gerçek varyansı için iyi bir tahmin yapmak istiyorsak, yani n eksi 1 bölü n ile çarpmak yerine, daha önce kullanmadığım bir renkle yazıyorum, yansız bir tahmin için, n bölü n eksi 1’le çarpmalıyız! İki tarafı da n bölü n eksi 1’le çarptığımızda, bunlar birbirini götürür ve burada hakkında doğru bir tahmin yapmaya çalıştığımız, popülasyon varyansı, burada da, n’ler birbirini götürünce, geriye, popülasyon varyansının yansız tahmini ya da yansız örneklem varyansı kalacak! Bunu, daha önceki videolarda ya da ders kitaplarınızda görmüş ama anlamamış olabilirsiniz. Evet, umarım Peter’in bu simülasyonu neden n eksi 1’e bölmemiz gerektiği konusunda sizlere açıklık getirmiştir!