Tidak, langit tidak runtuh: Menafsirkan skor SAT terbaru

Awal bulan ini, Dewan Perguruan Tinggi merilis skor SAT untuk lulusan sekolah menengah atas tahun 2015. Nilai matematika dan membaca menurun dari tahun 2014, melanjutkan tren penurunan yang stabil yang telah terjadi selama dekade terakhir. Pakar dari garis-garis politik yang kontras memanfaatkan skor untuk mendukung agenda politik mereka. Michael Petrilli dari Fordham Foundation berdebat bahwa penurunan skor SAT menunjukkan bahwa sekolah menengah membutuhkan lebih banyak reformasi, mungkin yang didukung oleh organisasinya, khususnya, sekolah piagam dan akuntabilitas.* Untuk Carol Burris dari Jaringan Pendidikan Publik, penurunan skor merupakan bukti kegagalan kebijakan yang ditentang organisasinya, yaitu Common Core, No Child Left Behind, dan akuntabilitas.





Petrilli dan Burris keduanya menyalahgunakan skor SAT. SAT tidak dirancang untuk mengukur pencapaian nasional; skor kerugian dari 2014 sangat kecil; dan sebagian besar penurunan mungkin merupakan hasil dari perubahan demografis dalam populasi SAT. Mari kita periksa masing-masing poin ini secara lebih rinci.





SAT tidak dirancang untuk mengukur pencapaian nasional

Tidak pernah. SAT pada awalnya dimaksudkan untuk mengukur bakat siswa untuk perguruan tinggi terlepas dari paparan siswa tersebut terhadap kurikulum tertentu. Pendiri tes percaya bahwa mengukur bakat, bukan prestasi, akan menjadi penyebab keadilan. Seorang siswa cerdas dari sekolah menengah di pedesaan Nebraska atau pegunungan Virginia Barat, menurut mereka, harus memiliki kesempatan yang sama untuk menghadiri universitas elit sebagai siswa dari sekolah persiapan Timur, meskipun belum pernah mempelajari literatur hebat dan matematika yang lebih tinggi. diajarkan di sekolah persiapan. SAT akan mengukur kemampuan penalaran dan analitis, bukan penguasaan pengetahuan tertentu. Skornya akan menyamakan bidang permainan dalam hal paparan kurikuler sambil memberikan perkiraan yang masuk akal tentang kemungkinan keberhasilan individu di perguruan tinggi.



Perhatikan bahwa bahkan dalam kapasitas ini, skor tidak pernah cukup sendirian; mereka hanya digunakan untuk membuat keputusan penerimaan oleh perguruan tinggi dan universitas, termasuk tokoh-tokoh seperti Harvard dan Stanford, dalam kombinasi dengan banyak informasi lainnya—nilai rata-rata, resume kurikuler, esai, surat referensi, kegiatan ekstra kurikuler—semuanya merupakan aplikasi lengkap siswa.



SAT hari ini telah berubah menjadi tes berorientasi konten, tetapi tidak sepenuhnya. Tahun depan, Dewan Perguruan Tinggi akan memperkenalkan a SAT yang direvisi untuk lebih mencerminkan kurikulum sekolah menengah. Meski begitu, skor SAT tidak boleh digunakan untuk membuat penilaian tentang kinerja sekolah menengah AS, apakah itu sekolah menengah tunggal, sekolah menengah negeri, atau semua sekolah menengah atas di negara ini. Sampel SAT dipilih sendiri. Pada tahun 2015, hanya mencakup sekitar setengah dari lulusan sekolah menengah nasional: 1,7 juta dari sekitar 3,3 juta total. Dan itu sekitar sepersembilan dari sekitar 16 juta siswa sekolah menengah. Menggeneralisasi skor SAT untuk populasi yang lebih besar ini melanggar aturan dasar ilmu sosial. Dewan Perguruan Tinggi mengeluarkan peringatan ketika merilis skor SAT: Karena populasi peserta tes dipilih sendiri, menggunakan skor SAT agregat untuk membandingkan atau mengevaluasi guru, sekolah, distrik, negara bagian, atau unit pendidikan lainnya tidak valid, dan Perguruan Tinggi Board sangat tidak menganjurkan penggunaan seperti itu.



WAKTU Liputan rilis SAT termasuk pernyataan Andrew Ho dari Universitas Harvard, yang secara singkat menyatakan: Saya pikir SAT dan ACT adalah tes dengan tujuan penting, tetapi mengukur kemajuan pendidikan nasional secara keseluruhan bukanlah salah satunya.



Perubahan skor dari 2014 sangat kecil

Nilai SAT berubah sangat sedikit dari tahun 2014 ke 2015. Nilai membaca turun dari 497 menjadi 495. Nilai matematika juga turun dua poin, dari 513 menjadi 511. Kedua penurunan tersebut sama dengan sekitar 0,017 standar deviasi (SD). [Saya] Untuk mengilustrasikan betapa kecilnya perubahan ini sebenarnya, mari kita periksa metrik yang telah saya gunakan sebelumnya dalam membahas nilai ujian . Rata-rata pria Amerika tingginya 5'10 dengan SD sekitar 3 inci. Perubahan tinggi 0,017 SD sama dengan sekitar 1/20 inci (0,051). Apakah Anda benar-benar berpikir Anda akan melihat perbedaan tinggi dua pria yang berdiri bersebelahan jika mereka hanya berbeda 1/20thdari satu inci? Anda tidak akan. Demikian pula, perubahan skor SAT dari 2014 ke 2015 adalah sepele. [ii]



Perhatian yang lebih serius adalah tren SAT selama dekade terakhir. Sejak tahun 2005, nilai membaca turun 13 poin, dari 508 menjadi 495, dan nilai matematika turun sembilan poin, dari 520 menjadi 511. Ini setara dengan penurunan 0,12 SD untuk membaca dan 0,08 SD untuk matematika. [aku aku aku] Mewakili perubahan yang telah terakumulasi selama satu dekade, kerugian ini masih cukup kecil. Di itu Washington Post , Michael Petrilli bertanya mengapa reformasi pendidikan membentur tembok bata di sekolah menengah? Dia juga menyatakan bahwa Anda melihat ini dalam semua jenis bukti.

Anda tidak melihat penurunan bukti terbaik, Penilaian Nasional Kemajuan Pendidikan (NAEP). Berlawanan dengan SAT, NAEP dirancang untuk memantau pencapaian nasional. Skor tesnya didasarkan pada desain pengambilan sampel acak, yang berarti bahwa skor dapat ditafsirkan sebagai perwakilan siswa AS. NAEP mengelola dua tes berbeda untuk siswa usia sekolah menengah, tren jangka panjang (LTT NAEP), diberikan kepada anak berusia 17 tahun, dan NAEP utama, diberikan kepada siswa kelas dua belas.



Tabel 1 membandingkan perubahan sepuluh tahun terakhir dalam nilai ujian SAT dengan perubahan NAEP. [iv] Tren jangka panjang NAEP tidak diberikan pada tahun 2005 atau 2015, sehingga tahun terdekat diberikan. Tes NAEP menunjukkan siswa sekolah menengah membuat keuntungan kecil selama dekade terakhir. Mereka tidak mengkonfirmasi kerugian pada SAT.



Tabel 1. Perbandingan perubahan SAT, NAEP Utama (12thkelas), dan skor LTT NAEP (17 tahun). Perubahan dinyatakan sebagai satuan SD tahun dasar.

DUDUK



2005-2015



NAEP Utama

2005-2015

LTT NAEP

2004-2012

Membaca

-0,12 *

+ .05 *

saat dalam perjalanan hms beagle darwin

+ 0,09 *

matematika

-0,08 *

+ 0,09 *

+.03

*P<.05

Petrilli mengangkat kekhawatiran lain terkait dengan skor NAEP dengan memeriksa tren kohort dalam skor NAEP. Tren untuk kelompok usia 17 tahun 2012, misalnya, dapat dibangun dengan menggunakan skor anak usia 13 tahun pada tahun 2008 dan anak usia 9 tahun pada tahun 2004. Dengan melacak perubahan NAEP dari waktu ke waktu dengan cara ini, orang bisa mendapatkan gambaran kasar tentang pencapaian kelompok tertentu saat siswa tumbuh dewasa dan melanjutkan melalui sistem sekolah. Meneliti tiga kelompok, analisis Fordham menunjukkan bahwa peningkatan antara usia 13 dan 17 sekitar setengah dari yang terdaftar antara usia sembilan dan 13 tahun. Anak-anak mendapatkan lebih banyak NAEP ketika mereka lebih muda daripada ketika mereka lebih tua.

Tidak ada hal baru disini. Para sarjana NAEP telah menyadari fenomena ini sejak lama. Fordham menunjukkan elemen-elemen tertentu dari reformasi pendidikan yang disukainya—sekolah piagam, voucher, dan akuntabilitas—sebagai kemungkinan penyebabnya. Memang benar bahwa reformasi tersebut lebih cenderung menargetkan sekolah dasar dan menengah daripada sekolah menengah. Tetapi literatur penelitian tentang perbedaan usia dalam perolehan NAEP (yang tidak dikutip dalam analisis Fordham) meragukan tesis bahwa kebijakan pendidikan bertanggung jawab atas fenomena tersebut. [v]

Apakah siswa usia sekolah menengah mencoba sekeras yang mereka bisa di NAEP telah ditunjukkan sebagai satu penjelasan. Sebuah analisis tahun 1996 dari lembar jawaban NAEP menemukan bahwa 25 hingga 30 persen siswa kelas dua belas menunjukkan perilaku tes di luar tugas—mencoret-coret, membiarkan item kosong—dibandingkan dengan 13 persen siswa kelas delapan dan enam persen siswa kelas empat. SEBUAH Komisi Nasional 2004 pada kelas dua belas NAEP merekomendasikan insentif (beasiswa, sertifikat, surat pengakuan dari Presiden) untuk meningkatkan motivasi siswa sekolah menengah untuk berprestasi baik di NAEP. Mengapa siswa sekolah menengah atas atau yunior menganggap NAEP dengan serius ketika tes taruhan rendah ini diambil di tengah-tengah mengambil tes SAT atau ACT untuk masuk perguruan tinggi, ujian akhir kursus yang memengaruhi IPK SMA, tes AP yang dapat memengaruhi penempatan di kursus perguruan tinggi, ujian pertanggungjawaban negara yang dapat mengakibatkan sekolahnya dianggap berhasil atau gagal, dan ujian keluar SMA yang harus dilalui untuk lulus? [kami]

Penjelasan lain yang mungkin untuk fenomena tersebut adalah: 1) perbedaan skala antara usia yang diuji pada LTT NAEP (dengan kata lain, perolehan satu poin pada skala antara usia sembilan dan 13 tahun mungkin tidak mewakili jumlah pembelajaran yang sama dengan satu -perolehan poin antara usia 13 dan 17); 2) perbedaan tingkat partisipasi dalam NAEP antara SD, SMP, dan SMA; [apakah kamu datang] dan 3) tren sosial yang mempengaruhi semua siswa SMA, tidak hanya di sekolah umum. Kemungkinan ketiga dapat dieksplorasi dengan menganalisis tren siswa yang bersekolah di sekolah swasta. Jika Fordham telah memisahkan data NAEP berdasarkan sekolah negeri dan swasta (skor siswa sekolah Katolik tersedia), ia akan menemukan bahwa pola di antara siswa sekolah swasta serupa—siswa yang lebih muda memperoleh lebih banyak daripada siswa yang lebih tua di NAEP. Kesamaan itu menimbulkan keraguan pada gagasan bahwa kebijakan yang mengatur sekolah umum bertanggung jawab atas keuntungan yang lebih kecil di antara siswa yang lebih tua. [viii]

Perubahan populasi SAT

Menulis di Washington Post , Carol Burris menjawab pertanyaan apakah perubahan demografis telah mempengaruhi penurunan skor SAT. Dia menyimpulkan bahwa mereka belum, dan khususnya, dia menyimpulkan bahwa meningkatnya proporsi siswa yang menerima keringanan biaya ujian mungkin tidak mempengaruhi nilai. Dia mendasarkan kesimpulan itu pada analisis partisipasi SAT yang dipilah berdasarkan tingkat pendapatan keluarga. Burris mencatat bahwa persentase pengambil SAT telah stabil di seluruh kelompok pendapatan dalam beberapa tahun terakhir. Kriteria itu tidak dapat dipercaya. Sekitar 39 persen siswa pada tahun 2015 menolak memberikan informasi pendapatan keluarga. 61 persen yang menjawab pertanyaan pendapatan keluarga mungkin condong ke siswa berpenghasilan rendah yang bebas biaya (asumsinya adalah bahwa mereka mungkin merasa tidak nyaman menjawab pertanyaan tentang pendapatan keluarga). [ix] Jangan lupa bahwa populasi SAT secara keseluruhan adalah sampel yang dipilih sendiri. Subsampel yang dipilih sendiri dari sampel yang dipilih sendiri memberi tahu kita bahkan lebih sedikit daripada sampel asli, yang hampir tidak memberi tahu kita apa pun.

Bagian pembebasan biaya peserta SAT meningkat dari 21 persen pada tahun 2011 menjadi 25 persen pada tahun 2015. Fakta sederhana bahwa keringanan biaya melayani keluarga berpenghasilan rendah, yang anaknya cenderung menjadi peserta SAT dengan skor rendah, adalah penting, tetapi bukan keseluruhan cerita. di sini. Siswa dari keluarga kurang mampu selalu mengikuti SAT. Tapi mereka membayarnya sendiri. Jika peningkatan tambahan dari keluarga yang kurang beruntung mengambil SAT karena mereka tidak harus membayar untuk itu, penting untuk mempertimbangkan apakah pendatang baru ke kumpulan peserta tes SAT memiliki karakteristik yang tidak terukur yang berkorelasi dengan pencapaian—di luar efek yang telah dikaitkan ke status sosial ekonomi.

Robert Kelchen, asisten profesor pendidikan tinggi di Seton Hall University, dihitung efeknya pada skor SAT nasional hanya dari tiga yurisdiksi (Washington, DC, Delaware, dan Idaho) mengadopsi kebijakan pengujian SAT wajib yang dibayar oleh negara bagian. Dia memperkirakan bahwa kebijakan ini menjelaskan sekitar 21 persen dari penurunan nasional dalam nilai ujian antara 2011 dan 2015. Dia juga mencatat bahwa analisis yang lebih menyeluruh, menggabungkan keringanan biaya dari negara bagian dan distrik lain, pasti akan meningkatkan angka itu. Pengabaian biaya di dua lusin distrik sekolah Texas, misalnya, diberikan kepada semua junior dan senior di sekolah menengah. Dan semua siswa di distrik itu (termasuk Dallas dan Fort Worth) diwajibkan mengikuti SAT mulai tahun pertama. Kebijakan pengujian universal semacam itu dapat meningkatkan akses dan mewujudkan keadilan, tetapi kebijakan tersebut juga akan, setidaknya untuk sementara, menyebabkan penurunan skor SAT.

Di sini, saya menawarkan perhitungan sampul belakang saya sendiri tentang hubungan perubahan demografis dengan skor SAT. Dewan Perguruan Tinggi melaporkan nilai ujian dan tingkat partisipasi untuk sembilan kelompok ras dan etnis. [x] Data ini lebih disukai daripada pendapatan keluarga karena a) hampir semua siswa menjawab pertanyaan ras/etnis (hanya empat persen yang tidak menjawab versus 39 persen untuk pendapatan keluarga), dan b) tampaknya asumsi yang aman bahwa siswa lebih cenderung tahu ras atau etnis mereka dibandingkan dengan pendapatan keluarga mereka.

Pertanyaan yang dibahas pada Tabel 2 adalah: seberapa besar perubahan nilai SAT nasional dari tahun 2005 ke 2015 jika nilai setiap kelompok ras/etnis tetap sama persis seperti pada tahun 2005, tetapi proporsi masing-masing kelompok dari total populasi diizinkan untuk bervariasi? Dengan kata lain, skor ditetapkan pada level 2005 untuk setiap kelompok—tidak ada perubahan. Skor nasional SAT kemudian dihitung ulang menggunakan proporsi 2015 yang diwakili setiap kelompok dalam populasi nasional.

Tabel 2. Skor SAT dan Perubahan Demografis Populasi SAT (2005-2015)

Proyeksi Perubahan Berdasarkan Perubahan Proporsi

Perubahan Sebenarnya

Proyeksi Perubahan sebagai Persentase Perubahan Aktual

Membaca

-9

-13

69%

matematika

-7

-9

78%

Data menunjukkan bahwa dua pertiga hingga tiga perempat dari penurunan skor SAT dari 2005 hingga 2015 dikaitkan dengan perubahan demografis pada populasi peserta tes. Analisisnya memang masih mentah. Hubungan tersebut bersifat korelasional, bukan kausal. Kategori ras/etnis pasti berfungsi sebagai proxy untuk sekumpulan karakteristik lain yang mempengaruhi skor SAT, beberapa tidak teramati dan lainnya (misalnya, pendapatan keluarga, pendidikan orang tua, status bahasa, peringkat kelas) yang disertakan dalam kuesioner SAT tetapi menghasilkan data yang sulit untuk menafsirkan.

Kesimpulan

Menggunakan penurunan nilai SAT tahunan untuk mendakwa sekolah menengah adalah palsu. SAT tidak boleh digunakan untuk mengukur prestasi nasional. Perubahan SAT dari 2014-2015 sangat kecil. Tren penurunan selama dekade terakhir menunjukkan penurunan yang lebih besar dalam skor SAT, tetapi masih kecil besarnya dan berkorelasi dengan perubahan populasi peserta tes SAT.

Berbeda dengan skor SAT, skor NAEP, yang adalah dirancang untuk memantau pencapaian nasional, melaporkan sedikit peningkatan untuk anak berusia 17 tahun selama sepuluh tahun terakhir. Memang benar bahwa perolehan LTT NAEP lebih besar di antara siswa dari usia sembilan hingga 13 tahun daripada dari usia 13 hingga 17 tahun, tetapi penelitian telah menemukan beberapa penjelasan yang masuk akal mengapa hal itu terjadi. Masyarakat harus berhati-hati dalam menerima temuan analisis skor tes. Skor tes sering disalahartikan untuk mempromosikan agenda politik, dan banyak dari retorika yang mengkhawatirkan yang dipicu oleh penurunan kecil dalam skor tidak dapat dibenarkan.

gerhana bulan total
* Untuk keadilan bagi Petrilli, dia mengakui di posnya, SAT bahkan bukan ukuran terbaik — tidak semua siswa mengambilnya, dan mereka yang melakukannya hampir tidak representatif.


[Saya] SD 2014 untuk membaca SAT dan matematika adalah 115.

[ii] Namun, perubahan yang secara substantif sepele dapat mencapai signifikansi statistik dengan sampel yang besar.

[aku aku aku] SD tahun 2005 adalah 113 untuk membaca dan 115 untuk matematika.

[iv] Sepanjang posting ini, Pembacaan Kritis SAT (sebelumnya, bagian SAT-Verbal) disebut sebagai membaca. Saya hanya memeriksa skor membaca dan matematika SAT untuk memungkinkan perbandingan dengan NAEP. Selain itu, bagian penulisan SAT akan dihentikan pada tahun 2016.

[v] Keuntungan yang lebih besar oleh siswa yang lebih muda vs. yang lebih tua di NAEP dieksplorasi secara lebih rinci dalam Laporan Pusat Brown 2006, hlm. 10-11.

[kami] Jika pengaruh ini tetap stabil dari waktu ke waktu, mereka tidak akan mempengaruhi tren di NAEP. Sulit dipercaya, bagaimanapun, bahwa tes taruhan tinggi membawa kepentingan yang sama hari ini untuk siswa sekolah menengah seperti yang mereka lakukan di masa lalu.

[apakah kamu datang] Laporan komisi pita biru tahun 2004 tentang NAEP kelas dua belas melaporkan bahwa pada tahun 2002 tingkat partisipasi telah turun menjadi 55 persen. Itu dibandingkan dengan 76 persen di kelas delapan dan 80 persen di kelas empat. Tingkat partisipasi mengacu pada sampel yang diambil sebelumnya, sebelum penggantian dilakukan. NAEP dilakukan dengan dua tahap pengambilan sampel—sekolah pertama, kemudian siswa di dalam sekolah—artinya rendahnya tingkat partisipasi adalah produk dari partisipasi sekolah yang tertekan (82 persen) dan siswa (77 persen). Lihat halaman 8 dari: http://www.nagb.org/content/nagb/assets/documents/publications/12_gr_commission_rpt.pdf

[viii] Data sekolah swasta tidak jelas pada LTT NAEP karena masalah memenuhi standar pelaporan, tetapi analisis yang identik dengan Fordham dapat dilakukan pada siswa sekolah Katolik untuk kelompok usia 17 tahun 2008 dan 2012.

[ix] Tingkat non-respons pada tahun 2005 adalah 33 persen.

[x] Sembilan kategori tanggapan adalah: Indian Amerika atau Penduduk Asli Alaska; Asia, Asia Amerika, atau Kepulauan Pasifik; Hitam atau Afrika Amerika; Meksiko atau Meksiko Amerika; Orang Puerto Rico; Hispanik, Latin, atau Amerika Latin lainnya; Putih; Lainnya; dan Tidak Ada Respon.