(VietNamNet) - Trong bài viết dưới đây,GS.TSKH Lâm Quang Thiệp khẳng định, Việt Nam có thể và cần phải áp dụng ngay những thành tựu hiện đại của khoa học về đo lường trong giáo dục. GS nhấn mạnh, sự đánh giá phải được xem là một bộ phận quan trọng và hợp thành một thể thống nhất của quá trình giáo dục - đào tạo. Cơ sở quan trọng của việc đánh giá là khoa học về đo lường trong giáo dục.
Trong năm học 2005-2006, sẽ áp dụng thi trắc nghiệm trong kỳ thi tốt nghiệp THPT với môn Ngoại ngữ (Ảnh: Giờ học tại trường ĐH Ngoại ngữ Hà Nội) |
Khoa học đo lường trong giáo dục đã có hơn 100 "tuổi"
Khoa học đo lường trong giáo dục thật sự có thể xem như bắt đầu cách đây chỉ khoảng một thế kỷ (Thorndike,1904). Ở châu Âu và đặc biệt là ở Mỹ, lĩnh vực khoa học này phát triển mạnh vào thời kỳ từ trước và sau thế chiến thứ hai với vài dấu mốc quan trọng như Trắc nghiệm trí tuệ Stanford-Binet xuất bản năm 1916, việc đưa vào chấm trắc nghiệm bằng máy của IBM năm 1935…
Với việc thành lập National Council on Measurement in Education (NCME) vào thập niên 1950 và ra đời Educational Testing Service (ETS) năm 1947, và American Testing Service (ACT) sau đó, một ngành công nghiệp trắc nghiệm đã hình thành ở Mỹ. Từ đó đến nay, khoa học về đo lường trong tâm lý và giáo dục đã phát triển liên tục.
Hiện nay, ở Mỹ, ước tính mỗi năm số lượt trắc nghiệm tiêu chuẩn hoá cỡ 1/4 tỷ và trắc nghiệm do giáo viên soạn lên đến con số 5 tỷ. Cùng với sự phát triển của công nghệ tính toán, lý thuyết về đo lường trong tâm lý giáo dục cũng phát triển rất nhanh, và Lý thuyết Ứng đáp Câu hỏi (Item Respond Theory – IRT) ra đời, đạt những thành tựu quan trọng nâng cao độ chính xác của trắc nghiệm.
Tại Việt Nam trước năm 1975, ở miền Bắc, chỉ có một số nghiên cứu về đo lường trong tâm lý, trong khi ở miền Nam có một vài chuyên gia được đào tạo ở Mỹ về lĩnh vực này và kỳ thi tú tài năm 1974 đã triển khai bằng phương pháp trắc nghiệm khách quan (TNKQ). Cho đến thập niên 1990, sự phát triển khoa học về đo lường trong giáo dục ở Việt Nam vẫn rất yếu.
Để khắc phục tình hình trên, Vụ Đại học Bộ GD-ĐT đã mời một số chuyên gia từ nước ngoài sang tổ chức hội thảo, xuất bản sách, mặt khác cử một số giáo chức đại học đi học ở nước ngoài về khoa học này, và cho đến nay đã có hàng chục Ph. D. hoặc Master về lĩnh vực liên quan.
Cũng từ đó một số trường ĐH có tổ chức các nhóm nghiên cứu áp dụng các phương pháp đo lường trong giáo dục để thiết kế các công cụ đánh giá, soạn thảo các phần mềm hỗ trợ, mua máy quét quang học chuyên dụng (OMR) để chấm thi. Một điểm mốc đáng ghi nhận là vào tháng 7/1996, kỳ thi tuyển ĐH thí điểm bằng phương pháp TNKQ đã được tổ chức tại trường ĐH Đà Lạt.
Rất tiếc là từ đó đến nay, các hoạt động liên quan đến khoa học này tiến triển rất chậm. Ngay trong các kỳ thi tuyển sinh đại học với chủ trương “3 chung” từ năm 2002 đến nay cũng chưa áp dụng những thành tựu hiện đại của khoa học này, do đó đã gặp một trong những khó khăn là kết quả phân bố điểm thi lệch rất mạnh so với phân bố chuẩn và không thể điều khiển được.
Dù sao, Cục Khảo thí và Kiểm định chất lượng, với chức năng cải tiến thi cử và đánh giá chất lượng đã được thành lập từ năm 2003.
Hai lý thuyết cổ điển và hiện đại
Chỉ đến thập niên 1970 thì các mô hình đo lường dựa trên IRT mới ra đời. Nhờ các phương pháp tính toán có tốc độ rất cao dựa vào máy tính, IRT phát triển rất nhanh và thu được rất nhiều thành tựu trong ba thập niên cuối của thế kỷ 20 bước sang đầu thế kỷ 21. Người ta thường phân chia lý thuyết trắc nghiệm ra làm hai loại, lý thuyết trắc nghiệm cổ điển hình thành trước khi ra đời IRT, và lý thuyết trắc nghiệm hiện đại với việc sử dụng IRT.
IRT xây dựng các mô hình toán để xử lý dữ liệu dựa trên việc nghiên cứu mọi cặp tương tác nguyên tố “thí sinh – câu hỏi” (TS-CH) khi triển khai một TNKQ. Mỗi TS đứng trước một CH sẽ ứng đáp như thế nào, điều đó phụ thuộc vào năng lực tiềm ẩn của TS và các đặc trưng của CH.
Hiện nay có 3 mô hình toán phổ biến nhất trong IRT: mô hình 1 tham số (mô hình Rasch) chỉ xét đến độ khó của CH, mô hình 2 tham số có xét đến độ phân biệt của CH, và mô hình 3 tham số xét thêm mức độ đoán mò của TS khi trả lời CH.
So với lý thuyết trắc nghiệm cổ điển, Lý thuyết trắc nghiệm hiện đại với IRT có những ưu việt quan trọng.
Trong lý thuyết trắc nghiệm cổ điển cổ điển độ khó, độ phân biệt của các CH tính được sẽ phụ thuộc vào mẫu thí sinh được chọn để thử nghiệm, và năng lực xác định được của TS phụ thuộc vào đề trắc nghiệm mà TS làm.
Với IRT, thành tựu kỳ diệu nhất mà các mô hình toán mang lại là các tham số đặc trưng của CH (liên quan đến độ khó, độ phân biệt, mức độ đoán mò) không phụ thuộc mẫu thử để định cỡ CH (sample-free), và năng lực đo được của TS không phụ thuộc vào bài trắc nghiệm cụ thể (item-free) được lấy từ ngân hàng câu hỏi (NHCH) đã được định cỡ.
Như vậy, theo IRT, mỗi CH có các thuộc tính đặc trưng cho nó, và mỗi TS ở một trình độ nào đó có một năng lực tiềm ẩn xác định, các thuộc tính và đặc trưng này không phụ thuộc vào phép đo, hoặc nói cách khác, chúng là các bất biến (invariance).
Cũng tương tự như trong phép đo độ dài: mỗi cái thước dùng để đo có kích thước và kiểu khắc độ xác định, mỗi vật để đo có chiều dài xác định, phép đo là sự so sánh cái thước với vật được đo để biết được chiều dài vốn có của vật được đo, các phép đo khác nhau không được làm thay đổi các thuộc tính vốn có của cái thước cũng như độ dài của vật được đo.
Thành tựu căn bản nói trên của IRT cũng đem lại số ưu điểm quan trọng cho trắc nghiệm hiện đại. IRT cho phép tính các hàm thông tin của từng CH và của cả ĐTN và sai số chuẩn của phép đo theo các mức năng lực tiềm ẩn chứ không phải một sai số chuẩn trung bình chung cho cả phép đo như trắc nghiệm cổ điển. Từ đó có thể thiết kế một ĐTN cho phép đo chính xác khoảng năng lực nào mà ta mong muốn.
Hơn nữa, IRT cho phép thiết kế các ĐTN với mức độ tương đương rất cao để đảm bảo các ĐTN khác nhau có thể cho cùng một kết quả như nhau khi đánh giá năng lực của một TS nào đó.
Các thành tựu quan trọng đó của IRT đã nâng độ chính xác của phép đo lường trong tâm lý và giáo dục lên một tầm cao mới về chất so với các lý thuyết đo lường cổ điển. Từ thành tựu tổng quát đó của IRT, người ta có thể đưa ra các quy trình để xây dựng NHCH (item banking), phân tích các kết quả TNKQ để tu chỉnh NHCH, chủ động thiết kế các đề trắc nghiệm (ĐTN) theo các mục tiêu mong muốn.
Việc ứng dụng các kết quả của khoa học đo lường hiện đại không chỉ giới hạn trong giáo dục. IRT áp dụng tốt cho các loại trắc nghiệm tâm lý, trắc nghiệm bệnh lý trong y tế, cho việc thiết kế các bảng hỏi và xử lý kết quả các cuộc điều tra tâm lý xã hội, điều tra thị trường khác nhau. Tóm lại, nó là công cụ quan trọng cho việc nghiên cứu các phản ứng của con người trong các khoa học hành vi.
Chính vì vậy mà ở các nước phát triển, đặc biệt là Mỹ, các công ty trắc nghiệm ETS, ACT áp dụng IRT cho các kỳ thi quan trọng để có kết quả xét tuyển vào đại học (SAT, ACT), sau đại học (GRE, GMAT…), tuyển dụng giáo viên (NTE); Viện Ý kiến công chúng Mỹ Gallup thiết kế các bản hỏi dùng để thăm dó ý kiến công chúng; các doanh nghiệp thiết kế công cụ để thăm dò ý kiến khách hàng v…v.. Ở Mỹ, trắc nghiệm thực sự trở thành một ngành công nghiệp lớn.
Việt Nam: Có thể và cần phải áp dụng ngay
Việc áp dụng khoa học đo lường về giáo dục vào thực tiễn hoạt động đánh giá ở nước ta vẫn diễn ra quá chậm chạp. Do đâu mà có tình trạng này? Theo chúng tôi, nguyên nhân chủ yếu là do những người có trách nhiệm trong giáo dục không đủ nhạy cảm để thấy tầm quan trọng của khoa học này và tác động của nó trong giáo dục cũng như trong nhiều lĩnh vực xã hội khác để quan tâm tìm hiểu nó và thúc đẩy sự phát triển của nó.
Tại sao Trung Quốc bắt đầu du nhập khoa học này từ đầu thập niên 1980 mà năm 1988 đã có thể tổ chức chính thức kỳ thi tuyển sinh ĐH trên toàn lục địa bằn công nghệ mới, trong khi chúng ta đã bắt đầu tiếp thu khoa học này từ đầu thập niên 1990, đã tổ chức thí điểm thi tuyển sinh tại Đà Lạt từ năm 1996 mà cho đến nay vẫn dẫm chân rất lâu ở giải pháp “3 chung”, trong đó hoàn toàn chưa áp dụng một tí gì thành tựu của khoa học đo lường trong giáo dục?
Tại sao cho đến nay các trường ĐH lớn có trách nhiệm về khoa học giáo dục của ta chưa xây dựng được bộ phận nào thích đáng để nghiên cứu và đào tạo về khoa học này?
Sắp đến, chúng ta sẽ áp dụng khoa học đo lường nào đây? Lý thuyết trắc nghiệm cổ điển hay hiện đại cho các kỳ thi quốc gia? Sự chuẩn bị của chúng ta cho đến nay ra sao? Ta có thể và cần phải đi ngay vào áp dụng lý thuyết trắc nghiệm hiện đại cho các hoạt động đánh giá, hay dừng lại ở lý thuyết trắc nghiệm cổ điển?
Ý kiến của chúng tôi là: chúng ta có thể và cần phải áp dụng ngay những thành tựu hiện đại của IRT vào các hoạt động đánh giá, đặc biệt là các kỳ thi quốc gia.
Chúng ta có thể, vì có những bộ phận đã chuẩn bị và tích lũy từ nhiều năm về khoa học này rải rác ở các trường ĐH. Vấn đề là các cơ quan chức năng của Nhà nước có muốn tập hợp các chuyên gia đó hay không. Chúng ta cần phải, vì không có lý do gì vẫn cứ sử dụng các lý thuyết và công nghệ cổ điển, trong khi đã có sẵn lý thuyết và công nghệ hiện đại.
Để triển khai hoạt động đánh giá cho các kỳ thi quốc gia chỉ cần có một số ít chuyên gia có đủ hiểu biết và có công nghệ, công cụ, còn sự đồng thuận của xã hội thì không khó đạt được bằng bộ máy tuyên truyền khổng lồ.
Hơn nữa, công nghệ hiện đại trong khi nâng cao được chất lượng đề thi và độ chính xác của việc đánh giá, nhưng hoàn toàn không gây khóa khăn gì cho thí sinh so với công nghệ cổ điển, do đó chẳng cần để cho thí sinh làm quen dần như có người đã nói. Còn đối với việc xây dựng ngân hàng câu hỏi và thiết kế đề thi, chúng ta đã có chuyên gia và công cụ, chỉ cần các cơ quan có trách nhiệm biết tổ chức và tập hợp. Có thể nêu một ví dụ để so sánh: nước ta mới có nhà máy sản xuất ô tô vài năm nay, tuy nhiên các nhà máy ô tô ở nước ta sẽ không dại gì sản xuất tung ra thị trường các kiểu ô tô của thế kỷ 19.
Còn trách nhiệm xây dựng các cơ sở nghiên cứu và đào tạo về khoa học đo lường trong giáo dục một cách bài bản đang nằm trên vai các trường ĐH lớn của nước ta, trước hết là các trường ĐH sư phạm.
-
GS.TSKH Lâm Quang Thiệp