Hiệu ứng rắn hổ mang, Luật Goodhart, Campbell & Chuyện thi cử
Last updated: September 14, 2024 Xem trên toàn màn hình
- 26 Jul 2024 "Khổ tận cam lai" - Làm thế nào để chuyển hóa từ khổ thành sướng?
- 03 Feb 2020 Chất lượng là gì? Đẳng cấp là gì? Cùng tìm hiểu toàn diện từ góc nhìn chuyên gia.
- 17 Mar 2020 Mô hình “Service Gaps Model” quản lý và cải thiện chất lượng dịch vụ
- 18 Jun 2021 Cost of Quality - Chi phí cho chất lượng sản phẩm là gì?
- 30 Jul 2021 14 Nguyên Tắc Quản Lý Của Deming Là Gì?
Hiệu ứng rắn Hổ Mang: Khi giải pháp tốt lại hóa thành vấn đề
Chuyện kể rằng khi Ấn Độ vẫn còn đang là thuộc địa của Anh, loài rắn hổ mang sinh trưởng rất mạnh ở thành phố Delhi. Đây là loài rắn độc, nếu bị cắn thì chắc chắn sẽ đe doạ mạng sống của cư dân thị thành. Vì vậy, chính quyền thành phố muốn kiểm soát tình hình. Họ nghĩ ra một giải pháp. Họ treo thưởng cho mỗi bộ da rắn khi người ta đem nộp. Thời gian sau đó, chương trình này đã tỏ ra hoạt động khá hiệu quả.
Tuy nhiên, sau một thời gian thì chính phủ thu được quá nhiều bộ da rắn và phát hiện ra rằng một số tay buôn thấy cơ hội kiếm tiền từ chương trình này nên đã quay sang chủ động nuôi rắn rồi giết để lấy da. Vì thế, chính quyền huỷ bỏ chương trình treo thưởng. Tưởng như vậy là xong, nhưng ít ai ngờ rằng sau đó vì không có người thu mua nên những người nuôi rắn thả xổng bầy rắn và một lần nữa Delhi lại chìm trong thảm hoạ rắn độc, với mức độ còn nguy hiểm hơn thời điểm ban đầu.
Hiệu ứng rắn hổ mang
Sau này nhà kinh tế học người Đức Horst Siebert đã đưa vào sử dụng thuật ngữ “Hiệu ứng Rắn Hổ Mang” (Corbra Effect) để chỉ ra một thực tế rằng nhiều khi chúng ta đang cố gắng giải quyết một vấn đề nào đó, giải pháp của chúng ta không những không hiệu quả mà còn làm cho vấn đề trở nên tồi tệ hơn. Người Việt ta thì có một câu nói tương tự là ‘chữa lợn lành thành lợn què’, phần nào cũng thể hiện được thực tế ấy.
Về sau, người ta cũng bắt đầu ghi nhận rất nhiều hiện tượng có biểu hiện tương tự. Đó là câu chuyện diệt chuột ở Hà Nội thời kỳ Pháp còn chiếm đóng Việt Nam. Do chuột gây ra dịch bệnh ở Hà Nội nên chính quyền đề nghị treo thưởng cho mỗi đuôi con chuột bị giết. Kết quả là người dân bắt đầu nuôi chuột để lấy đuôi. Khi chương trình bị huỷ, hàng đàn chuột lại bị thả ra, thoát ngược trở lại thành phố.
Một chuyện khác xảy ra ở khu quân sự của Hoa Kỳ Fort Benning, bang Georgia với nạn lợn rừng, quân đội đã treo thưởng 40 USD cho mỗi đuôi heo giao nộp. Mọi người bắt đầu mua đuôi heo từ những người bán thịt hoặc lò giết mổ với “giá buôn” và “bán lại” đuôi cho quân đội với giá cao để hưởng tiền chênh lệch.
Một số câu chuyện khác được ghi nhận trong xã hội là chính sách giảm ùn tắc giao thông và ô nhiễm không khí của Mexico City. Chính quyền muốn giải quyết vấn nạn ách tắc giao thông và xả thải bằng việc phân ngày chẵn ngày lẻ cho biển số xe tương ứng được phép lưu thông theo ngày. Kết quả là các hộ gia đình sau đó lại mua thêm xe để có thể chạy cả ngày chẵn và ngày lẻ, vì thế tăng lượng xe lưu thông và khí thải ra môi trường làm cho vấn đề càng tệ hại hơn. Nhiều hiện tượng hiệu ứng rắn hổ mang khác cũng vẫn tiếp tục được ghi nhận theo thời gian (xem thêm) và làm cho nó trở nên có tính quy luật (pattern) (nghe thêm về Cobra Effect bằng tiếng Anh tại đây).
Quy luật đó chính là nhiều khi ý tưởng ban đầu rất tốt nhưng người ta lại không thể lường trước được những hệ quả khác nó mang lại (unintended consequences) hay cũng chính là tính bất định/khả năng không dự đoán được (unpredictability) của các tiến trình xã hội. Có vẻ như tự nhiên, xã hội vận động, tiến hoá theo cách riêng của nó mà đôi khi những can thiệp thiển cận, áp đặt khó có thể chế ngự được nó. Do vậy cần biết nương theo nó.
Quy luật Goodhart: Giải mã căn bệnh thành tích
Ở Việt Nam có hiện tượng mà giới báo chí gọi là ‘bệnh thành tích’ trong giáo dục. ‘Bệnh’ này có thể giải thích bằng một qui luật mà có lẽ ít người biết đến: Qui luật Goodhart.
Qui luật này phát biểu rằng sự lẫn lộn giữa thước đo (chỉ tiêu) và mục tiêu là một sai lầm nghiêm trọng.
Bất kỳ sự đều đặn thống kê nào được quan sát sẽ có xu hướng bị phá vỡ khi áp lực được áp dụng cho mục đích kiểm soát.
Nguyên văn: Any observed statistical regularity will tend to break down when pressure is applied to it for control purposes
Những gì diễn ra trong chiến lược diệt chuột ở Hà Nội hay phong trào chạy theo chỉ số trích dẫn trong khoa học rất phù hợp với một qui luật xã hội mà sau này nhà kinh tế Charles Goodhart phát kiến. Có nhiều cách để diễn giải qui luật Goodhart, nhưng người diễn giải hay nhứt có lẽ là nhà nhân chủng học Marilyn Strathern, người tóm tắt như sau: .
Khi đuôi chuột được lấy làm thước đo để tưởng thưởng thì người ta sẽ tìm cách, kể cả những cách phi chính thống, để tăng ‘năng suất’, và trong quá trình đó thì mục tiêu diệt chuột hay làm vệ sinh thành phố đã bị biến dạng. Tương tự, khi chỉ số trích dẫn được lấy làm thước đo để đề bạt các chức vụ khoa bảng (như giáo sư, tiến sỹ, giảng viên) thì người ta (ứng viên) sẽ tìm mọi cách để tăng chỉ số đó cho cá nhân họ, họ sẵn sàng chà đạp đạo đức bằng cách đạo văn của những người đi trước để làm tác phẩm của mình, và cái mục tiêu ban đầu (nâng cao chất lượng khoa học) đã bị làm cho lệch lạc.
Người ta có thể đổ lỗi cho các ứng viên lạm dụng hệ thống, nhưng cái gốc là sự sai lầm của những người quản lý khoa học. Họ sai vì đã biến những thước đo định lượng thành những mục tiêu. Đó là một sai lầm do không quan sát Qui luật Goodhart.
Luật Campbell (Campbell’s Law)
Nếu quan sát kỹ hơn từ những mẩu chuyện trên, chúng ta cũng có thế thấy một quy luật khác nữa, đó là khi một nội dung nào đó được ưu tiên hoặc coi trọng quá mức, nó sẽ bị thao túng và dần trở nên mất tác dụng. Chẳng hạn như việc lấy đuôi chuột hoặc đuôi lợn, chắc chắn sẽ dễ dàng cho quá trình thu mua, trao thưởng, nhưng cái đuôi chẳng thể nào thay thế được cả con chuột hay con lợn. Vậy nên, nếu một bộ phận hay một nội dung nhỏ được đem ra dùng cho những mục đích quan trọng, tất yếu nó sẽ bị thao túng và giảm giá trị. Hiện tượng này được một nhà khoa học xã hội, nhà tâm lý học rất nổi tiếng Donald T. Campbell (1916-1996) đúc kết trong một bài báo đăng trên tạp chí Evaluation and Program Planning năm 1979 như một lời cảnh báo và sau này người ta vẫn quen gọi là Luật Campbell.
“Bất kỳ chỉ số xã hội định lượng nào càng được sử dụng cho những quyết định trong xã hội, nó càng có nguy cơ bị thao túng và có thiên hướng bóp méo và làm hỏng những tiến trình xã hội nó vốn được thiết kế ra để giám sát.” (Trang 85)
Nguyên văn: “The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.”
Như chúng ta vẫn thấy, xã hội hiện đại ngày càng dựa vào những chỉ số, những phép đo có thể lượng hoá để đưa ra các quyết định quan trọng. Và khi một hoặc một vài chỉ số được dùng, được coi trọng hay có giá trị hơn những yếu tố khác, chúng sẽ làm nảy sinh ra những hệ quả khác mà người ta không thể lường trước được. Đơn cử như trong giới hàn lâm, áp lực về “xuất bản hay là chết” ở một số quốc gia đang phát triển đã mở đường cho một ngành công nghiệp xuất bản ‘mờ’ khi mà người ta chỉ cần trả tiền là có thể đăng bài vì các trường chỉ quan tâm đến số lượng ấn phẩm, lấy con số làm tiêu chí treo thưởng, đánh giá, xếp loại. Đơn thuần chỉ bằng việc quan sát các sự việc hàng ngày khi người ta tập trung vào một vài nội dung nhất định (thường là các con số) để treo thưởng, để thi đua, để bình xét thì hệ quả sau đó là số liệu giả, báo cáo sai, và bệnh thành tích tràn lan khắp chốn.
Chuyện đo lường trong giáo dục
Chỉ cần quan tâm một chút về khảo thí, về kiểm tra đánh giá thì hầu như ai cũng biết cần phải nói về validity, để xem một công cụ có đo được điều mà người ta thiết kế nó ra để đo hay không. Có thể nói validity là một nội dung cốt lõi trong đo lường, trong nghiên cứu để người ta có thể đánh giá xem những diễn giải, nhận định đưa ra có hợp lý hay không hợp lý, hay đơn giản nó có ‘valid’ hay không. Và cũng từ rất lâu, người ta đồng thuận với nhau rằng, ít nhất trong cộng đồng những người làm về đo lường trong giáo dục, validity không nằm trong công cụ, không phải là một đặc tính của bài thi, bài kiểm tra mà chính là việc diễn giải và sử dụng kết quả của bài thi, bài kiểm tra hay công cụ đo lường mới valid hay không valid (hợp lý hay không hợp lý). Từ năm 1989, Messick đã đưa ra định nghĩa về validity như là một khái niệm thống nhất như sau:
Validity là một nhận định tích hợp mang tính đánh giá về mức độ mà các minh chứng và các lý luận ủng hộ cho mức độ đầy đủ và phù hợp của những suy luận và những hành động được đưa ra dựa trên kết quả bài kiểm tra hay các hình thức đánh giá khác. (trang 13, in nghiêng trong văn bản gốc).
Nguyên văn: Validity is an integrated evaluative judgement of the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment.
Chính vì điều này mà người ta cũng đồng thuận với nhau rằng chẳng thế nào có một công cụ vạn năng để ‘đo tuốt’ những điều cần đo. Và cũng do việc diễn giải và sử dụng kết quả của bài thi là khác nhau, nên chẳng thể lẫn lộn chúng vào với nhau. Cũng chính vì vậy mà mới có hai cách tiếp cận trong đo lường, đánh giá, (1) xét xem thí sinh có đạt được tiêu chí nào đó (criterion-referenced testing); (2) dựa trên mối tương quan giữa các thí sinh với nhau, có chức năng phân loại thí sinh (norm-referenced testing). Với mỗi cách tiếp cận lại có quy trình, công cụ khác nhau để triển khai, phân tích, giám sát, báo cáo kết quả và cả tác động ngược của chúng tới xã hội nữa…
Rõ ràng khi học sinh kết thúc THPT, người ta muốn biết xem các em có đạt được những mục tiêu mà chương trình giáo dục đề ra hay không và chúng ta cũng kỳ vọng đa số các em đạt được những mục tiêu, những tiêu chí cần thiết trước khi tốt nghiệp hay đơn giản hơn là đa số các em đỗ tốt nghiệp. Và với mục tiêu này, cách tiếp cận dựa vào tiêu chí (criterion-referenced testing) trong khảo thí sẽ khả dĩ hơn và phù hợp hơn. Câu chuyện lúc này không phải đề thi khó hay dễ, mà đề thi có phù hợp, có bao quát kiến thức trong chương trình phổ thông hay không, có đo được những mục tiêu giáo dục đề ra trước đó hay không. Nhưng nhiều học sinh sau khi tốt nghiệp THPT lại muốn tiếp tục sự nghiệp học hành nên muốn vào đại học. Lúc này các trường muốn chọn những học sinh tốt nhất vào trường mình, do đó họ cần kết quả từ một bài thi mà có thể biết được tương quan trình độ, kiến thức, kỹ năng của các học sinh với nhau. Và như vậy, bài thi theo cách tiếp cận norm-referenced lại trở nên phù hợp. Câu chuyện lúc này sẽ là bài thi có phân loại tốt thí sinh hay không, độ khó câu hỏi có đủ bao quát hay không, phổ điểm có tuân theo luật phân bố chuẩn hay không…
Và câu chuyện kỳ thi 2 trong 1
Ngày xửa ngày xưa, người ta chỉ tổ chức xét tốt nghiệp, rồi thi tốt nghiệp các cấp ở phổ thông. Thi đại học thì các trường tự tổ chức thi riêng, mỗi trường tự ra đề và tự chấm và chọn thí sinh theo các khối có sự giám sát của bộ GD & ĐT (trước năm 2001). Thời ấy, vào được đại học là một niềm vinh dự lớn cho cả gia đình, dòng họ, xóm làng và thời ấy cũng rất ít trường đại học. Thế nên, để các trường tự tổ chức cũng có nhiều bất cập, nhất là phải làm sao đảm bảo tính công bằng, khách quan cho tất cả những người tham gia ứng thi nếu không chuyện có ông chú công tác ở trong trường đại học hay cát cứ luyện thi là một kẽ hở lớn. Rất cần một sự đổi mới…
Thế là giải pháp về kỳ thi 3 chung xuất hiện: chung đề, chung đợt, chung dùng kết quả thi được áp dụng từ năm 2002 cho tới năm 2014 với giải pháp tăng cường trắc nghiệm khách quan đưa vào từ năm 2006. Hệ quả của giải pháp này là việc học tủ, học lệch & luyện thi tràn lan khắp cõi như một vấn đề nhức nhối cho xã hội. Người ta ghi nhận những tác động không mong muốn của các bài thi này lên chương trình, lên quá trình dạy và học. Rất cần một sự đổi mới…
Vậy là từ năm 2015, kỳ thi trung học phổ thông quốc gia, còn gọi là kỳ thi 2 trong 1, được gộp bởi hai kỳ thi là Kỳ thi tốt nghiệp trung học phổ thông và Kì thi tuyển sinh đại học và cao đẳng, kỳ thi này xét cho thí sinh hai nguyện vọng: tốt nghiệp trung học phổ thông và tuyển sinh đại học, cao đẳng, nhằm giảm bớt tình trạng luyện thi, học tủ, học lệch và giảm bớt chi phí. Trong hai năm đầu có vẻ tạm ổn mặc dù vẫn có rất nhiều ý kiến trái chiều nên nhập hay nên tách. Nhưng năm 2017 và 2018 là thời điểm rất nhiều hiện tượng lạ đã bắt đầu bộc lộ. Đó chính là câu chuyện của Hà Giang xuất hiện trên hầu hết các mặt báo và mạng xã hội những ngày gần đây. Điều gì đang diễn ra thế này?
Một vài chiêm nghiệm
Hiệu ứng rắn hổ mang cho chúng ta thấy giải pháp đổi mới có vẻ hữu dụng trong thời gian đầu, nhưng hệ luỵ của nó thì không thể dự đoán được. (câu chuyện lúc này không chỉ là chuyện thi cử, mà còn cả là niềm tin xã hội, tâm lý xã hội). Tác động của nó tới đâu chúng ta khó mà biết được. Thêm vào đó, nếu muốn lấy việc kiểm tra đánh giá như khâu đột phá để đổi mới giáo dục mà chỉ tập trung vào đánh giá những ‘cái đuôi‘ thì thật khó để có tác động ngược tích cực tới quá trình dạy và học. Một bài thi, một bài kiểm tra không thể đo hết được trình độ, năng lực của người học mà ta cứ chăm chăm vào đó thì sẽ còn nhiều hệ luỵ khác nảy sinh. <năm 2015 khi biết việc có kỳ thi hai trong một tôi lấy làm tiếc và chia sẻ bài viết của James Popham, một trong những chuyên gia về khảo thí, giáo sư trường UCLA một bài rất đáng đọc và tham khảo có tên: Criterion-Referenced Measurement: Half a Century Wasted? và sau đó cũng thấy xuất hiện các bài viết trên báo phổ thông thảo luận về hai cách tiếp cận trong đo lường, nhưng cũng còn ít người quan tâm lắm>
Luật Campbell cho chúng ta thấy kỳ thi 2 trong 1 có sẽ có nguy cơ bị thao túng cao vì tầm quan trọng của nó lớn quá (high stakes). Nó được dùng cho cả hai quyết định (tốt nghiệp, trúng tuyển) thay vì 1 quyết định như trước đây. Những kỳ thi trước đây tách riêng thi đại học, cao đẳng và thi tốt nghiệp THPT thì ít nhiều cũng không trao cho một kỳ nào quá nhiều đặc quyền. Vì khi có đặc quyền, người ta sẽ thao túng, bóp méo nó để đạt được những mục đích khác nhau. Luật Campbell đã đúng ở nhiều nơi, nhiều bối cảnh, nhiều văn hoá chứ không chỉ đúng trong trường hợp này. Ở Hoa Kỳ ai cũng biết tới vụ bê bối Atlanta khi giáo viên và nhà quản lý sửa điểm cho học sinh. Những bài thi đơn thuần chỉ là công cụ, nhưng khi người ta sử dụng nó cho những mục đích quan trọng (đưa ra những quyết định ảnh hưởng tới cuộc sống của con người như đỗ trượt, đánh giá giáo viên, tăng lương, bổ nhiệm, ký hợp đồng…), bài thi sẽ có sức mạnh ghê gớm. Chúng cần thiết, hữu dụng nếu được dùng một cách phù hợp, nếu không chúng sẽ trở nên ‘bạo quyền’ cho dù đó là bài thi, các chỉ số xã hội, các tiêu chí định lượng (bài báo ISI…) (đọc thêm cuốn sách của Jerry Z. Muller, 2018 có tên “The Tyranny of Metrics” để thấy được những hệ luỵ và mặt trái của chỉ số, đo lường).
Hiểu biết về đo lường trong giáo dục cho chúng ta thấy kỳ thi 2 trong 1 rối rắm ngay từ đầu khi lồng ghép hai mục tiêu khác nhau vào một công cụ đo lường. Mong muốn ‘nhất cử lưỡng tiện’ chắc cần xét lại. Những gì đang diễn ra chỉ là hiện tượng, bể nổi của tảng băng chìm và nó là chỉ dấu để cho chúng ta cùng xem lại bản chất vấn đề (kỳ thi) và các vấn đề (xã hội). Chả trách ai được, nếu có trách thì cũng phải là ‘tại anh, tại ả, tại cả đôi bên’. Nên chăng từ những năm sau, bộ chỉ lo kỳ thi tốt nghiệp trung học phổ thông và kiểm định đầu ra của các trường đại học, cao đẳng. Việc tuyển sinh lại trả về các trường đại học, tự tổ chức thi, tự xét học bạ hoặc dùng nhiều kênh thông tin khác nhau vì một bài kiểm tra, một bài thi không thể nào bao quát được hết năng lực, trình độ, kiến thức, kỹ năng của người học/thí sinh. Việc các trường tự tổ chức thi riêng sẽ ở trong bối cảnh khác trước đây vì vào đại học giờ đây không phải con đường duy nhất, người học có nhiều lựa chọn và các trường cũng cần người học. Họ cũng phải làm sao để giữ được ‘chén cơm’ cho mình. Đổi mới đôi khi không cần đao to búa lớn hay những dự án ngàn tỉ, mà chỉ cần nương theo sự vận động có tính tất yếu (theo lý luận Mác-Lê :)).
Đôi khi không làm gì (không can thiệp, vô vi) lại thành ra làm được rất nhiều há chẳng phải là trí khôn từ ngàn xưa để lại hay sao…
- [1] Qui luật Goodhart do một nhà kinh tế người Anh tên là Charles Goodhart phát kiến trong một bài báo năm 1975. Goodhart quan sát rằng bất cứ một qui tắc thống kê nào đều có xu hướng bị sụp đổ khi bị áp lực dùng cho mục tiêu kiểm soát.
- [2] Chi tiết về chiến lược tàn sát rắn hổ mang ở Ấn Độ và tàn sát chuột ở Hà Nội có thể xem qua bài này: Hiệu ứng “rắn hổ mang” (Cobra effect): Khi giải pháp trở thành vấn đề, tưởng vui lại hóa xui.