Should teacher observation systems be used for making high-stakes decisions?

Michael Strong; Jaehoon Lee; John Gargani; Minju Yi; Hyunjin Shim; Hyunchang Moon

Should teacher observation systems be used for making high-stakes decisions?

Michael Strong ^[1] ; Jaehoon Lee ^[1] ; John Gargani ^[3] ; Minju Yi ^[1] ; Hyunjin Shim ^[1] ; Hyunchang Moon ^[2]
1. [1] Texas Tech University
  
  Texas Tech University
  
  Estados Unidos
2. [2] Augusta University
  
  Augusta University
  
  Estados Unidos
3. [3] Gargani + Co.
Mostrar afiliaciones +
Localización: Archivos Analíticos de Políticas Educativas=Education Policy Analysis Archives, ISSN-e 1068-2341, Vol. 34, Nº. 1, 2026
Idioma: inglés
DOI: 10.14507/epaa.34.9841
Títulos paralelos:
- ¿Deben utilizarse los sistemas de observación docente para la toma de decisiones de alto impacto?
- Os sistemas de observação docente devem ser utilizados para a tomada de decisões de alto impacto?
Enlaces
- Texto completo
Resumen
- español
  Este estudio cuestiona la idoneidad de los datos provenientes de la observación de la enseñanza para la toma de decisiones de alto impacto que afectan al profesorado. Definimos la idoneidad como el grado en que los propósitos previstos se logran sin causar daños indebidos y sostenemos que esta depende fundamentalmente de las propiedades técnicas de los datos producidos por un sistema de observación, las cuales, a su vez, dependen de los atributos diseñados en dicho sistema. Realizamos un experimento para comprender mejor la relación entre los atributos de los sistemas de observación docente y la idoneidad de los datos que generan. Comparamos tres sistemas con atributos diferentes, incluidos instrumentos de rúbricas que imponen distintas cargas inferenciales a los evaluadores. Evaluadores con experiencia fueron asignados aleatoriamente a un sistema y recibieron capacitación adecuada. Posteriormente, evaluaron la enseñanza de candidatos avanzados a docentes mediante la visualización de videos de sus clases. Consideramos tres criterios para valorar los datos resultantes: la capacidad predictiva de la contribución del docente al aprendizaje estudiantil, la correlación de las puntuaciones entre sistemas y el grado de acuerdo entre evaluadores dentro de cada sistema. Encontramos que un sistema con baja carga inferencial (junto con otros atributos) superó a los sistemas con mayores cargas inferenciales; sin embargo, aun así podría resultar insuficiente para tomar decisiones de alto impacto con plena confianza. Sostenemos que pocos, si es que alguno, de los sistemas de observación ampliamente utilizados cumplen con este estándar.
- português
  Este estudo questiona a adequação dos dados de observação da prática docente para a tomada de decisões de alto impacto que afetam professores. Definimos adequação como o grau em que os propósitos pretendidos são alcançados sem causar danos indevidos e argumentamos que ela depende fundamentalmente das propriedades técnicas dos dados produzidos por um sistema de observação, as quais, por sua vez, dependem dos atributos incorporados ao seu desenho. Conduzimos um experimento para compreender melhor a relação entre os atributos dos sistemas de observação docente e a adequação dos dados por eles gerados. Comparamos três sistemas com atributos distintos, incluindo rubricas que impõem diferentes níveis de carga inferencial aos avaliadores. Avaliadores experientes foram designados aleatoriamente a um dos sistemas e devidamente treinados. Em seguida, avaliaram a prática de candidatos avançados à docência por meio da observação de vídeos de suas aulas. Consideramos três critérios para julgar os dados resultantes: o poder de prever a contribuição do professor para a aprendizagem dos estudantes, a correlação das pontuações entre os sistemas e o grau de concordância entre avaliadores dentro de cada sistema. Constatamos que um sistema com baixa carga inferencial (associada a outros atributos) superou aqueles com cargas inferenciais mais elevadas; ainda assim, pode não ser suficiente para sustentar decisões de alto impacto com segurança. Sustentamos que poucos, se é que algum, dos sistemas de observação amplamente utilizados atendem a esse padrão.
- English
  This study questions the suitability of teaching observation data for making high-stakes decisions that affect teachers. We define suitability (the extent to which intended purposes are advanced without causing undue harm) and argue that it fundamentally depends on the technical properties of the data produced by an observation system, which, in turn, depend on the attributes designed into the system. We conducted an experiment to understand better the relationship between the attributes of teaching observation systems and the suitability of their data. We compared three systems with different attributes, including rubrics that impose varying inference loads on raters. Experienced raters were randomly assigned to a system and properly trained. Then, they evaluated the instruction of advanced teacher candidates by viewing videos of their lessons. We considered three criteria when judging the resulting data: the power to predict a teacher’s contribution to student learning, the correlation of scores across systems, and rater agreement within systems. We found that a system with a low inference load (along with other attributes) outperformed systems with higher inference loads, but it may still be insufficient for making confident, high-stakes decisions. We maintain that few, if any, widely used observation systems are.