Forschung

Die Arbeiten der Abteilung gliedern sich in sieben Themenbereiche:

Methodik von Large-Scale Assessment Studien

Im Zentrum von Large-Scale Assessment Studien wie z. B. PISA, PIRLS oder TIMSS steht die Bestimmung der Verteilung schulischer Kompetenzen in verschiedenen inhaltlichen Domänen (z.B. Mathematik, Lesen) und der Zusammenhang dieser Kompetenzen zu zentralen Hintergrundvariablen (z.B. sozioökonomischer Status). Für die Auswertung werden zunächst mit Hilfe von Verfahren der Item-Response-Theorie (IRT) die Testaufgaben skaliert und dann im nächsten Schritt die Verteilung der Kompetenzen sowie deren Zusammenhänge zu Kovariaten bestimmt. Die Abteilung arbeitet in diesem Bereich primär zu folgenden Themen:

  1. Entwicklung und Evaluation von IRT-Modellen in Large-Scale Assessment Studien [1],
  2. Evaluation von Linking-Verfahren und Linkingfehlern bei der Schätzung von Gruppenvergleichen oder Trends, insbesondere bei Vorliegen von Differential Item Functioning (DIF) [2,3,4],
  3. Methoden zur Schätzung des Hintergrundmodells für die Generierung von Plausible Values [5].

[1] Robitzsch, A. & Lüdtke, O. (2022). Some thoughts on analytical choices in the scaling model for test scores in international large-scale assessments. Measurement Instruments for the Social Sciences 4, 9 https://doi.org/10.1186/s42409-022-00039-w

[2] Robitzsch, A. & Lüdtke, O. (2022). Mean comparisons of many groups in the presence of DIF: An evaluation of linking and scaling approaches. Journal of Educational and Behavioral Statistics, 47, 36–68. https://doi.org/10.3102/10769986211017479

[3] Robitzsch, A., & Lüdtke, O. (2019). Linking errors in international large-scale assessments: Calculation of standard errors for trend estimation. Assessment in Education: Principles, Policy & Practice, 26, 444-465. https://doi.org/10.1080/0969594X.2018.1433633

[4] Robitzsch, A., & Lüdtke, O. (2023). Comparing different trend estimation approaches in country means and standard deviations in international large-scale assessment studies. Large Scale Assessments in Education, 11, 26. https://doi.org/10.1186/s40536-023-00176-6

[5] Grund, S., Lüdtke, O., & Robitzsch, A. (2021). On the treatment of missing data in background questionnaires in educational large-scale assessments: An evaluation of different procedures. Journal of Educational and Behavioral Statistics, 46, 430-465. https://doi.org/10.3102/1076998620959058

Schätzung von Latente-Variablen-Modellen

Es werden Ansätze zur Schätzung von Latente-Variablen-Modellen evaluiert und weiterentwickelt, die es ermöglichen, psychologische Konstrukte wie schulische Kompetenzen und Persönlichkeit über die Zeit und verschiedene Gruppen flexibel zu analysieren. Ein Fokus liegt auf Ansätzen zur Stabilisierung von Parameterschätzungen in Latente-Variablen-Modellen, insbesondere bei kleinen Stichprobengrößen. Dazu werden Markov-Chain-Monte-Carlo und Penalized Maximum Likelihood Verfahren eingesetzt [1,2,3]. Weitere Arbeitsschwerpunkte in diesem Bereich liegen in der Entwicklung von robusten Schätzverfahren für Latente-Variablen-Modelle [4] sowie der adäquaten Modellierung von beruflichen Interessen mit Hilfe von Circumplex-Modellen [5,6].

[1] Lüdtke, O., Robitzsch, A., & Wagner, J. (2018). More stable estimation of the STARTS model: A Bayesian approach using Markov Chain Monte Carlo techniques. Psychological Methods, 23(3), 570-593. https://doi.org/10.1037/met0000155

[2] Lüdtke, O., Ulitzsch, E., & Robitzsch, A. (2021). A comparison of penalized maximum likelihood estimation and Markov chain Monte Carlo techniques for estimating confirmatory factor analysis models with small sample sizes. Frontiers in Psychology, 12, 615162. https://doi.org/10.3389/fpsyg.2021.615162

[3] Ulitzsch, E., Lüdtke, O., & Robitzsch, A. (2023). Alleviating estimation problems in small sample structural equation modeling – A comparison of constrained maximum likelihood, Bayesian, and fixed reliability single indicators approaches. Psychological Methods, 3, 527–557.  https://doi.org/10.1037/met0000435

[4] Robitzsch, A. (2023). Model-robust estimation of multiple-group structural equation models. Algorithms, 16(4), 210. https://doi.org/10.3390/a16040210

[5] Nagy, G., Etzel, J., & Lüdtke, O. (2019). Integrating covariates into circumplex structures: An extension procedure for Browne’s circular stochastic process model. Multivariate Behavioral Research, 54(3), 404­–428. https://doi.org/10.1080/00273171.2018.1534678

[6] Nagy, G., Brunner, M., Lüdtke, O., & Greiff, S. (2017). Extension procedures for confirmatory factor analysis. The Journal of Experimental Education, 85(4), 574–596. https://doi.org/10.1080/00220973.2016.1260524

Statistische Modellierung von Testbearbeitungsverhalten

Ein Teil der in diesem Bereich verorteten Forschung widmet sich der Entwicklung und Erprobung statistischer Verfahren zur Identifikation von Antworten mit geringem diagnostischem Gehalt (nachlässige und nicht-engagierte Antworten). Basierten auf dem sogenannten Positionseffekt wurden IRT-Modelle zur Identifikation nachlässiger Antworten in Fragebögen [1] und Leistungstests [2] vorgestellt. Zudem wurden Verfahren entwickelt, die die Nutzung von Antwortzeiten in computeradministrierten Fragebögen [3,4] und Leistungstests [5] zur Identifikation nachlässiger und nicht-engagierter Antworten ermöglichen und diese mit Effekten der Itemposition kombinieren [6].

Ein weiterer Teil der Forschung widmet sich der Entwicklung und Anwendung explorativer Verfahren der Sequenzmusteranalyse um Problemlöseprozessen in simulierten Umgebungen (beispielsweise simulierte Web-Umgebungen) zu untersuchen. Es wurden Clustering-Prozeduren für Aktionssequenzen aus interaktiven Aufgaben vorgeschlagen, die Gruppen typischer Sequenzen bündeln und es dadurch ermöglichen unterschiedliche Bearbeitungsstrategien zu identifizieren [7,8]. Ebenso wurde mittels Verfahren des maschinellen Lernens gezeigt, dass es möglich ist, den Erfolg der angewandten Strategie bereits mit den zu Beginn des Lösungsprozesses ausgeführten Aktionen vorherzusagen [9].

[1] Ulitzsch, E., Yildirim‐Erbasli, S. N., Gorgun, G., & Bulut, O. (2022). An explanatory mixture IRT model for careless and insufficient effort responding in self‐report measures. British Journal of Mathematical and Statistical Psychology, 75(3), 668-698. https://doi.org/10.1111/bmsp.12272

[2] Nagy, G., Nagengast, B., Frey, A., Becker, M., & Rose, N. (2019). A multilevel study of position effects in PISA achievement tests: Student-and school-level predictors in the German tracked school system. Assessment in Education: Principles, Policy & Practice, 26(4), 422-443. https://doi.org/10.1080/0969594X.2018.1449100

[3] Ulitzsch, E., Pohl, S., Khorramdel, L., Kroehne, U., & von Davier, M. (2022). A response-time-based latent response mixture model for identifying and modeling careless and insufficient effort responding in survey data. Psychometrika, 87(2), 593-619. https://doi.org/10.1007/s11336-022-09846-w

[4] Ulitzsch, E., Shin, H. J., & Lüdtke, O. (2023). Accounting for careless and insufficient effort responding in large-scale survey data—Development, evaluation, and application of a screen-time-based weighting procedure. Behavior Research Methods, 1–22. https://doi.org/10.3758/s13428-022-02053-6

[5] Nagy, G., & Ulitzsch, E. (2022). A multilevel mixture IRT framework for modeling response times as predictors or indicators of response engagement in IRT models. Educational and Psychological Measurement, 82(5), 845-879. https://doi.org/10.1177/00131644211045351

[6] Nagy, G., Ulitzsch, E., & Lindner, M. A. (2023). The role of rapid guessing and test‐taking persistence in modelling test‐taking engagement. Journal of Computer Assisted Learning, 39(3), 751-766. https://doi.org/10.1111/jcal.12719

[7] Ulitzsch, E., He, Q., Ulitzsch, V., Molter, H., Nichterlein, A., Niedermeier, R., & Pohl, S. (2021). Combining clickstream analyses and graph-modeled data clustering for identifying common response processes. Psychometrika, 86, 190-214. https://doi.org/10.1007/s11336-020-09743-0

[8] Ulitzsch, E., He, Q., & Pohl, S. (2022). Using sequence mining techniques for understanding incorrect behavioral patterns on interactive tasks. Journal of Educational and Behavioral Statistics, 47(1), 3-35. https://doi.org/10.3102/10769986211010467

[9] Ulitzsch, E., Ulitzsch, V., He, Q., & Lüdtke, O. (2023). A machine learning-based procedure for leveraging clickstream data to investigate early predictability of failure on interactive tasks. Behavior Research Methods, 55(3), 1392-1412. https://doi.org/10.3758/s13428-022-01844-1

Mehrebenenmodelle

Merkmale des sozialen Kontextes, wie z. B. der Unterricht oder die soziale Zusammensetzung einer Schule, sind wichtige Determinanten schulischer Lernergebnisse. Mehrebenenstruktur-gleichungsmodelle erlauben die Modellierung von Kontexteffekten und können für unterschiedliche Typen von Messfehlern korrigieren („doubly latent“) [1,2]. Des Weiteren wurde gezeigt, dass mit Hilfe des Einsatzes von Bayes-Verfahren [3] die Schätzung von Mehrebenenstruktur-gleichungsmodellen in problematischen Datenkonstellationen (z. B. kleine Anzahl von Klassen, geringe Reliabilität) optimiert werden kann. Ein zusätzlicher Fokus liegt auf der Analyse komplexerer Mehrebenenstrukturen, wie sie bei der Erhebung von Netzwerkdaten (etwa Round-Robin-Designs, in denen die Schülerinnen und Schüler sich gegenseitig beurteilen) oder der Beurteilung des Unterrichts aus verschiedenen Perspektiven (z. B. Schülerinnen und Schüler, Lehrkräfte, externe Beobachtende) auftreten [4]. Es wurde ein allgemeiner Ansatz zur Auswertung des Social Relations Model (SRM) entwickelt, der auf einer Integration von Mehrebenenmodellen mit kreuzklassifizierten Zufallseffekten und Strukturgleichungsmodellen beruht [5,6]. Der Ansatz ist in dem R-Paket srm implementiert.

[1] Lüdtke, O., Marsh, H.W., Robitzsch, A., Trautwein, U., Asparouhov, T. & Muthén, B. (2008). The multilevel latent covariate model: A new, more reliable approach to group-level effects in contextual studies. Psychological Methods, 13, 203-229. https://psycnet.apa.org/doi/10.1037/a0012869

[2] Lüdtke, O., Marsh, H. W., Robitzsch, A., & Trautwein, U. (2011). A 2x2 taxonomy of multilevel latent contextual model: Accuracy-bias trade-offs in full and partial error correction models. Psychological Methods, 16, 444–467. https://psycnet.apa.org/doi/10.1037/a0024376

[3] Zitzmann, S., Lüdtke, O., Robitzsch, A., & Marsh, H. W. (2016). A Bayesian approach to estimating latent contextual models. Structural Equation Modelling, 23, 661–679. https://doi.org/10.1080/10705511.2016.1207179

[4] Lüdtke, O., Robitzsch, A., Kenny, D. A., & Trautwein, U. (2013). A general and flexible approach to estimating the social relations model using Bayesian methods. Psychological Methods, 18, 101–119. https://psycnet.apa.org/doi/10.1037/a0029252

[5] Nestler, S., Lüdtke, O., & Robitzsch, A. (2022). Analyzing longitudinal social relations model data using the social relations structural equation model. Journal of Educational and Behavioral Statistics, 47, 231–260. https://doi.org/10.3102/10769986211056541

[6] Nestler, S., Lüdtke, O., & Robitzsch, A. (2020). Maximum likelihood estimation of a social relations structural equation model. Psychometrika, 85, 870–889. https://doi.org/10.1007/s11336-020-09728-z

Missing Data Methoden

Statistische Auswertungen in der Bildungsforschung werden häufig dadurch erschwert, dass nicht für jede Personen, die für eine Studie ausgewählt wurden, tatsächlich auch alle Angaben vorliegen (Missing Data), da manche entweder einzelne Fragen auslassen oder gar nicht erst an der Untersuchung teilnehmen. Fehlende Werte in einem Datensatz können – aufgrund des Datenausfalls – zu weniger effizienten und verzerrten Parameterschätzungen führen. Bei dem Verfahren der multiplen Imputation (MI) werden auf der Grundlage eines Imputationsmodells mehrere Ersetzungen für die fehlenden Beobachtungen in einem Datensatz erzeugt, die die mit der Ersetzung verbundene Unsicherheit berücksichtigen. Die Abteilung arbeitet schwerpunktmäßig an folgenden Forschungsthemen:

  1. Multiple Imputation von Daten mit einer hierarchischen [1,2], kreuz-klassifizierten [3], oder multiple-membership Mehrebenenstrukt
  2. Imputation von Daten, wenn Analysemodelle mit nichtlinearen Effekten von Interesse sind [4,5]
  3. Statistische Inferenz für multipel imputierte Datensätze [6,7]
  4. Imputation von Daten mit einer großen Anzahl von Variablen
  5. Methoden zur Generierung synthetischer Daten [8]

[1] Grund, S., Lüdtke, O., & Robitzsch, A. (2018). Multiple imputation of multilevel data in organizational research. Organizational Research Methods, 21(1), 111-149. https://doi.org/10.1177/1094428117703686

[2] Grund, S., Lüdtke, O., & Robitzsch, A. (2018). Multiple imputation of missing data at level 2: A comparison of fully conditional and joint modeling in multilevel designs. Journal of Educational and Behavioral Statistics, 43(3), 316-353. https://doi.org/10.3102/1076998617738087

[3] Grund, S., Lüdtke, O., & Robitzsch, A. (2023). Handling missing data in cross-classified multilevel analyses: An evaluation of different multiple imputation approaches. Journal of Educational and Behavioral Statistics, 48, 454–489. https://doi.org/10.3102/10769986231151224

[4] Lüdtke, O., Robitzsch, A., & West, S. G. (2020). Regression models involving nonlinear effects with missing data: A sequential modeling approach using Bayesian estimation. Psychological Methods, 25, 157-181. http://dx.doi.org/10.1037/met0000233

[5] Grund, S., Lüdtke, O., & Robitzsch, A. (2021). Multiple imputation of missing data in multilevel models with the R package mdmb: A flexible sequential modeling approach. Behavior Research Methods, 53, 2631–2649. https://doi.org/10.3758/s13428-020-01530-0

[6] Grund, S., Lüdtke, O., & Robitzsch, A. (2016). Pooling ANOVA results from multiply imputed datasets: A simulation study. Methodology, 12, 75–88.

[7] Grund, S., Lüdtke, O., & Robitzsch, A. (2023). Pooling methods for likelihood ratio tests in multiply imputed data. Psychological Methods. https://doi.org/10.1037/met0000556

[8] Grund, S., Lüdtke, O., & Robitzsch, A. (2022). Using synthetic data to improve the reproducibility of statistical results in psychological research. Psychological Methods.

Schätzung von kausalen Effekten

Aus der Sicht einer evidenzbasierten Bildungsforschung besteht ein besonderes Interesse an belastbaren kausalen Schlussfolgerungen über die Wirksamkeit gezielter Veränderungen im Bildungssystem. Es werden statistische Verfahren untersucht, die auch bei fehlender Randomisierung eine zumindest vorsichtige kausale Interpretation von Zusammenhangsmustern ermöglichen sollen. Arbeitsschwerpunkte bestehen in der Evaluation von verschiedenen Gewichtungsansätzen (z. B. von Propensity-Score-Gewichten) zur Schätzung von kausalen Effekten, wenn die Daten eine Mehrebenenstruktur besitzen und das Treatment auf Ebene 1 angesiedelt ist (z. B. Schüler/innen erhalten Nachhilfe vs. keine Nachhilfe) [1]. Ein weiterer Arbeitsschwerpunkt liegt auf dem Potenzial von Längsschnittdaten zur Schätzung von kausalen Effekten [2]. In der empirischen Bildungsforschung werden häufig Cross-Lagged-Paneldesigns umgesetzt, in denen (mindestens) zwei Variablen (Xt und Yt) über die Zeit erhoben werden. Es wurden Bedingungen herausgearbeitet, die für eine kausale Interpretation der Cross-Lagged-Effekte erfüllt sein müssen [3]. Ein weiterer Schwerpunkt beschäftigt sich mit der Schätzung längsschnittlicher Treatment-Effekte [4].

[1] Fuentes, A., Lüdtke, O., & Robitzsch, A. (2022). Causal inference with multilevel data: A comparison of different propensity score weighting approaches. Multivariate Behavioral Research, 57, 916-939. https://doi.org/10.1080/00273171.2021.1925521

[2] Lüdtke, O., & Robitzsch, A. (2023). ANCOVA vs. change score for the analysis of two-wave data. Journal of Experimental Education. https://doi.org/10.1080/00220973.2023.2246187

[3] Lüdtke, O. & Robitzsch, A. (2022). A comparison of different approaches for estimating cross-lagged effects from a causal inference perspective. Structural Equation Modeling, 29, 888–907. https://doi.org/10.1080/10705511.2022.2065278

[4] Lüdtke, O., & Robitzsch, A. (2020). Commentary regarding the section 'Modeling the effectiveness of teaching quality: Methodological challenges in assessing the causal effects of teaching. Zeitschrift für Pädagogik, 66, 210–222. https://psyarxiv.com/bpk4a/

Anwendungen von statistischen Verfahren

Der letzte Themenbereich umfasst die Anwendung von statistischen Methoden zur Beantwortung von inhaltlichen Fragestellungen. Die Schwerpunkte liegen in den folgenden Bereichen:

  1. Entwicklung und Struktur von beruflichen Interessen [1,2]
  2. Methodische Fallstudien im Bereich von Large-Scale Assessment Studien [3,4]
  3. Erfassung von schulischen Kontext- und Unterrichtseffekten [5,6]
  4. Modellierung der individuellen Persönlichkeit und Motivation [7,8,9]   

[1] Etzel, J. M., Krey, L., & Nagy, G. (2023). We’ve come full circle: The universality of people-things and data-ideas as core dimensions of vocational interests. Journal of Vocational Behavior. https://doi.org/10.1016/j.jvb.2023.103897

[2] Etzel, J. M., & Nagy, G. (2021). Stability and change in vocational interest profiles and interest congruence over the course of vocational education and training. European Journal of Personality, 35, 534–556. https://doi.org/10.1177/08902070211014015

[3] Robitzsch, A., Lüdtke, O., Goldhammer, F., Kröhne, U., & Köller, O. (2020). Reanalysis of the German PISA data: A comparison of different approaches for trend estimation with a particular emphasis on mode effects. Frontiers in Psychology, 11:884. https://doi.org/10.3389/fpsyg.2020.00884

[4] Ulitzsch, E., Lüdtke, O., & Robitzsch, A (2023). The role of response style adjustments in cross-country comparisons – A case study using data from the PISA 2015 questionnaire. Educational Measurement: Issues and Practice. https://doi.org/10.1111/emip.12552

[5] Ruzek, E., Aldrup, K., & Lüdtke, O. (2022). Assessing the effects of student perceptions of instructional quality: A cross-subject within-student design. Contemporary Educational Psychology, 70 https://doi.org/10.1016/j.cedpsych.2022.102085

[6] Becker, M., Kocaj, A., Jansen, M., Dumont, H., & Lüdtke, O. (2022). Class-average achievement and individual achievement development: Testing achievement composition and peer spillover effects using five German longitudinal studies. Journal of Educational Psychology, 114, 177-197. https://doi.org/10.1037/edu0000519

[7] Jansen, M., Lüdtke, O., & Robitzsch, A. (2020). Disentangling different sources of stability and change in students’ academic self-concepts: An integrative data analysis using the STARTS model. Journal of Educational Psychology, 112, 1614–1631. https://doi.org/10.1037/edu0000448 

[8] Meyer, J., Jansen, T., Hübner, N., & Lüdtke, O. (2023). Disentangling the association between big five personality traits and student achievement: Meta-analytic evidence on the role of domain specificity and achievement measures. Educational Psychology Review, 35, 12. https://doi.org/10.1007/s10648-023-09736-2

[9] Wagner, J., Lüdtke, O., & Robitzsch, A. (2019). Does personality become more stable with age? Disentangling state and trait effects for the Big Five across the life span using local structural equation modeling. Journal of Personality and Social Psychology, 116, 666-680. https://doi.org/10.1037/pspp0000203