| Home | E-Submission | Sitemap | Contact us |  
top_img
Korean J Med Educ > Volume 24(1); 2012 > Article
의학전문대학원의 임상과목 지필시험에서 변별도 지수들과 라쉬모형에 의한 문항반응이론의 비교

Abstract

Purpose:

The reliability of test is determined by each items' characteristics. Item analysis is achieved by classical test theory and item response theory. The purpose of the study was to compare the discrimination indices with item response theory using the Rasch model.

Methods:

Thirty‐one 4th‐year medical school students participated in the clinical course written examination, which included 22 A‐type items and 3 R‐type items. Point biserial correlation coefficient (Cpbs) was compared to method of extreme group (D), biserial correlation coefficient (Cbs), item‐total correlation coefficient (Cit), and corrected item‐total correlation coeffcient (Ccit). Rasch model was applied to estimate item difficulty and examinee's ability and to calculate item fit statistics using joint maximum likelihood.

Results:

Explanatory power (r2) of Cpbs is decreased in the following order: Ccit (1.00), Cit (0.99), Cbs (0.94), and D (0.45). The ranges of difficulty logit and standard error and ability logit and standard error were -0.82 to 0.80 and 0.37 to 0.76, -3.69 to 3.19 and 0.45 to 1.03, respectively. Item 9 and 23 have outfit ≥1.3. Student 1, 5, 7, 18, 26, 30, and 32 have fit ≥1.3.

Conclusion:

Cpbs, Ccit, and Cit are good discrimination parameters. Rasch model can estimate item difficulty parameter and examinee's ability parameter with standard error. The fit statistics can identify bad items and unpredictable examinee's responses.

서론

한 가지 검사는 수십 개의 문항들로 구성되며 각 문항의 특성이 그 검사의 신뢰도를 결정한다. 고전검사이론과 문항반응이론으로 문항의 특성을 정량적으로 평가할 수 있다. 문항변별도는 수험자들의 능력을 변별하는 정도를 나타내는 지표다. 대표적인 변별도 지수(item discrimination index)는 양극집단법(method of extreme group, D)과 다양한 상관계수로 측정할 수 있고 여기에는 점양분상관계수(point biserial correlation coefficient, Cpbs), 양분상관계수(biserial correlation coefficient, Cbs), 문항-총점상관(item-total correlation coefficient, Cit) 및 교정된 문항-총점상관(corrected item-total correlation coefficient, Ccit)이 있다[1,2,3]. 변별도 지수마다 계산하는 방법이 다르기 때문에 각 지표의 특성을 확인하는 것은 중요하다.
고전검사이론에 의하면 수험자의 능력은 검사의 곤란도에 영향을 받기 때문에 수험자의 능력을 추정하는 것은 어렵다고 한다. 그러나, 문항반응이론에 따르면 수험자의 능력과 검사의 곤란도는 독립적이기 때문에 서로에게 영향을 주지 않는다고 하며 이것을 피험자 능력 불변성이라 한다[4]. 라쉬모형(Rasch model)은 문항의 곤란도(difficulty, δ)와 수험자의 능력(ability, θ)을 추정하는 1-모수모형이다[5]. 컴퓨터를 이용한 개별적응검사(computerized adaptive testing)와 같은 분야에서 라쉬모형을 이용하고 있고 문항의 곤란도와 수험자의 능력과 같은 모수(parameter)의 추정은 통계적인 방법을 사용한다.
의학전문대학원 4학년 과정의 임상시험 결과에서 변별도 지수들과 라쉬모형에 의한 문항반응이론을 비교하기 위해서 본 연구를 수행하였다.

대상 및 방법

수험자는 의학전문대학원 4학년 학생들이며 34명이 시험에 참여하였다. 검사는 어떤 임상과목의 필기시험이며, 22개의 A형 문항들과 3개의 R형 문항이 총 25문항으로 구성되었다. 검사의 신뢰도(Cronbach's α)는 0.70, 측정의 표준오차(standard error of measurement, SEM)는 ±2.20점이었다[6].

1. 문항 변별도 지수들의 특성과 상관관계

문항 변별도 지수들은 양극집단법 양분상관계수, 문항-총점상관계수, 교정된 문항-총점상관계수 그리고 점양분상관계수로 계산하였다. 표준적인 방법으로 알려진 점양분상관계수를 다른 방법의 지수들과 상관분석하였다.

2. 문항의 곤란도와 수험자의 능력을 추정하기 위한 라쉬모형의 적용

n명의 피험자가 m개의 문항으로 구성된 검사를 시행할 때, 문항반응을 χij로 나타낼 수 있다. 라쉬모형에서 χij는 각 문항의 곤란도와 각 수험자의 능력에 의해 결정되므로 다음과 같이 정리할 수 있다.
(Equation 1)
[δ1δ2δiδm][θ1θ2θjθn][χ11χ21χm1χ12χ22χm2χijχ1nχ2nχmn]
이때, 수험자의 능력이 θj인 사람이 난이도가 δi인 문항을 올바르게 답할 확률(probability, ρ)은 다음 등식으로 구할 수 있다[5,7].
(Equation 2)
ρ=P{χij=1}=eθjδi1+eθjδi
여기서 문항 곤란도와 수험자 능력을 포함한 모수들은 결합최대우도법(joint maximum likelihood)을 사용하여 추정하고 이 과정은 다음과 같다[8].
1) 곤란도의 추정량(estimates)을 와 능력의 추정량을 θ라고 할 때, 어떤 검사의 문항반응에서 정답능력비의 로그(ability logit)와 오답문항비의 로그(difficulty logit)는 다음과 같은 등식으로 나타낼 수 있다.
(Equation 3)
Δi=loge1(j=1nχij)/n(j=1nχij)/n
(Equation 4)
θj=loge(i=1mχij)/m1(i=1mχij)/m
Equation 3에서 i가 0에 수렴하도록 하기 위해서 그것의 평균값과 차를 구하고 그 결과를 iʹ라고 한다.
2) χij의 기대값을 E라 하고 Equation 2에 적용할 때, 기대값은 다음과 같이 구할 수 있다.
(Equation 5)
Eij=eθjΔiʹ1+eθjΔiʹ
이러한 추정을 하는 동안 분산(variance, V)은 다음과 같다.
(Equation 6)
Vij=Eij(1Eij)
3) 이때, 문항반응과 기댓값의 차이가 잔차(residual, R)가 되며 다음과 같이 정리할 수 있다.
(Equation 7)
Rij=χijEij
4) 잔차가 가능한 적을 때까지 1), 2), 3)의 과정을 반복한다[9]. 반복 횟수가 s번째일 때, 이러한 과정은 다음과 같이 요약할 수 있으며, 본 연구에서 반복 횟수는 9회로 하였다.
(Equation 8)
θjS+1=θjS+i=1m(χijEijS)i=1mEijS(1EijS)
(Equation 9)
ΔiS+1=ΔiS+j=1n(χijEijS)j=1nEijS(1EijS)
(Equation 10)
EijS+1=eθjSΔiS1+eθjSΔiS
Equation 7과 같이 문항반응과 Equation 10의 차이가 잔차다. 이때 능력과 곤란도 추정의 표준오차(standard error, SE)는 다음과 같이 구할
(Equation 11)
SE(θ)j=1i=1mEij(1Eij)
(Equation 12)
SE(Δ)i=1j=1nEij(1Eij)

3. 라쉬모형의 적합도(Fit statistics for Rasch model)

라쉬모형으로 능력과 곤란도를 추정할 때, 문항반응에 대한 수험자과 문항의 outfit 적합도(outfit statistics, u)는 다음과 같이 정리할 수 있다[10,12].
(Equation 13)
v(θ)j=1mi=1m(χijEiji=1mEij(1Eij))2
(Equation 14)
v(Δ)i=1nj=1n(χijEijj=1nEij(1Eij))2
또한, 수험자와 문항의 infit 적합도(infit statistics, v)는 다음과 같다[12].
(Equation 15)
v(θ)j=i=1m(χijEij)2i=1mEij(1Eij)
(Equation 16)
v(Δ)i=j=1n(χijEij)2j=1nEij(1Eij)

4. 통계 분석

점양분상관계수와 다른 분별도 지표들 사이에 상관분석을 하고 회귀분석하여 회귀 방정식으로 나타냈다. 문항의 난이도와 수험자의 능력을 추정하기 위한 라쉬모형은 Excel 프로그램 version 12.0 (Microsoft Co., Redmond, USA)으로 작성하였다. 라쉬모형에 대한 문항반응의 적합도와 변별도 사이의 관계를 확인하였다. 수험자‐문항 분포도를 작성하여 검사가 수험자의 능력에 적절한 문항 곤란도를 갖는 문항들로 구성된 검사였는지 확인하였다. 추정된 문항들의 곤란도와 수험자들의 능력에 대한 평균과 표준편차를 구하고 ±2 표준편차 이상의 분포를 보이는 문항과 수험자를 확인하였다.

결과

변별도 지표들 사이의 상관관계에서 점양분상관계수에 대한 설명력(r2)은 교정된 문항·총점상관계수, 문항·총점상관계수, 양분상관계수, 그리고 양극집단법의 순서로 감소하였다(Fig. 1). 교정된 문항·총점상관계수는 1이었고 양극집단법은 0.45로 낮았으며 Table 1에 각각의 회귀방정식을 정리하였다.
본 연구에서 종합최대우도 추정법을 사용하여 라쉬모형을 적용하였고[13], 9회 반복할 때 능력 추정에 대한 잔차제곱의 합(sum of squared residuals, SSR)이 3.59x10-8에 도달하였다. 라쉬모형에 의한 수험자 능력과 문항 곤란도의 추정과 표준오차를 Table 23에 요약하였다. 수험자 능력과 표준편차의 범위는 -0.82~0.80과 0.37~0.76이고, 문항 곤란도와 표준편차의 범위는 -3.69~3.19와 0.45~1.03였다. 수험자의 백분율 점수와 능력 모수와 표준오차를 Fig. 2에 나타냈다. 능력 모수가 클수록 득점수가 증가하며 S자 모양을 형성한다. 라쉬모형에 대한 문항반응의 적합도는 Table 2와 3에 정리하였다. 1.3 이상을 부적합한 문항과 수험자로 판단할 때, 문항 9번과 23번, 그리고 학생 1번, 5번, 7번, 18번, 26번, 30번 및 32번이 여기에 속했다.
수험자-문항 분포도는 Fig. 3에 나타냈다. 문항 난이도가 수험자 능력에 비해 낮게 구성된 것을 알 수 있고 고능력자에게 알맞은 문항을 제공하지 못한 것을 보여준다. 수험자 능력 logit과 문항 난이도 logit의 평균과 표준편차는 각각 0.00±0.49와 0.71±0.87이었다. 따라서 표준편차의 2배 값을 벗어나는 문항은 없었고, 학생 4번과 32번은 평균에서 표준편차의 2배 범위 밖에 위치한다.

고찰

본 연구에서 점양분상관계수에 대한 교정된 문항-총점 상관계수의 설명력이 1.00이기 때문에 점양분상관계수와 일치하였으나 기울기가 1.02로 약간 증가하였다. Ebel은 분별도 지수가 0.4 이상이면 높고 0.2 미만일 때 낮다고 하였다[14]. 이 변별도 지수는 문항과 피험자의 수 그리고 상위군과 하위군의 선정기준에 영향을 받는다. 점양분상관계수와 함께 교정된 문항총점상관계수와 문항총점상관계수가 우수한 변별력 지표들이지만 각각의 특성은 서로 다르다. 교정된 문항총점상관계수는 점양분상관계수보다 기울기가 증가하기 때문에 양극단에서 과장될 수 있다. 문항총점상관계수와 양분상관계수는 점양분상관계수보다 높게 측정되기 때문에 실제보다 과대평가될 수 있다.
표본수가 적은 설문지나 심리검사를 분석할 때, 라쉬모형은 신뢰할만한 결과를 보여 주며 준거지향 평가와 평가기준 설정에도 라쉬모형을 적용하고 있다[15]. 라쉬모형에서 문항 곤란도과 수험자 능력을 추정하는 방법들은 종합최대우도 추정법과 베이지안 추정법이다. 종합최대우도 추정법은 만점자나 영점자의 능력을 추정할 수 없고, 베이지안 추정법은 초기 추정값이 최종 추정값에 영향을 받는다고 한다[13,16,17,18].
어떤 모형에 의한 반응의 적합도(fit statistics)로 검사의 일차원성(unidimensionality)을 확인할 수 있기 때문에 검사의 내용 타당도(content validity)의 중요한 지표가 될 수 있다[19]. 라쉬모형을 적용할 때 관찰된 문항반응의 적합도는 infit과 outfit 적합도로 문항과 수험자 모두를 평가할 수 있다[20]. Infit 적합도는 예측 가능한 관찰들에 민감한 반면 outfit 적합도는 동떨어진 관찰들에 민감하다고 한다. 적합도는 0에서 무한의 값을 가질 수 있고 적합도 1은 측정시스템의 왜곡이 없다는 것을 의미한다. 적합도가 1 미만이면 너무 예상이 가능한 반응을 보이는 것이고, 1보다 크면 기대로부터 벗어난 반응을 의미한다. 적합도가 0.7~1.3 사이의 값을 보일 때 우수한 반응이라고 해석할 수 있다. 적합도가 1.6 이상이면 원인을 확인하고 반드시 수정해야 한다.
부적절한 문항을 확인하고 문항을 수정 보완하면 검사의 신뢰도를 높일 수 있다[6]. 본 연구에서 문항 적합도가 1.3 이상을 갖는 문항은 9번과 23번이었고, 이때 점양분상관계수에 의한 변별도는 -0.41과 0.07이었다. 따라서 문항 적합도와 문항 변별도가 일관된 결과를 보여주었다. 또한, 수험자 적합도는 어떤 검사의 모든 문항을 단순하게 답하거나 무작위로 답하는 수험자를 확인할 수 있고 부적합한 반응을 유발한 수험자들을 제거하면 검사의 정확도를 개선할 수 있다고 한다[13]. 본 연구에서 학생 32번은 outfit 적합도가 64.97이었고 잘못된 표기 방법에 의한 판독기 오류 때문인 것을 확인할 수 있었다.
추정된 수험자 능력과 문항 곤란도로 Fig. 3과 같이 수험자-문항 지도를 만들 수 있다. 그림의 수직축은 logit 척도이며 수험자와 문항이 어떻게 상호작용하는지 알려준다. 본 예에서 수험자의 능력에 비해 문항이 상대적으로 쉽다는 것을 Fig. 3에서 보여준다. 이러한 상호관계는 검사의 구성 타당도(construct validity)를 제공해 준다[20]. 검사를 제작할 때 필요에 따라서 문항의 곤란도를 상승하거나 하강하는 기준을 제공할 수 있다. 평균으로부터 표준편차의 2배의 값보다 큰 문항은 수험자에게 너무 어렵기 때문에 문항을 교정할 필요가 있다. Equation 2를 이용하여 수험자 능력 logit이 1.5인 학생이 곤란도가 0.3인 문항을 올바르게 답할 확률이 0.77이라는 것을 알 수 있다. 본 예에서 라쉬모형의 변별도는 1이고 곤란도가 0이기 때문에 Equation 2에 적용하여 능력 logit 척도를 0~100%의 척도로 전환할 수 있다(Fig. 2).
본 연구에서 고전검사이론에 의한 변별도 지수는 점양분상관계수, 교정된 문항총점상관계수 및 문항총점상관계수 순으로 우수하였고 라쉬모형에 의한 문항적합도와 일치하는 결과를 보였다. 따라서, 라쉬모형은 문항 곤란도와 수험자 능력을 추정할 수 있을 뿐만 아니고 문항에 대한 수험자의 반응을 평가할 수 있는 측정방법이다.

Acknowledgments

The authors would like to express their appreciation to the teaching assistant, Jiyun Kang for item analysis of course examinations.
Funding: This work was supported by the Research Fund from Jeju National University Hospital. (CNUH-2010-02).

Fig. 1.

Scatter Plot Point‐Biserial Correlation (Cpbs) vs. Other Discrimination Indices

kjme-24-1-15-4f1.gif
Fig. 2.

Scatter Plot the Raw Score vs. Examinee's Ability with Standard Error

The horizontal line is in logit and the vertical line is in percent.
kjme-24-1-15-4f2.gif
Fig. 3.

Map of Item Difficulty and Examinee's Ability on Rasch Transformed Logit Scale

Right and side shows item difficulties and left had side shows the distribution of the examinee's abilities
kjme-24-1-15-4f3.gif
Table 1.
Regression Equation between Point.Biserial Correlation (Cpbs) and Other Discrimination Indices
Discrimination index Equation of linear regression r2 SE F‐statistic Degree of freedom SSreg SSR
Ccit y1=1.02×Cpbs 1.00 0.00 3.74×10+30 23 0.74 0.00
Cit y3=1.04×Cpbs+0.10 0.99 0.02 351.20 23 0.87 0.06
Cbs y2=1.11×Cpbs+0.08 0.94 0.05 2,643.88 23 0.77 0.01
D y4=1.04×Cpbs+0.10 0.45 0.16 18.79 23 0.47 0.58

Ccit: Corrected item.total correlation, Cit: Item.total correlation, Cbs: Biserial correlation, D: Method of extreme group, SE: Standard error, SSreg: Sum of squared regressions, SSR: Sum of squared residuals.

Table 2.
Examinee Characteristics of the Rasch Model and Fit Statistics
Examinee‘s ID Score Ability logit SE Outfit Infit
S01 15 0.42 0.47 1.55a) 1.46a)
S02 21 2.13 0.64 0.27 0.52
S03 14 0.20 0.46 1.23 1.27
S04 23 3.19 0.85 0.14 0.47
S05 14 0.20 0.46 1.59a) 1.36a)
S06 13 -0.01 0.46 0.82 0.84
S07 21 2.13 0.64 1.46a) 1.13
S08 13 -0.01 0.46 0.72 0.82
S09 14 0.20 0.46 1.23 1.23
S10 13 -0.01 0.46 0.73 0.82
S11 14 0.20 0.46 0.80 0.91
S12 13 -0.01 0.46 1.17 1.18
S13 15 0.42 0.47 0.91 0.91
S14 14 0.20 0.46 0.83 0.91
S15 16 0.65 0.48 0.62 0.73
S16 18 1.15 0.52 1.09 1.04
S17 19 1.43 0.55 0.69 0.91
S18 18 1.15 0.52 1.72a) 1.13
S19 12 -0.21 0.45 0.91 0.93
S20 13 -0.01 0.46 1.12 1.12
S21 16 0.65 0.48 0.68 0.83
S22 21 2.13 0.64 0.85 1.08
S23 14 0.20 0.46 0.83 0.88
S24 17 0.89 0.50 0.77 0.87
S25 15 0.42 0.47 0.89 0.98
S26 17 0.89 0.50 1.55a) 1.40a)
S27 16 0.65 0.48 0.80 0.95
S28 10 -0.62 0.45 0.94 1.06
S29 14 0.20 0.46 0.67 0.73
S30 13 -0.01 0.46 1.38a) 1.06
S31 14 0.20 0.46 0.94 0.96
S32 1 -3.69 1.03 64.97a) 1.14
S33 19 1.43 0.55 0.60 0.78
S34 12 -0.21 0.45 0.80 0.91

SE: Standard error.

a) Misfit (fit statistics >1.3).

Table 3.
Individual Item Difficulty and Discrimination Based on Point.Biserial Correlation (Cpbs), Item Characteristics of the Rasch Model and Fit Statistics
Item ID Difficulty Cpoint‐biserial Difficulty logit SE Outfit Infit
Item01 0.53 0.38 0.59 0.37 0.80 0.88
Item02 0.76 0.38 -0.70 0.44 0.73 0.91
Item03 0.82 0.32 -0.78 0.49 0.84 0.96
Item04 0.79 0.27 -0.74 0.46 0.87 1.00
Item05 0.50 0.36 -0.38 0.37 0.83 0.88
Item06 0.74 0.28 0.34 0.42 0.85 0.98
Item07 0.62 0.39 -0.51 0.38 0.77 0.88
Item08 0.15 0.10 -0.07 0.52 1.21 1.14
Item09 0.06 -0.41 -0.02 0.76 48.19a) 1.24
Item10 0.76 0.10 0.30 0.44 1.16 1.12
Item11 0.82 0.42 0.22 0.49 0.68 0.88
Item12 0.56 0.23 0.56 0.37 1.01 1.01
Item13 0.65 0.21 0.45 0.39 0.96 1.03
Item14 0.76 0.32 0.30 0.44 0.78 0.96
Item15 0.44 0.23 -0.31 0.37 0.94 1.01
Item16 0.38 0.36 -0.26 0.38 0.81 0.88
Item17 0.85 0.22 0.18 0.53 1.07 1.02
Item18 0.68 0.15 0.41 0.39 1.02 1.08
Item19 0.56 0.23 0.56 0.37 1.03 1.02
Item20 0.76 0.40 0.30 0.44 0.72 0.89
Item21 0.26 0.17 -0.15 0.42 1.03 1.10
Item22 0.32 0.11 0.80 0.40 1.10 1.11
Item23 0.79 0.07 0.26 0.46 1.65a) 1.10
Item24 0.85 0.42 -0.82 0.53 0.67 0.88
Item25 0.62 0.20 -0.51 0.38 1.06 1.03

SE: Standard error.

a) Misfit (fit statistics >1.3).

REFERENCES

1. Fajardo LL, Chan KM. Evaluation of medical students in radiology. Written testing using uncued multiple-choice questions. Invest Radiol 1993;28:964-968.
crossref
2. Cureton EE. The upper and lower twenty-seven per cent rule. Psychometrika 1957;22:293-296.
crossref
3. Campo-Arias A, Oviedo HC, Cogollo Z. Internal consistency of a five-item form of the Francis Scale of Attitude Toward Christianity among adolescent students. J Soc Psychol 2009;149:258-262.
crossref
4. Smith RM, Suh KK. Rasch fit statistics as a test of the invariance of item parameter estimates. J Appl Meas 2003;4:153-163.

5. Karabatsos G. A critique of Rasch residual fit statistics. J Appl Meas 2000;1:152-176.

6. Cronbach LJ. Test "reliability": its meaning and determination. Psychometrika 1947;12:1-1.
crossref
7. Andersen EB. A goodness of fit test for the rasch model. Psychometrika 1973;38:123-140.
crossref
8. Willse JT. Mixture Rasch models with joint maximum likelihood estimation. Educ Psychol Meas 2011;71:5-19.
crossref
9. Baker FB. The basics of item response theory. 2nd ed. College Park, USA: ERIC Clearinghouse on Assessment and Evaluation; 2001:83-149.

10. Dinero TE, Haertel E. Applicability of the Rasch model with varying item discriminations. Appl Psychol Meas 1977;1:581-592.
crossref
11. Ji EL, Chae SH. Theory and practice of Rasch model. 2nd ed. Seoul, Korea: Kyoyukkwahaksa; 2000.

12. Brentari E, Golia S. Unidimensionality in the Rasch model: how to detect and interpret. Statistica 2007;67:253-261.

13. Linacre JM. Rasch model estimation: further topics. J Appl Meas 2004;5:95-110.

14. Ebel RL. Measuring educational achievement. 2nd ed. Englewood Cliffs, USA: Prentice-Hall; 1972.

15. Clauser BE, Ross LP, Nungester RJ, Clyman SG. An evaluation of the Rasch model for equating multiple forms of a performance assessment of physicians' patient-management skills. Acad Med 1997;72(10 Suppl 1):S76-S78.
crossref pmid
16. Linacre JM. Understanding Rasch measurement: estimation methods for Rasch measures. J Outcome Meas 1999;3:382-405.
pmid
17. Hessen DJ. A new class of parametric IRT models for dichotomous item scores. J Appl Meas 2004;5:385-397.

18. Sijtsma K, Junker BW. Item response theory: past performance, present developments, and future expectations. Behaviormetrika 2006;33:75-102.
crossref
19. Erhart M, Hagquist C, Auquier P, Rajmil L, Power M, Ravens-Sieberer U. European KIDSCREEN Group. A comparison of Rasch item-fit and Cronbach's alpha item reduction analysis for the development of a Quality of Life scale for children and adolescents. Child Care Health Dev 2010;36:473-484.
crossref pmid
20. Tesio L. Measuring behaviours and perceptions: Rasch analysis as a tool for rehabilitation research. J Rehabil Med 2003;35:105-115.
crossref pmid
Editorial Office
The Korean Society of Medical Education
(204 Yenji-Dreamvile) 10 Daehak-ro, 1-gil, Jongno-gu, Seoul 03129, Korea
Tel: +82-2-2286-1180   Fax: +82-2-747-6206
E-mail : kjme@ksmed.or.kr
About |  Browse Articles |  Current Issue |  For Authors and Reviewers
Copyright © 2024 by Korean Society of Medical Education.                 Developed in M2PI