日本テスト学会誌 Vol.11 No.1 要旨

トップ>学会誌>既刊号一覧>既刊号(11-1)>要旨

日本テスト学会誌 Vol.11 No.1

▶ 一般研究論文  
能力別にみた錯乱枝の効果に関する検討-多枝選択式の英語文章読解テストを用いて-
寺尾尚大1、安永和央2、石井秀宗1、野口裕之1
1名古屋大学、2日本学術振興会、東京大学
本研究の目的は,多枝選択式の英語文章読解テストにおける錯乱枝の選択率が能力別にみてどのように異なるか検討す ることであった.研究 1 では,英語文章読解テストにおいてどのようなものが錯乱枝になりうるか質的に検討するため, 調査協力者 16 名に対し,私立大学入学試験問題の多枝選択式・英語文章読解テストで出題された問題を用いて,誤答選 択枝のそれぞれについてコメントを収集し,コメントの結果をもとに錯乱枝の要因・水準を作成した.研究 2 では,大学 生の受検者 366 名に英語文章読解テストを実施し,能力別にみた錯乱枝の効果を検討した.多項ロジスティック回帰分析 および残差分析の結果,能力低群では文章中に記述がなく否定語や因果関係を用いた錯乱枝を選ぶ者が多かった一方,能 力中群では文章中に記述があり否定語や因果関係を用いた錯乱枝を選ぶ者が多かった.また,能力高群では文章中に記述 があり対義語を用いた錯乱枝を選ぶ者が多かった.本研究の知見から,実際の英語文章読解テストにおける誤答選択枝の もっともらしさが能力別に異なる可能性と,多枝選択式の項目作成にかかる労力を軽減できる可能性が示唆された.
キーワード:多枝選択式,英語文章読解テスト,錯乱枝,項目分析
▶ 一般研究論文  
多肢選択式問題を作成する上で大切なこと―問題作成の専門家に対する調査結果に基づいて―
荒井清佳
大学入試センター研究開発部
テストは,成績の判定や選抜などに用いられ,受験者個人や社会に大きな影響を与える。そのため,テストは適切であるべきだが,テストが適切であるにはテストを構成する各問題項目が適切であることが必要であろう。
本研究は,実際に問題の作成に携わっている専門家の方々に調査を行い,その結果に基づいて問題項目を作成する上で大切なことは何かを明らかにすることを目的とする。本研究で対象とするのは多肢選択式の問題である。研究1では,作成ガイドラインとして知られているものの比較を行い,問題作成の専門家の意見を伺った。研究2では,問題作成時に問題作成の専門家が大切にしていることを尋ねた。その結果,作成ガイドラインの中には試験の目的に応じて柔軟に捉えるべき項目があることが分かった。また,問題作成時に大切なことは,「試験の目的の沿っていること」と「測定したい内容を測定できる問題になっていること」,さらに加えて「受験生のためになるような問題であること」であると考えられる。
キーワード:問題作成,多肢選択式問題,ガイドライン
▶ 事例研究論文  
医学部5年生のクリニカルクラークシップでの信頼性のあるコンピテンス評価は可能か
宮本 学1、宮崎彩子1、石井誠一2
1大阪医科大学教育センター、2東北大学大学院医学系研究科医学教育推進センター
医学部5学年の臨床実習での評価の信頼性を検討した。大阪医科大学の2010年と2011年の第5学年合計203人は、附属病院で26臨床科すべてを1週か2週間ごとに年間41週間にわたりローテートした。26臨床科のうち、2週間配属で1人の評価者(医師)がすべての学生を評価した5つの臨床科を対象に選んだ。評価は3領域で計16の項目からなり、技術(精神運動領域)は8項目、態度(情動領域)と知識(認知領域) はそれぞれ4項目で4ポイントのリッカート尺度評価を用いた。学生、臨床科(評価者)および評価項目を要因とした一般化可能性理論を用い解析した。学生と臨床科(評価者)の相互作用の分散が3領域すべてで最大で、学生間の分散は大きくなかった。3領域のG係数は0.31~0.43であった。G係数0.7を得るために、15.60~26.24の科を必要とした。評価信頼性を向上させるため、より長い観察期間が必要でローテート期間の拡張を推奨する。
キーワード:現場評価,G係数,D研究,医学部第5学年,クリニカルクラークシップ
▶ 事例研究論文  
TALIS2013の教員間の協力に関する尺度における日本の学校による変動性についての一検討
萩原康仁、松原憲治
国立教育政策研究所
OECD国際教員指導環境調査(TALIS)での「教員間の協力」に関する二つの尺度(「専門的協働」と「学習指導のための意見交換と調整」)を構成する各項目で尋ねている取組の実施頻度は,他の教員の協力や学校の体制が整っているかどうかによっても異なってくると考えられる.このため,これらの尺度においては,指導・学習に関する教員の個人的な信念を尋ねた「構成主義的指導観」の尺度に比べて学校による変動性を仮定しやすい.本研究では,これらの尺度における日本の学校による変動性について,変量切片・変量因子負荷量モデルを用いた分析を行った.その結果,対比として用いた「構成主義的指導観」とは異なり,「専門的協働」と「学習指導のための意見交換と調整」において,各項目の切片について学校間の残差分散が認められた.また,「専門的協働」における「他の教員の授業を見学し、感想を述べる」の項目においては,因子負荷量についても学校間の残差分散が認められた.
キーワード:OECD国際教員指導環境調査,教員間の協力,因子分析,測定の不変性,変量切片・変量因子負荷量モデル
▶ 事例研究論文  
看護系大学共用試験(CBT)項目バンク構築における潜在ランク理論の適用と評価
光永悠彦
島根大学 教育・学生支援機構
看護系大学の臨地実習前の学生が必要な知識と適性を有するかを判断するために,看護学の18分野について大学間共通のCBT(Computer Based Test)を導入する計画において,CBT実施に先立ち,項目バンク構築に向けた試行試験を行い,多数の項目について項目特性を推定する必要が生じた.多数の項目に対し少数の受験者から項目特性を推定する必要があるため,本論では比較的少数の受験者データからでもIRT(item response theory)と同様に解釈可能な項目特性を推定できる潜在ランク理論(latent rank theory, LRT, Shojima, 2009)を適用した.事前分布を指定したIRTによる項目特性推定値と,事前分布なしのLRTの結果を比較したところ,項目特性及び能力値の大部分についてIRTとLRTが同じ傾向の推定値となった.この結果から,LRTがIRTの代替として機能し得ることを示した.同時に,LRTを項目バンク構築に用いる場合の課題を指摘した.
キーワード:看護系大学共用試験,潜在ランク理論,項目反応理論,項目バンク
▶ 事例研究論文  
認知診断モデルによる学習診断の有用性の検討―教研式標準学力検査NRT「中学1年数学」への適用―
鈴木雅之1、豊田哲也2、山口一大3、孫 媛4
1昭和女子大学、2青山学院大学、3東京大学大学院、4国立情報学研究所
多くのテストでは,テスト全体の得点や各問題の正誤,受検者集団の中での序列などの情報が受検者にフィードバックされる.しかし,これらは学習のどこにつまずいているかについて有益な情報を提供しないため,学習改善に活用しにくい.こうした中で近年,学習内容の習得状況について詳細に診断するための方法として,認知診断モデル(cognitive diagnostic model)が注目されている.そこで本研究では,教研式標準学力検査NRT「中学1年数学」に対して,認知診断モデルによる学習診断を適用し,その有用性を検討した.その結果,認知診断モデルを適用することで,テスト全体の得点や「数と式」「図形」などの内容領域別の得点からは知ることのできない診断情報が得られることが示された.また,認知診断による学習診断を利用する上での問題点と今後の課題について展望した.
キーワード:認知診断モデル,G-DINAモデル,教研式標準学力検査NRT,数学
▶ 事例研究論文  
ラッシュモデルによるプレースメントテスト改訂版の検証
坂野永理1、渡部倫子2
1岡山大学、2広島大学
本稿は2012年に改訂された日本語コースのプレースメントテストをラッシュモデルを使い検証したものである。分析では2012年版と旧版テストのデータを用い,改訂がテスト結果にどのように影響を与えたかを検証した。受験者は国内の大学の日本語プログラムに在籍する留学生487名である。分析の結果,改訂の意図通り2012年版のほうが旧版よりテストの難易度が高いことが確認された。一方で,問題文のルビの削除を行った改訂については,削除によって難易度が変化したとは言えないことも明らかになった。また,2012版テストの難易度は受験者の能力に比べて依然低く,難易度の高い項目を増やす必要や,新たに追加した項目の中の選択肢がうまく機能していない項目の修正など,今後改訂すべき点も明らかになった。
キーワード:プレースメントテスト,日本語コース, ラッシュモデル,古典的テスト理論,難易度
▶ 事例研究論文  
測定の質の向上を目的としたテスト項目の修正―ビジネス日本語テストを資料とした実証的研究―
小野塚若菜1、加藤清方2、梅木由美子3、越前谷明子4、前川眞一5
1東京富士大学、2東京学芸大学名誉教授、3宇都宮大学、4東京農工大学名誉教授、5東京工業大学大学院
項目反応理論を用いてテストの作成・運用を行う場合,項目バンクに質の高いテスト項目を十分に確保することは容易ではない.本研究では,この問題の解決のために,日本語能力を測定する公的な大規模日本語試験のうち,BJTビジネス日本語能カテスト(Business Japanese Proficiency Test)を資料として調査・分析を行い,実証的な研究を行った.具体的には,(1)過去の出題項目から項目統計量が特異であったテスト項目を抽出し,その解答の傾向の内実を検討,項目統計量が特異であった要因についての検証を行った.さらに,(2)検証結果に基づく方針によって項目に修正を加え,(3) 実験的データを収集してその修正が項目統計量の改善に寄与したか,定量的・定性的に分析した.検証の結果,修正によって項目統計量が改善されたことから,従来,項目統計量が特異であったために試験実施後に項目バンクへ追加されなかった項目も,適切な修正・改変を加えれば再利用できることが判明した.
キーワード:テスト項目の修正,項目反応理論,大規模日本語試験,BJTビジネス日本語能力テスト,項目バンク
▶ 展望論文  
eテスティングにおける複数等質テスト自動構成手法の展望
石井隆稔1、植野真臣2
1首都大学東京、2電気通信大学
2007年に,ISO/IEC 23988 ISO でeテスティング実施に関する世界標準が決定された.その特徴は,何度異なるテストを受験しても,等質で精度の高い評価が保証されることである. eテスティングの現場では,異なる項目により構成されるが,テスト情報量や出題領域が等質な“等質テスト”をなるべく多く構成しなければならない.しかし,複数等質テスト構成は,アイテムバンクから互いに等質となる異なる項目の組み合わせを抽出する最適化問題であり,NP困難である.その為,複数等質テスト構成は,コンピュータサイエンスの技術を用いて,近年,そのアルゴリズム開発が急速に発展してきた.本論では,eテスティングで利用される複数等質テスト構成の近年の発達について解説する.
キーワード:eテスティング,複数等質テスト自動構成手法,項目応答理論,最適化問題