要旨|既刊号（1-1）|既刊号一覧|学会誌|日本テスト学会

日本テスト学会誌　Vol.1 No.1　要旨

日本テスト学会誌　Vol.1 No.1

▶ 一般研究論文
「日本テスト学会」に期待される課題と役割～「日本テスト学会誌」の創刊に寄せて～
池田央
日本テスト学会理事長立教大学名誉教授
本論文では「日本テスト学会誌」の創刊に寄せて,現在のテスト学がおかれた状況を展望し,これからの学会が果さなければならないいくつかの役割と課題についてのべた.それらをまとめると,(1)テスト(測定)活動,とくにその運用は一つの統合化された情報システムとして捉える必要がある.多くの専門家の協力体制が取れるこの学会にはそれを作り出す可能性が秘められている.(2)IT技術の進歩は個別の情報を集め処理する上で,様々な形態と方法を持っテスト技術を発展させる.継続して集められるこうした情報は事実に基づく教育の糧となり,適切な形で皆に還元されるものでなくてはならない.(3)テストの使用は常によい面と悪い面を持つ.好ましいテスト情報の使い方を考え,社会への普及を支援して行くことは学会の大きな務めである.
キーワード：テスト運用システム,データの集個技術,コンピュータによるテスト,知的測定,教育データの開示,テストの説明責任
▶ 一般研究論文
Stability of Classification Results on the Cognitive Diagnosis for Individuals
Kikumi Tatsuoka¹, Curtis Tatsuoka²
¹Department of Human Development Teachers College, Columbia University, ²Department of Statistics George Washington University
This study introduces various methods to measure the stability of perfbrmance on a test. Two levels of stability measures are discussed: one is at the group level such as the correlation and reliability of two repeated measures, and the other is at the individual level. The stability of measures at the individual level is defined as how consistently an individual answers test items. Therefore, traditional reliability theory is not applicable to the individual level. We also address the issue of granularity in trying to determine which levels of perfbrmance measures are stable enough to diagnose and report to test users. It is well known in cognitive science that "bugs" measured at the micro level are unstable. On the contrarM it is known that total scores are fairly stable in psychometric theories. We use a test carefully designed for investigating these issues.

▶ 一般研究論文
CCDカメラによる作業手順認識を利用した実技評価システム
小方博之、五十嵐俊介
成蹊大学工学部
情報技術の発展により、コンピュータを利用して受験者の技能を評価する実技試験が可能になりつつある。しかし、現状の実技試験はマウスやキーボード等の入力機器を介して解答を行う形式が一般的であり、あらゆる作業に関する受験者の技能を有効に評価できるものとはいえない。そこで、本研究ではその解決策として、通常行う場合と同様な実環境で受験者が作業を行い、システムがそれを観測し評価する方式の実技評価システムを提案し、その実現方法を検討する。本論文では、特に作業手順を評価する場合に着目する。システムはCCDカメラとパーソナル・コンピュータ(PC)によって構成され、 PCは受験者の作業手順を認識し評価する。ここでは、作業手順の認識に固有空間法を適用し、評価にはオートマトンで表現した作業モデルとの間のDPマッチングを利用する。心肺蘇生法を例に実際に実験を行い、提案方式の有効性を確認する。
キーワード：実技評価システム、技能、作業モデル、固有空間法、DPマッチング
▶ 一般研究論文
大学入試センター試験既出間題を利用した共通受験者計画による英語学力の経年変化の調査
吉村宰¹、荘島宏二郎¹、杉野直樹²、野澤健²、清水裕子²、齋藤栄二³、根岸雅史⁴、岡部純子⁵、サイモンフレイザー⁶
¹大学入試センター、²立命館大学、³関西大学、⁴東京外国語大学、⁵愛知県立大学、⁶呉大学
4つの大学の1年生を中心に約450名を対象とし,英語学力の経年変化についての調査を行った.調査にあたっては,1990年から2004年に出題されたセンター試験英語間題第2間の問題項目から,問題の難易度のばらつきを考慮しつつ識別力の高い100項目を抽出し,50項日からなる調査用テスト問題を2セット作成した.この調査用のテスト問題を用いて,共通受験者計画による等化を行った.調査結果をもとに,等化後のセンター試験受験者集団の平均値や標準偏差の推移に焦点をあてて,調査期間を通しての学力推移を考察する.
キーワード：大学入試センター試験,英語学力,経年変化,項日応答理論,等化
▶ 一般研究論文
Raschモデルにおける項目困難度パラメータから能力パラメータの最尤推定値へのデルタ法による誤差伝播の解析
佐藤喜一¹、村木英治²
¹宮城工業高等専門学校電気工学科、東北大学大学院教育情報学教育部、²東北大学大学院教育情報学研究部
本論文では,Raschモデルの能力パラメータを最尤推定するとき,項目困難度パラメータの標準誤差が能力パラメータにどのように誤差伝播するかをデルタ法により定式化する.デルタ法は近似的に標準誤差を導くために広く利用される統計学的な手法である.定式化の結果,項目パラメータの標準誤差は,能力パラメータの標準誤差の誤差として伝播することがわかった.また,能力パラメータの標準誤差の誤差は,テスト項目への被験者の正答・誤答確率と項目困難度パラメータの標準誤差との関数として表すことができた.シミュレーション実験によると,項目数〃=25,50,75と被験者数N=200,400,600の条件では,能力パラメータの標準誤差に含まれる誤差の割合は数パーセントであった.能カパラメータの標準誤差の誤差に関して,コンピュータ版テストはペーパー&ペンシルテストより優れている可能性があることも示唆された.
キーワード：項目応答理論,Raschモデル,標準誤差,誤差伝播,デルタ法
▶ 一般研究論文
多言語の口頭能力白動試験に利用可能な共通テストプラットフォームの開発
バロージェニファー¹、バービアーイザベラ¹、バーンスタインジャレッド¹、鈴木正紀¹、原田康也²
¹オーディネートコーポレーション、²早稲田大学
本稿では、多言語での口頭能力自動試験に共通に利用可能となるテストプラットフォームの開発について報告する。開発目的としては、1)信頼度や採点の質を犠牲にすることなく、大量の試験を一度に実施・採点できる試験の開発を可能にすることと、2)多言語でのそのようなテスト開発を効率良く行えるようにすることである。このテストプラットフォームには大きく分けて以下の3つの構成要素がある:テストの構成、コンピュータ化されたテストシステム、テスト開発過程と妥当性の検証。このプラットフォーム上で完成した試験では、人間が録音した質問項目を電話上で再生し、受験者はそれに応答する。受験者の応答は音声認識とその他のコンピュータシステムにより自動採点される。このテスト受験者の応答は音声認識などの情報処理技術を活用したコンピュータシステムにより白動採点される。プラットフォームを用い、英語とスペイン語の口頭能力自動試験が既に利用可能となっており、現在は日本語とオランダ語のテストも開発中である。英語とスペイン語のテストのデータを用い、この共通プラットフォーム上で実施されるテストの信頼性・妥当性についても詳述していく。
キーワード：言語テスト,口頭能力,テスト開発,音声認識,自動採点
▶ 一般研究論文
日本の公的な大規模試験に見られる特徴－標準化の観点から－
莞井清佳^1,2、前川眞一¹
¹東京工業大学大学院社会理工学研究科人間行動システム専攻、²（財）日本人事試験研究センター
日本の公的な試験は例外を除いてほとんど標準化されていないが,その理由の一つに「日本的試験文化」が挙げられている(石塚,2002,2003;前川,2003a,2003b;村上,2003b)。本研究の目的は,この日本的試験文化を調査によって実証的に確かめることである。日本の公的な大規模試験のうちの九つの試験の担当者にインタビューを行い,様々な観点から調査結果をまとめた。その結果,いわゆる日本的試験文化は確かに存在し,次のような特徴を有することが分かった。ω試験は1年に1度一斉に実施される。(ii)問題は毎回全て新しく作成される。(iii)試験問題は公開される。(iv)問題は外部の専門家が作成し、心理統計の専門家は試験の設計に関与しない。(v)素点が利用される。(vi)1間当たりの平均回答時間として2～4分が想定されている。そして,こうした日本の試験文化の下で日本の試験の標準化を進める方法を提言する。
キーワード：標準化されたテスト,大規模試験,日本的試験文化
▶ 一般研究論文
学校教育におけるパフォーマンス評価の認知的枠組み
佐々木典彰¹、村木英治²
¹東北大学大学院教育情報学教育部、²東北大学大学院教育情報学研究部
本論では、学校教育においてパフォーマンス評価が行われるとき、評価者がどのような認知的枠組みをもち、評価を行っているかについて調査した。認知的枠組みとは、パフォーマンスに対して評価者がもっている評価視点である。139名(教員68名、大学生71名)を対象とし、学校教育におけるワーキングスタイルと呼ばれるパフォーマンスの項目を用いた。被調査者は18項目のパフォーマンスに対して、どの程度能力として認識するかについて回答した。そして、因子分析を行い、得られた各因子を認知的枠組みの構成要素とみなした。その結果、3因子が抽出され、それぞれ「遂行性」、「活発性」、及び「主張性」と命名された。さらに、各因子における教員と大学生の尺度得点を比較した。その結果、「遂行性」では教員よりも大学生の方が高い傾向がみられ、「活発性」では大学生よりも教員の方が高く、「主張性」では有意な差はなかった。
キーワード：パフォーマンス評価、認知的枠組み、学校教育、能力
▶ 一般研究論文
多段項目反応モデルを用いた算数達成度調査結果の分析
萩原康仁、長崎栄三
国立教育政策研究所
本研究では,平成3年と平成16年の同時期に,小学校第6学年の児童を対象にして行われた二っの算数の達成度を測る調査の解答結果を,項目反応理論を用いて分析した。調査対象となる児童は,それぞれ日本の各地域の40の小学校から2段抽出されていたので,この方法に合わせた項目反応理論のモデルを適用した。また,調査対象が独立であることを前提とした場合の通常の項目反応理論のモデルも適合度の比較のために用いた。その結果,データとの適合にっいて,両調査とも前者のモデルの方がよかったこと,特性値の平均について,平成16年時の調査対象校の方が有意ではないが低かったこと,および,特性値の分散に占める学校間の分散の割合について,平成16年時の対象者の方が小さかったことが示された。ただし,調査対象者が厳密な無作為標本であったわけではないので,本研究結果の一般化には限界がある。本研究で用いた抽出計画に合わせた項目反応理論のモデルの展開について議論された。
キーワード：項目反応理論,2段抽出,算数,学校内分散,学校間分散
▶ 一般研究論文
英語リスニング・テスト実施時に各種騒音が与える影響
内田照久¹、中畝菜穂子²、荘島宏二郎¹
¹大学入試センター研究開発部、²新潟大学入学センター
本研究では,英語リスニング・テスト実施時に低音量騒音が発生した事態を模したモニター試験を実施した.騒音源としては環境騒音と日本語による話し声の2種類を設定し,試験問題音声に対して-12dB(A),-6dB(A)の音量レベルで付加した.大学1年生569名が受験した結果,日本語騒音が付加された条件で試験成績の低下が見られた.また,騒音に対する心理的な抵抗感も日本語騒音で高かった.さらに騒音によって生じた試験成績への影響の除去を目的として,項目反応理論を利用した得点の調整を試みた.無騒音条件の問題項目を共通のアンカー項目とみなして能力推定値(θ)を算出したところ,良好な補正結果が得られた.
キーワード：音声言語教育,教育評価,ヒアリング・テスト,騒音,項目反応理論
▶ 一般研究論文
高等学校の英語学力変化を説明する諸要因の検討－学力水準,立地条件,設置時期,入試倍率に着目して－
斉田智里¹、服部環²
¹茨城県立並木高等学校・東北大学大学院教育情報学教育部、²筑波大学大学院人間総合科学研究科
日本の高等学校では,偏差値による輪切りの高校入試選抜が実施されているのが現状で,学校間に学力格差が存在している。そこで,個人ではなく学校に注目し,学力変化に影響を与える学校の諸要因について検討した。その際,IRT尺度化された8年間の経年的英語学力テストデータ(斉田,2003)を用い,学力変化を説明する可能性のある学校の要因として,(1)学力水準,(2)立地条件,(3)設置時期,(4)入試倍率,の4つを取り上げ,潜在成長曲線分析を行った。潜在成長曲線モデル(LGM)は学力の変化といった,各被験者から時系列的に反復測定したデータの解析に利用され,最近,共分散構造モデルの中でも注目されている統計解析手法の一つである。分析の結果,(1)学力水準および(4)入試倍率が,高等学校の英語学力変化を説明する要因である可能性が示唆された。
キーワード：高等学校,IRT尺度値,英語学力経年変化,説明要因,潜在成長曲線モデル

日本テスト学会誌 Vol.1 No.1 要旨

日本テスト学会誌 Vol.1 No.1

日本テスト学会誌　Vol.1 No.1　要旨

日本テスト学会誌　Vol.1 No.1