大会発表論文抄録集
目次
- 公開シンポジウム:大学入試の「英語」はどこに向かうのか
- 研究委員会企画シンポジウム「安全なテスト運用」
- 実行委員会企画録画講演「テスティングの現状と将来展望」
- 企画セッション(1)「令和3年度大学入学共通テストの統計解析」
- 企画セッション(2)「初等中等教育における MEXCBT(メクビット)の構想と展開」
- 企画セッション(3)「大規模入学者選抜におけるCBT活用の可能性と課題」
- 一般研究発表(31件)
公開シンポジウム:大学入試の「英語」はどこに向かうのか
センター試験から大学入学共通テストへの移行,そして「大学入試のあり方に関する検討会議」の提言について当事者の方から報告をいただいて討論し,これからの英語入試の方向性を考える.
開催日程:2021年9月25日(土)9:00〜11:30
開催方法:リアルタイム配信(Zoomウェビナー)
企画・司会:南風原 朝和(東京大学/広尾学園中学校・高等学校)
話題提供者:
-
大津 起夫(大学入試センター)
-
渡部 良典(上智大学)
-
阿部 公彦(東京大学)
-
松井 孝志(私立高校非常勤講師)
研究委員会企画シンポジウム「安全なテスト運用」
テストに関わる研究者・実務家にとって,テストを安全に運用・維持していくための手続きや経験則の構築は,テストを開発することと同等に重要である.本企画ではテスト開発に関わる国内の実務家・研究者より,安全なテスト運用に寄与する研究成果やノウハウについて話題提供がなされる.
開催日程:2021年9月25日(土)12:20〜14:20
開催方法:リアルタイム配信(Zoomウェビナー)
企画:川端 一光(明治学院大学),研究委員会
司会:鈴木 雅之(横浜国立大学)
話題提供者:
-
上松 慮生(プロメトリック株式会社)
-
仁田 光彦(リクルートマネジメントソリューションズ)
-
野上 康子(医療系大学間共用試験実施評価機構)
-
松本 健成(株式会社EduLab)
実行委員会企画録画講演「テスティングの現状と将来展望」
Lord and Novick著の"Statistical Theories of Mental Test Scores”を手掛かりに,そこから現代のテスト理論と技法はどのような進歩を遂げたのか,また,それを物差しにして,将来の理論的技術的発展を展望するために8つの録画講演を用意し,視聴する参加者とともに考える.
開催方法:講演動画配信
動画公開期間:2021年9月17日(金)〜 26日(日)
企画:繁桝 算男(慶應義塾大学)
講演者:
-
加藤 健太郎(ベネッセ教育総合研究所)
[講演題目] テストによる測定再考
[講演概要] 教育テストにおける20世紀末からの世界的動向として,測定内容の変化(教科学力から資質能力の測定へ),および測定方法の多様化(CBT,パフォーマンス型テスト,プロセスの評価 etc.)が挙げられる.伝統的なテスティングとこうした新しい状況を対比しながら,これからの測定(=観測された反応にもとづく能力の数量化)のあり方・やり方をあらためて考えてみる.
-
繁桝 算男(慶應義塾大学)
[講演題目] テストの評価
[講演概要] 信頼性と妥当性の概念を整理し,両者の評価値を得る問題を統計モデルと推測の問題として統一的に論じる.大学入試を適用例としてこの評価の問題を具体的に考える.
-
岡田 謙介(東京大学)
[講演題目] 2つのテスト理論(項目反応モデルと認知診断モデル)
[講演概要] 項目反応モデルと認知診断モデルは,いずれも活発に研究が進んでいる現代テスト理論の統計モデルである.本講演では,両者を対置しながらその共通点を相違点を明らかにし,今後の研究と応用についても論じる.
-
光永 悠彦 (名古屋大学)
[講演題目] テストの等化、あるいはリンキング
[講演概要] 複数の受験機会があるテストにおいては,受験者がどの回のテストを受験しても,統一された一つの尺度の上でスコアが表示される必要がある.これを実現するためには「等化」と呼ばれる統計的処理が必要である.本講演では等化を行う手法について,項目反応理論(IRT)を前提とした手法(個別推定、同時推定、項目パラメタ固定法等)を中心に概説する.等化の前提としては,それぞれの尺度が同一の構成概念を測定している必要があるが,この前提が満たされない場合の共通尺度化は「リンキング」と呼ばれており,その諸手法について併せて紹介する.
-
植野 真臣(電気通信大学)
[講演題目] eTestingの発展と課題
[講演概要] 近年,eTestingは 同一測定精度を持つように異なるテスト項目で構成されるテストを多く生成する技術である.つまり,同じ能力の受検者が異なるテストを受験しても同じスコアを返すことができる.eTestingはコンピュータサイエンス,人工知能技術を利用した技術で現在も進化し続けており,国家試験である情報処理技術者試験など現実社会でも用いられるようになってきている.しかし,実践を通じて多くの課題も発見されてきた.本講演ではeTestingの発展と課題について議論する.
-
宇都 雅輝(電気通信大学)
[講演題目] テストとAI
[講演概要] 近年,画像認識や自然言語処理などの分野において人工知能(AI)技術が急速に発展・普及している.テスト分野においても,記述・論述式試験自動採点などのタスクを対象として様々なAI技術が提案されてきている.本講演では,深層学習などのAI技術を用いた記述・論述式試験自動採点の先端技術について,テスト理論・項目反応理論との関連も含めて紹介する.
-
二村 英幸(元文教大学)
[講演題目] 産業組織における採用や配置のためのテスト開発と実践
[講演概要] 企業においては,人材の採用,配置の支援ツールとしてさまざまなテストが適用されてきた.社会経済の移り変わりに沿ってテストの意義,課題を論じる.
-
黒田 美保(帝京大学)
[講演題目] 発達障害領域で用いる検査の開発と臨床使用
[講演概要] 適応行動や発達障害の特性を見るための検査の開発と実践の紹介を通して,臨床場面におけるこうした検査の利用について論じる.
企画セッション(1)「令和3年度大学入学共通テストの統計解析」
企画者:石岡恒憲(大学入試センター)
開催日時:9月25日(土) 14:30〜16:10
開催方法:リアルタイム配信(Zoomウェビナー)
企画の目的:
令和3年度大学入学者選抜に係る大学入学共通テスト(以下共通テスト)は,大学入試センターが公表する「問題作成方針」にしたがって,1)知識の理解の質を問う問題や,2)思考力,判断力,表現力を発揮して解くことが求められる問題,また,3)授業において生徒が学習する場面,資料やデータ等を基に考察する場面など,学習の過程を意識した問題の場面設定を重視する問題等が出題された.当初の改革の目玉であった記述試験や英語4技能テストは採用されなかったものの,この新しい問題作成方針にしたがった共通テストがこれまで31年間続いてきた大学入試センター試験(以下、センター試験)に比べ,その出力であるところの成績がどのように変化したのかについて知ることは,この改革の意義や効果を知る上で非常に重要であろう.本セッションではその成績データを解析可能な大学入試センター研究開発部のメンバーを中心に,そのデータを統計的に分析,紹介する。参加者との討議をもとに今後の共通テスト設計の示唆を得たい.
話題提供:
- 「統計的特徴--何が変わったのか(概論)」 石岡 恒憲(大学入試センター)
- 「公民と数学の分析」 橋本 貴充(大学入試センター)
- 「モニターデータを用いた日程間得点調整および科目間得点調整」 荘島 宏二郎(大学入試センター)
- 「共通テストの因子構造」 前川 眞一(大学入試センター)
司会者:宮澤芳光(大学入試センター)
企画セッション(2)「初等中等教育における MEXCBT(メクビット)の構想と展開」
企画者・司会者:劉 東岳(株式会社学研教育みらい・学研教育総合研究所/ICT CONNECT 21)
開催日時:9月25日(土) 16:20〜18:00
開催方法:リアルタイム配信(Zoomウェビナー)
企画の目的:
GIGA スクール構想により初等中等教育の学校現場における教育 DX 改革が急速に進む中,全国の学校に整備される1人1台の学習環境を生かして,パソコンやモバイル機器を使ってテスト・アセスメントを行うCBT機能を提供する「学びの保障オンライン学習システム(MEXCBT:メクビット)」の開発が,文部科学省により進められています.本企画セッションではMEXCBTをテーマに一連の発表を通じて情報提供を行うことで,教育測定の理論・技術を踏まえる必要がある今後の展開に向けて,日本テスト学会コミュニティとの協力的な関係性を築くキッカケになることを期待しています.
話題提供:
- 「学びの保障オンライン学習システム(MEXCBT)の構想と展開」 桐生 崇(文部科学省 総合教育政策局)
- 「MEXCBTのシステム構成と機能について」 畠田 浩史(株式会社内田洋行)・永井 正一(株式会社インフォザイン)
- 「令和2年度におけるMEXCBTの実証及び質問紙調査結果等の概要」 佐藤 喜信(株式会社内田洋行)
- 「諸外国の初等中等教育における共通テストとそのデータ活用の状況」 石坂 芳実(ICT CONNECT 21)
- 「教育測定の視点でのMEXCBTの今後の展開と課題」 劉 東岳(株式会社学研教育みらい・学研教育総合研究所/ICT CONNECT 21)
指定討論者:大津 起夫(大学入試センター)
企画セッション(3)「大規模入学者選抜におけるCBT活用の可能性と課題」
企画者・司会者:寺尾尚大(大学入試センター)
開催方法:講演動画配信(質疑応答はSlack上で実施)
動画公開期間:2021年9月17日(金)〜 26日(日)
企画の目的:
本年(2021年)3月,大学入試センターから「大規模入学者選抜におけるCBT活用の可能性について(報告)」を公表した.本報告書は,大学入学共通テスト企画委員会の下に設置された「CBT活用検討部会」の議論をもとに作成されたものである.紙筆試験 (PBT) による大学入学共通テスト(大学入試センター試験)の現状を概観した上で,共通テストへのCBT導入の利点と課題をさまざまな側面から整理し,CBTに関する議論を深めるための土台を提供した.本報告書に多様な論点を含むことができたのは,ひとえに多様な背景をもつ有識者どうしの活発な議論と協働の賜物であるといえる.そこで本企画セッションでは,多様なステークホルダーからの話題提供をもとに,大規模入学者選抜のCBT化により拓かれる可能性と乗り越えるべき課題について深めながら,新たな時代の大規模入学者選抜を構想するための示唆を得たい.
話題提供:
- 「共通テストがCBTになったとしたら? 個別学力検査の可能性を考える」 西郡 大(佐賀大学)
- 「GIGA時代における高校教育の現状と課題」 高井 潤(埼玉県立狭山工業高等学校)
- 「教科「情報」におけるCBTの親和性と一斉実施の可能性」 萩原 兼一(大阪大学)
- 「測定目的に合わせた認知プロセスの把握」 白水 始(国立教育政策研究所)
- 「大規模入学者選抜におけるIRT-CBTへの懸念」 林 篤裕(名古屋工業大学)
指定討論者:野口 裕之(名古屋大学)
一般研究発表
一般セッション 1「高大接続・入試」
-
『個別大学の入試科目「英語」で測定される言語運用能力の考察』4年度分の大学新入生を対象とした,CEFR英語運用能力の自己評定データ(N=8,023)に探索的因子分析を行った。その結果,4技能に相当する因子と共に,産出,相互作用,媒体などに関する因子群が抽出された。令和3年度入学者のうち1,292名から,大学入学共通テスト「英語」および個別学力検査「英語」の個人得点の研究目的での提供承諾を得られた。試験得点と令和3年度CEFR調査に含まれる言語運用能力因子の相関関係(共通テストや個別試験で測定される英語能力)を考察し,大学入試改革に対するエビデンスを蓄積する。キーワード:大学入試,英語,言語運用能力
-
『大学入学共通テストの「国語」記述式問題を巡る受験対策の「戦略ゲーム」化』大学入学共通テストの「国語」記述式において「思考力・判断力・表現力」を測定できているのかという議論を大学入試センター、国語の専門家、教育産業の三者の言説から検討し、それら能力が受験生に如何に伝えられたのかを検討した。結果として、大学入試センターの想定する「思考力・判断力・表現力」は教育産業によって「情報処理能力」として展開された。大学入試センターはテクストを解釈・統合し、設問の要求に合わせた思考を想定したが、教育産業は「設問に従属した読み」という「入試(改革)の教育的意義を無視した、教育産業によるストラテジーの行使」(=「戦略ゲーム」化)が見られた。キーワード:「戦略ゲーム」化,大学入学共通テスト,国語,記述式
-
『高大接続改革が高校生に及ぼす影響に関する日中比較研究 —大学選択方略を巡る高校生活の実態を中心にー』2014年,日本と中国で高大接続改革政策が発表された.「多様化」という政策の方向性が両国で一致している.日本では多様化政策が長年続いているが,大学進学を巡る高校生の生活実態への影響は解明されていない.本研究では両国の進学校で学ぶ高校生の高校生活の中心,入試方式の選択,志望大学の決定時期について,質問紙法を用いて調査を行った.その結果,中国の高校生活がほぼ勉強のみが中心であるのに対し,日本では部活等,活動の多様性が見られた.入試方式の選択でも日本の方は多様であり,中国の高校生の8割以上は「一般入試」を選択した.さらに,望大学の決定に関して,日本高校生は中国高校生より早い段階で行い,高校3年間で一貫した志望を持っていることが分かった.背景要因として,両国の大学入試制度や進路指導制度の差が考えられる.キーワード:高大接続改革,高校生,日中比較
-
『東北大学歯学部一般選抜における面接試験導入の効果』大学入試で学力の3要素を評価することが要請され,一般選抜における「主体性」の評価が個別試験の課題となっている。特に医療系の専門分野では,面接試験で志願者の情意的な適性を評価することが標準である。東北大学歯学部では令和3年度入試から一般選抜に面接試験を導入した。総合型選抜(AO入試)では20年以上に亘る面接試験の経験があるが,一般選抜の面接試験は不適格者の析出が主目的であり,ポジティブ評価のAO入試とは目的が異なる。本研究では初年度の面接試験結果の事後分析を行い,テスト性能の側面から目的に沿った設計,実施が行われたか,実証的に検討する。キーワード:大学入試,歯学部,面接試験
一般セッション 2「尺度構成」
-
『WAIS-Ⅳの因子構造の解析』日本版WAIS-Ⅳの標準化のためのデータを用いて、このテストの因子構造の解明を試みる。比較する因子構造として、階層的因子構造(上位因子として、g因子一つと2因子)、bi-factor model,また、各々のモデルにおいて、1次因子の因子数を、3,4,5とする。合計で、15のモデル間の妥当性を比較することになる。推定の方法として、最尤推定とベイズ的推定を共に適用した。比較の基準としては、各種の適合度指標、および、ベイズ的に、LOO-CVおよびWAICを用いた。キーワード:WAIS-Ⅳ,因子数,モデル比較
-
『テスト問題作成ガイドラインの開発(1)— 日本での普及に向けた整理 —』日本の教育,とくに学校現場では,教師が経験を頼りにテストを作成して児童生徒の学力・能力等を測定しており,テスト理論におけるテスト開発等の知見が活用されていないのが現状である。その原因の1つは,日本の実状を踏まえた問題作成ガイドラインがまとめられていないこと,また,あったとしても普及していないことであると考えられる。そこで,本研究では,日本での問題作成ガイドラインの普及を目指し,その第一段階として,既存のガイドライン項目や,これまでの研究で得られている知見等の整理を行う。キーワード:ガイドライン,問題作成,テスト開発
-
『アンケート調査項目作成ガイドラインの開発(1)— 日本での普及に向けた整理 —』アンケート調査は一般的に広く行われているが,調査実施者の経験則にのみ基づいて作成されることが多く,その問い方や形式について,十分な検討が行われたものばかりではない。そのようなアンケートでは,真に調査者が求めている回答を得られない可能性がある上に,調査参加者に過度の負担をかけることにもなる。そこで,アンケート項目を作成する際に検討するべきガイドラインが作成され,周知されることが期待される。本発表では,アンケート調査全般,選択式,記述式,オンライン調査でのガイドラインについて作成することを目的とした。キーワード:ガイドライン,調査項目作成
-
『オンライン面接における直感評定に影響を与えるパーソナリティ特性の検討と自己評定との関係について』本研究では、面接試験における直感評定と学力の関係や評定者による傾向の違いを明らかにし、これを総合的に検討する。また、同時にこれによりAO入試などにおける面接試験の新しい適用方式についても検討する。具体的には、まず初年次導入科目を受講した大学1年生を対象に「科目の受講理由」「科目への意気込み」に関するオンライン収録形式の質問を行った。次にこの質問と回答を1種の面接試験とみなして、教員が動画を視聴し直感評定を行った。この評価の結果と別途行った事前テスト、小テストの結果を比較することで、入試選抜における面接試験評定と学力の関係を作りだし、面接試験の重要な役割を占める直感評定と学力試験の関係や評定者による傾向の違い(評定のばらつきや偏り)を統合的に評価する。これらの結果を基に、AO入試や推薦入試などで用いられる面接試験が妥当性高く受験者の能力を評定するための方法について議論する。加えて、同様な調査を記述形式で行った大学入試における先行研究(森, 橋本, 大江, 2020)との異同について論じる。キーワード:オンライン面接,パーソナリティ特性,自己評定
一般セッション 3「学習とテスト」
-
『高等学校におけるLRTを用いたテスト結果のフィードバックに関する研究』本研究の目的は,LRT(潜在ランク理論:Latent Rank Theory)を用いて生徒の学力変化を生徒個々人にフィードバックし,LRTの学校現場での活用可能性について示唆を得ることである。そのために,高等学校数学科において,基礎力テストを1年時と2年時で実施し,LRTのランクを用いて各生徒の学力の変化を離散的に示し,テスト結果のフィードバックを行うことを試みた。キーワード:LRT,数学科,高等学校
-
『教師の実態把握力解析ツールWitsに適切なカテゴリ数とは?—生徒数と真の値の影響のシミュレーションによる検討—』学習者のパフォーマンスに対する教師の予測力を解析するツール「Wits」では,教師の予測の特徴をαという指標で表現する。Witsを使用できる状況の一つに,テストの得点分布を教師が予測する場面がある。その際,得点を区切っていくつかのカテゴリに分け,各カテゴリの相対度数を予測することになるが,カテゴリ数の決め方の指針があれば便利である。本研究では,テストの得点分布の変動を考慮に入れて予測の場面をモデル化し,生徒の人数や「真のα」を変えながらシミュレーションを行って適切なカテゴリ数について考察する。キーワード:教師の実態把握力,得点分布の予測,シミュレーション
-
『教科横断的に育成される思考力のアセスメントの設計』平成29年告示の学習指導要領の要諦のひとつである「思考力・判断力・表現力等」(以下,思考力とする)の育成は,各教科等のみならず,教科横断的に身につけていく力とを相互に関連付けながら行う必要があるとされている。しかし,これまで思考力の目標は各教科固有の見方・考え方からの捉えにとどまるものであり,結果として,その学習達成を教科横断的に評価する手立てが十分に存在しなかった。そこで本研究では,中学校段階において,「思考スキル」という理論枠組みを用いて思考力を教科横断的目標として具体化し,その習得状況に関する証拠を得るためのアセスメントの在り方について検討する。キーワード:思考力,学習指導要領,アセスメント設計
-
『同時双方向型遠隔授業のオンラインテストの試行 ー線形代数の定期(期末)試験ー』第一筆者の担当科目「線形代数2」において、単元「固有ベクトル」などを対象にした定期(期末)試験を大学教室内にて CBT 形式で実施していた。コロナ禍の 2020 年度では、対面式授業から同時双方向型授業に切り替った。これにより対面式授業を一度も実行できない授業スケジュールになった。遠隔授業と e-Learning サイト(第二筆者の遠隔運用)における学修活動後、最終の遠隔授業において複数制約:「学生宅受験」「疑似監視」「2回受験」「計算用紙のデジタル化」などのもとに、定期試験をオンライン試行をした実践を報告する。キーワード:遠隔授業,数学,オンラインテスト
-
『認知診断モデルを通じた深い理解の実証的解析 −大規模学力調査を用いた分析と従来の観点との比較−』多くの大規模な学力調査では,学習者の学力を正しく捉えて,指導改善に役立つ結果を返すことを目的としている。近年、国際的な教育動向として,深い理解を目指した指導が重視されているため、深い理解という視点からも結果が返却されれば、より学習改善・指導改善に役立つと考えられる。そこで,本研究では,認知診断モデルを用いて認知・教授学習心理学の観点から、深い理解をいくつかの要素に分けて作成したアトリビュートを用いて国内の学力調査の回答データを再分析した。その結果、作成したアトリビュートが分析に利用可能であることが示された。さらに、本学力調査が想定していた観点によるQ行列よりもモデル適合度が良く,項目パラメタが適切に解釈できることが示された。キーワード:深い理解,認知診断モデル,大規模学力調査,中学数学
一般セッション 4「テストの自動化」
-
『共通テストの試行調査国語記述回答データを用いた完全自動採点のアルゴリズムとその性能』2021年からの共通テスト実施に向けて、2017年と2018年に実施した試行調査のうち、国語の記述回答(全6問、20字〜120字)について手書き文字解答を自動採点する手順を紹介し、その性能を従来研究と比較する。本手順の特徴は自動採点を完全に自動化することにある。すなわち、手書き文字解答の誤認識を人手による修正を行わず、また文字解答の読み取りデータに採点を補助するためのアノーテーションを一切行わない。文字認識には畳み込みニューラルネットによるアンサンブル学習を用い、自動採点には日本語Wikipediaを事前学習したBERTを用いる。キーワード:自動採点,機械学習,手書き文字認識
-
『監督者不在のオンライン試験における眼球運動特性を用いた聴覚利用型不正行為の検出(不正行為を異常値とみなした場合の検出)』現在COVID-19の感染拡大によって対面で行う試験が難しく、会場外でオンラインで行う試験の導入が関心を集めている。しかし、不正行為の対策が不十分であり試験の公平性に問題がある。我々はこの問題について視線検出による聴覚利用型不正行為判別の研究を行っている。今回は判別方法にautoencoder、One-ClassSVMを用いて異常値を検出手法を採用し、不正行為に関する学習用データがなくても検出を行える方法を提案する。キーワード:アイトラッカ,聴覚利用型不正行為,異常検出
-
『適応型テストを複数回受検した場合の不適切解答者の検知』本研究では,同一能力を測定するテストを複数回受検した者の中からカンニングにより解答した者を検知する方法について,機械学習を用いたシミュレーションにより考える。適切に解答した者とカンニングにより解答した者では,測定した2回の能力の推定値及び各回の受検における各項目への解答の状況に異なる特徴が見られることを踏まえ,これらに基づいた説明変数を用いて機械学習を行うものである。キーワード:カンニング,IRT,CAT
-
『自然言語処理を用いた敵対項目検出アルゴリズムの提案とテストへの応用』コンピュータ適応型テスト(CAT)を用いて語学テストを実施する際において,出題される語彙の類似度を考慮せずに項目選択をすると,互いにヒントとなる項目が隣接して出題される事態が生じる恐れがある。一般的に,このような同時出題することが望ましくない項目のペアは「敵対項目」とよばれている。本研究ではCATへの応用場面を想定し,項目バンクの全項目について語彙の類似度が高いことにに起因する敵対項目を自動的に検出するアルゴリズムを提案した。本アルゴリズムは自然言語処理(NLP)を応用しており,その仕組みについて概略を解説する。加えて,項目文中に用いられている語彙の類似度が高いとされる項目を同時出題した際に,項目特性(困難度)がどのように変わるかについて検討を行った。キーワード:コンピュータ適応型テスト(CAT),Word2Vec,語彙テスト
-
『項目露出数を考慮した整数計画法を用いた等質テスト構成』等質テストとは異なる問題で構成されるが,受験者得点の予測誤差が等質なテスト群である.ゆえに,同一能力の受験者が何度受験しても同一得点となる保証があり,可能な限り多く生成することが望ましい.最先端の整数計画法を用いた最大クリーク並列探索手法では多くのテストを生成できるが,項目の露出数に偏りが生じる.そこで,本研究では整数計画法の目的関数を露出数が小さい項目ほど,優先してテストに含まれるように改善することで,露出数の偏りを軽減させる.本手法の有効性を実データを用いて示す.キーワード:等質テスト,整数計画法,最大クリーク探索
-
『最大暴露数を制約に用いた二段階等質適応型テスト』本研究では,最大暴露数を制約に用いた二段階等質適応型テストを提案する。二段階等質適応型テストでは,テストの前半に等質な項目群に含まれる項目から情報量が高い項目を選択し,ある程度受検者の能力推定値が収束してきたテストの後半にアイテムバンク内の全ての項目から既定の最大暴露数以下で情報量が高い項目を選択する。等質な項目群の項目難易度分布は能力分布全般に対応し一様に分布しており、第一段階では、過学習を避け、より高速に推定値が真の能力値近傍まで到達することが期待できる。第二段階における真の能力値近傍からの能力推定はより高精度な推定を行うために、高密度な難易度の分布を持つ項目集合が必要となる。そのため、第二段階ではアイテムバンクの項目集合全体を用いるが、第二段階目では能力推定が収束しており、集中してある能力値近傍の項目が利用されることからそれほど露出分布の偏りはそれほど大きくはならないと考えられる。加えて,最大暴露数を制約として用いることで出題が集中する項目を制御することができる。キーワード:適応型テスト,eテスティング,Computer Based Testing,項目反応理論
一般セッション 5「項目反応モデル・共通尺度化」
-
『適応型テストの回答データを用いた項目特性値推定―本番テストの回答情報の利用―』適応型テストの運用においては項目プールの拡充は重要なテーマのひとつである.項目プールの拡充の方法の一つに,本番テストの中に新作項目を採点除外項目として紛れ込ませる形でデータ収集をおこなって項目特性値を算出する方法がある.適応型出題された回答データから項目特性値を推定する方法について杉山・仁田(2016)および杉山(2019)で提案したがいずれの手法も項目困難度の絶対値が大きな項目の推定精度については課題があった.本発表では,本番テストの回答状況を加味することが項目特性値の推定精度にどのような影響を与えるかについて述べる.キーワード:IRT,CAT,項目特性値推定,MCMC
-
『ルーブリック評価のための多次元4相型項目反応モデルの提案』受験者の真正な能力を測定する手法としてルーブリック評価が注目されている.ルーブリック評価は採点を客観化する方法だが,それでも採点が課題や評価者, 評価観点の特性に依存することが知られている. また,ルーブリック評価では, 複数の能力尺度で構成される評価基準表を用いる場合がある.そこで, 本研究では, 課題・評価者・評価観点の特性を同時に考慮でき,多次元尺度で能力を測定できる新たな項目反応モデルを提案する.キーワード:パフォーマンス評価,ルーブリック,多次元項目反応理論,評価者バイアス
-
『深層学習自動採点技術を組み込んだ一般化多相ラッシュモデル』近年,大規模試験に論述課題を出題するニーズが高まっている.論述課題では評価者の特性差が点数に影響することで,試験の信頼性が低下することが知られている.この問題を解決する手法の1つとして,それらの評価者特性の影響を取り除くことができる項目反応モデルが近年多数提案されている.本研究では,それらの項目反応モデルの1つである一般化多相ラッシュモデルと,自然言語処理分野で近年注目されれている深層学習を用いた自動採点技術を統合した新たなことでフレームワークを提案する.提案手法では,得点データだけでなく,文章データも活用できるため,一般化多相ラッシュモデルのパラメータ推定精度が改善できる.キーワード:記述・論述式試験,項目反応理論,深層学習自動採点
-
『深層学習に基づく語の多義性を考慮した項目反応モデル』言語能力測定の上で重要な語彙テストにおいては、学習者は主要な語義は知っていても、例外的な語義は知らないことが多い。本稿では、語の用例の主要性をも考慮して、文中の語の用例ごとに、困難度等の項目パラメタを算出可能な項目反応モデルを提案する。提案手法では、BERTなどの用例中の意味を捉える深層学習モデルと、深層異常検知を組み合わせ、用例の例外性から項目パラメタを算出する。また、性能評価のため、学習者に対して主要な語義と例外的な語義の両方を試験するテストを英語母語話者の確認のもと作成した。このテストを用いて提案手法を評価する。キーワード:語彙テスト,深層学習,項目反応モデル
-
『中央値補正法による得点調整はどれくらい公平なのか』近年、大学入試において選択科目間の得点調整の方法として、多くの大学で中央値補正法が採用されている。しかしながら、その性質について、テスト理論的な観点からの考察はほとんど行われていない。そこで、中央値補正法による得点調整が、選択科目間の平均と標準偏差の違いにより、どのような調整結果を生じさせるのか考察した。その結果、テスト得点が正規分布をする場合、中央値補正法では、概して、元の得点分布の平均が高く標準偏差が大きい科目が、能力上位者にとって有利となるように得点調整されることが分かった。本来、得点調整は、このような不公平を解消するために行われるべきものである。一方、中央値補正法には、得点調整後も、0点は0点、満点は満点のまま変わらず、中央値さえ求まれば簡単に計算可能であるという利点もある。導入する際には、利点と欠点を考えた上で検討する必要がある。キーワード:中央値補正法,大学入試,選択科目,得点調整,等化
-
『共通項目デザインの等化におけるアンカー項目選択法の影響の検討』新規に作成された項目を共通尺度に等化する場合,共通項目デザインが用いられることが多い。等化のために用いる共通項目(アンカー項目)に関して,一般的には「出題領域の比率などを本番のテストに揃えた縮小版(minitest)」が望ましいとされる一方で,項目パラメタなどの観点から最適なアンカー項目選択法を検討した研究は少ない。本研究では,シミュレーションによって異なる項目選択法の等化性能を比較した。その結果一部の等化法では,異なる項目選択法によって選ばれるアンカー項目自体の項目情報量の差が特性値の推定精度に影響を及ぼす一方で,新規項目の推定精度にはほぼ影響がないことが明らかになった。キーワード:等化,共通項目デザイン,アンカー項目選択
一般セッション 6「テスト実践」
-
『選択問題における受験者の成績別の問題選択の傾向に関する考察』試験問題の良否評価に用いられている識別値は、受験者をその最終的な成績により4つのグループに分けたときの最上位層及び最下位層における正答者と誤答者数から算出される。必須問題の場合と異なり、選択問題においては最上位層と最下位層の人数に偏りが生じるため、識別値が試験問題の良否を正しく評価できない可能性がある。今回、選択問題における試験問題の良否を評価する方法を検討するため、受験者の成績別の問題選択のプロセスを把握することを目的として、国家公務員採用総合職試験の結果の一部について解析を行った。キーワード:国家公務員採用総合職試験,選択問題,識別値
-
『公立学校教員採用選考テストの解答形式の分類』本研究では、宮本・倉元(2017)が示す指標に基づき、令和2年度に各都道府県・政令指定都市教育委員会が実施した公立学校教員採用選考テスト筆答テストの問題の解答形式を分類した。その結果、全般的な傾向として、教員採用選考においては、客観式問題、および穴埋めと短答の記述式問題に出題が集中していることが示された。また、東京都教委のように、客観式問題のみを出題する教育委員会が見られる一方で、広島県教委のように、短文・長文の記述式問題を出題の中心に据える教育委員会も存在し、実施主体の教育委員会ごとに、筆答テストの解答形式には大きく異同が見られることも明らかとなった。キーワード:教員採用試験,解答形式,教育委員会
-
『選択式項目作成ガイドラインの語彙理解尺度への応用』テストの測定学的品質に悪影響を与える欠陥項目の使用を避けるため,作問者が準拠すべき一般的規準からなる「項目作成ガイドライン」が提案されている。実テストに具体的にガイドラインを適用する際には,そのテストの目的やフレームワークによって,欠陥の様態がそれぞれ異なる可能性がある。本研究は「項目作成ガイドライン」を,語彙理解尺度を題材として応用し,それに準拠することの効果の検証を試みている。本発表では,内容領域専門家の吟味を受けた語彙理解尺度版ガイドラインの試案に基づき,一般的なガイドラインの実テストへの応用可能性について議論する。キーワード:多枝選択式,項目作成ガイドライン,項目Flaw,語彙理解尺度
-
『国語試験問題の字数制限が評定者間における評価の一致度に及ぼす影響』本研究では,国語の大学入試問題を用いて,回答(解答)欄の字数制限の有無が,評定者間の評価の一致度に及ぼす影響について検討した。回答欄に字数制限がない場合,受験者の回答字数は少ないものから多いものまで幅広くなる。字数が多い回答を評価する場合,評定者が判断すべき箇所が増えるため,字数制限が定められている場合よりも評価の一致度が低くなることが予想される。しかし,本研究の結果はこの予想と異なり,字数制限がある条件よりも字数制限がない条件の方が一致度の値は高くなった。キーワード:評定者,一致度,字数制限
-
『面接試験における試験官の人数と評価精度に関する研究』面接試験は,評価者(試験官)の主観による評価バイアスが入り込む余地があることが知られており,これらの評価バイアスを最小限にするために,複数の試験官による面接や,面接回数を増やすなど,様々な工夫が行われている。しかし,試験官人数や面接回数の増加は,コストや手間がかかるため,無制限に増やすことはできない。本研究では,試験官の人数と評価バイアス出現確率を,数値モデルを使って分析し,「試験官の人数」や「面接回数」の増加が,評価精度に及ぼす影響をわかりやすく表現するものである。キーワード:採用試験,面接,評価精度,試験官
-
『1948年に実施された「日本人の読み書き能力調査」の設計再考 —テストとしての側面に着目して—』1948年にGHQのアドバイスの下に実施された「日本人の読み書き能力調査」は, 国語学,心理学をふくむ他分野にわたる当時の気鋭の研究者たちが総力を挙げて取り組んだ規模の大きい統計的社会調査である。ランダムサンプリングを採用した本邦初の全国規模の学術調査として,社会調査面での歴史的評価は定まっているが,調査内容は事実上のテストであり,テスト史の観点からも,その設計について様々な特徴を指摘することができる。本報告では,出題面でのいくつかの特徴に言及した上で,多肢選択式の出題を多用した点について,ゲッシングによる理論得点分布がどのようになるかを複合二項分布に基づいて考察した結果等を紹介する。キーワード:読み書き能力調査,ゲッシング,複合二項分布