2021/05/27

「AI」と「評価」についての定義、およびAI講演に寄せられた質問への回答


6/19(土)にELPAが主催するZoomセミナーについてはおかげさまで定員一杯になりました。現在は若干のキャンセル待ちを受け付けている状況です。

そのセミナーで私は講演と対談・質疑応答をさせていただきますが、その準備資料は以下の記事です。



【約3万5千字】 

AI時代の英語教育: 大学Academic English指導者の立場からの提言

https://yanase-yosuke.blogspot.com/2021/05/35ai-academic-english.html


【約7,000字】 

AIの発展を踏まえた上でのこれからの大学英語教育についての一考察

https://yanase-yosuke.blogspot.com/2021/05/7000ai.html



セミナーまでまだ少し時間がありますから、これからセミナーでの投映資料を作り、それはセミナーまでにこのブログでも公開する予定です。


さて、この記事では、セミナー申込み時にいただいた質問に予め答えることにします。

いただいた質問は9つで、「評価」、「学習指導」、「AIの可能性」の3つの観点に分けることができます。

ですが質問にお答えするまえに、予め「AI」と「評価」についての定義を明確にしておきます。



■ AIの定義

人工知能の第一人者である松尾豊先生によりますと、AIはこれまで以下の3段階を経て発展してきました。(松尾 2020, p. 8)


第1段階:「プログラムはすごい!」という段階。いわゆる第1次AIブーム(1950-60年代の推論・探索)と第2次AIブーム(1980年代のエキスパートシステム)を含む。

第2段階:「プログラム+データはすごい!」という段階。1990年代からの機械学習、統計的自然言語処理、データマイニングなどを含む。

第3段階:「プログラム+データ+深層学習はすごい!」 という段階。いわゆる第3次AIブームであり、2010年代からの画像認識、ロボット制御、アルファ碁などを含む。


関連記事

松尾豊 (2020) 「人工知能 ディープラーニングの新展開」

https://yanase-yosuke.blogspot.com/2021/04/2020.html


このうち、現代の研究者が注目しているのは第3段階のAIですが、世間一般では第1や第2の段階のAIも「AI」として語られたり宣伝されたりしています。

ですから、世間で「AI」と言われても、実際にはそれがビッグデータと深層学習に基づく第3段階のAIなのか、それ以前のAIなのかをきちんと理解しておく必要があります。

また第3段階のAIにしても、上の私の記事(お勉強ノート)でもまとめましたように、その性能は与えられたデータの量と質、およびプログラマのハイパーパラメータの設計次第でいかようにも変わります。

こうなりますと「AIだから良い」とか「AIは駄目だ」といった立論は、単純過ぎて意味をなさないことがわかります。

私のような専門家でない人間は、AIのユーザーもしくは消費者にすぎませんが、そういった存在として「AIリテラシー」とも言うべき、AIについての基礎知識・批判的な読解力を身につけておく必要があります。以下の質問と回答についても「AI」という用語で何が意味されているのかに注意する必要があります。



■ 「評価」について


「評価」 (assessment) については、私はかねてから以下の2種類に分けて考えるべきだと思っています。


(i) 測定・評定 (measurement/rating)系:評価を、一次元の数値で表現する。測定の場合は「85点」などの間隔尺度、評定の場合は「5段階評価での4」などの順序尺度の数値で表現。一般的には「客観的評価」と呼ばれ、その数値の高低により合格・不合格などの権力配分にしばしば使われる。ただし、その大きな権力性のために、特定の測定・評定方法のために物事を行うなどの本末転倒(「テストのための勉強」)が起きることもしばしばである。

(ii) 価値づけ・鑑賞 (evaluation/appreciation)系:評価を、複数の人間による多元的な観察に基づく対話で行う。これは共同体内の対話による相互主観的な判断であり、数値のような一義性はなく、多義性を免れない。ただし、共同体がこの価値づけ・鑑賞の質を高めれば、評価の対象も歪むことなく発展する。

補注:私は "appreciation" をどのような日本語にしたいのか未だに迷っています。上の「鑑賞」は(やや安易な)仮訳です。 


関連記事

創造性を一元的な評価の対象にしてはいけない

https://yanase-yosuke.blogspot.com/2020/09/blog-post_90.html

真理よりも意味を、客観性よりも現実を: アレント『活動的生』より

http://yanaseyosuke.blogspot.com/2016/05/blog-post_24.html

「英語教育実践支援研究に客観性と再現性を求めることについて」の論文第一稿

http://yanaseyosuke.blogspot.com/2017/06/blog-post.html

Measurement and Its Discontentsの翻訳

http://yanaseyosuke.blogspot.com/2017/05/measurement-and-its-discontents.html

Robert Crease氏によるエッセイ「文化を測定する (Measuring culture)」の抄訳

http://yanaseyosuke.blogspot.com/2018/07/robert-crease-measuring-culture.html

Robert Crease (2011) World in the balanceのエピローグの抄訳

https://yanaseyosuke.blogspot.com/2018/07/robert-crease-2011-world-in-balance.html

Educational Values (Chapter 18 of Democracy and Education)

http://yanaseyosuke.blogspot.com/2014/01/educational-velues-chapter-18-of.html


他方、AIは上の私のお勉強ノート記事でもまとめましたように、「情動的身体をもたない」、「意味や物語を理解できない」、「新たな価値や仮説を創造することができない」、「社会的なコミュニケーションをとれない」といった点で、人間の知性とは種類を異にする知性を発揮しています。さらにAIは、「ロングテール現象に弱い」、「人間では考えがたいミスをする」、「ちょっとした応用すらできない」といった弱点をもちます。

こういった限界・弱点からすると、仮に「AI」(上の「AIの定義」を参照)が、数字で評価点を出したとしても--つまり、 測定・評定 (measurement/rating)系の評価をしたとしても--、その数値を無批判的に信頼することはできません。

となれば、権力に結びつきやすい測定・評定 (measurement/rating)系の評価にAIを使うことに関しては、たとえそのAIが優れたプログラマによって設計された深層学習AIであり、良質なビッグデータが与えられたものであったとしても慎重にならざるをえません。

たとえば最近公表されたTOEFL Essentialsも、評価には人間とAIの両方を使っていると公言しています。AIだけで評価した方が経済的で効率的でしょうが、そうなると妥当性が低くなってしまうのだと想像します。


Test Quality

 scored by both humans and AI tools, to ensure validity and accuracy

https://www.ets.org/s/toefl-essentials/score-users/about/


とはいえ、これからは言語教育の分野でも「AIを使った自動評価」、「高速で安価な自動採点」といった宣伝文句と共に、これまで以上にAIプログラムが開発され一部は商品化されるでしょう(その中には第1・第2段階のAIも紛れ込んでいるかもしれません)。

研究者・教師はもとより、生徒・保護者といった消費者の立場の人も「AIリテラシー」を高め、宣伝されるAIの価値を見極めるべきでしょう。

こういったAIリテラシーの高まりは、最終的にはAI業界の利益にもつながります。AIの歴史は、「萌芽的発見→過剰な期待→ブーム→幻滅」のサイクルの繰り返しといってもいいからです。幻滅はしばしば投資の激減を招き、研究開発も停滞してしまいます。AI業界の発展は、使用者・消費者の厳しい目があってのものであろうと私は考えています。

また、評価のもう一つの種類である価値づけ・鑑賞 (evaluation/appreciation)系は、共同体のメンバー自身が自らの実感と共に行うべきものです。価値づけや鑑賞は、他人から与えられるものではなく、自らの心身でもって行うものです。この点で、情動的身体をもたず意味を理解しないAIが、一方的に価値づけや鑑賞の結果を与えたとしても、それは私たちが文化的に大切にしている価値づけや鑑賞とはまったく異なるものです。ここにおいても、私は「AIによる評価」についてはきわめて懐疑的です。



■ いただいた質問とそれらへの回答


以上の前提を踏まえて、以下、質問に対して私なりに答えてみます。しかし私の答えにも偏りや誤りが含まれているでしょう。ですから、私たちは今後、正確な知識に基づいた多方面からの推論により対話を重ね、未来を少しずつ可視化し、作り上げていくべきでしょう。


A 評価について


Q1

英語学習者の発表技能と表現力のAI評価

A1

質問が短すぎて正確に意図を理解できませんが、私はAIではなく人間なので、それなりに仮説を立てて推論してお答えします(笑)。発表や表現は一般的に、きわめて多次元的なものです。たとえばスピーチでは、英語教師はしばしばそれを「(語彙・文法の)正確性」と「(一定時間内の発語量という極めて限定的な)流暢さ(注)」「(構文の)複雑性」 といった観点にだけに絞った上で評価(測定・評定)しようとします。


(注)「流暢さ」の元の言葉と考えられる "fluent" には、"effortlessly smooth and flowing"や"having or showing mastery of a subject or skill"といった意味があります。ですが、一定時間内の発語数といった単純な数的指標はそういった意味合いを十分には捉えていません。ですから、私は昔から発語数という指標は、きわめて便宜的な指標にすぎないと思っています。


しかし人間が人の語りを聞く際は、それらの数量化しやすい要因だけではなく、非言語的表現(リズム・イントネーション・音色など)や言語随伴表現(表情・態度・身振りなど)、およびその人の歴史的背景、その場の文脈との整合性など、さまざまな要因を同時に考慮しながら判断します。

そういった数量化しにくい精妙な判断についてのデータを、(教師あり学習で)ビッグデータとして大量に提供することはきわめて困難だと思います。ですから、人間の発表・表現力をAIが判定することに関しては、非常に限定的な判断しかできないと考えるべきでしょう。

早い話が、ELSA (https://elsaspeak.com/en/) はそれなりに優秀な発音判定AIだと私は聞いていますが、それもアメリカ英語の判定ができるだけで、その他の英語変種の判定には不適です。

人間の表現能力を現時点のAIが評価することは、人間の歌唱力をカラオケマシンが判定すること以上のジョークとして考えるぐらいが適当ではないかと私は考えています(異論・反論を歓迎します)。


関連記事

(スピーチを何とか測定・評定しようとすれば、私たちは行列でその測定・評定する必要があるでしょう。これについては下の本の拙論をお読みください)。

淺川和也・田地野彰・小田眞幸編 (2020) 『英語授業学の最前線』ひつじ書房

https://yanase-yosuke.blogspot.com/2021/03/2020.html


Q2

現代社会で、AIを利用した英語教育の評価がどこまで可能なのか、Learning Analytics の現状に関してお聞きしたいと思います。

A2

上の私の前提から、私はそれほど楽観的には考えていません。



B 学習指導について

Q3 

2-3年後、AIでWriting添削がどこまで出来るようになると思いますか?

A3

2-3年後といわず、現状でもライティングの添削はかなりできていると私は感じています。

私は英文校正アプリのGrammarlyを毎日使っています。このAIは時に過剰な(まさに機械的な)提案をしますし、時には「おいおい、こんなミスこそ指摘してくれよ」と文句を言いたくなるような見逃しをします。また時には、「いや、そう書き換えたら、文脈的に意味が弱くなってしまうだろう」といった示唆もします。しかし、総じていえばこのAIは私の英語ライティングにおける単純ミスを大幅に減らしてくれています。

もし私が現在、生徒がお金持ちの子どもばかりのような高校(進学校)につとめていたら、生徒にGrammarlyを使ってどんどん生徒が書いた英語をAIに添削してもらいます。そして授業では、そのAIの間違いや納得し難い提案についてみんなで話し合い、ライティング力を深めようとするかもしれません。

しかし単なる直感に過ぎませんが、高校生にはDeepLやGoogleTranslateなどの機械翻訳は使わせないと思います。機械翻訳を使いこなせるだけの英語力がまだ身についていないと思うからです。

ただ、Wordtuneといったパラフレーズ用のAIなら使わせるかもしれません。しかし、その際も、それが提示してくる書き換えをそのまま使うのではなく、「この提案された10のパラフレーズのうち、どれが適切でどれが不適切か、理由と共に述べよ」などとして英語表現力に関する判断力を育成させるために使うと思います。

ちなみに私は大学英語教師ですが、所属大学でも学生全員に有料のAIアプリの使用を強制することはできませんから、学生の英文は私が添削したり書き換えたりしています。ただしその過程で私自身はGrammarlyを多用しますし、時にはWordtuneも使います。


関連記事

Wordtuneで、ある英文の10通りの表現法を生成し、表現の幅を広げる + AI時代の英語学習について

https://yanase-yosuke.blogspot.com/2021/04/wordtune10-ai.html


Q4 

AIを活用することで、自らの表現力を伸ばそうとせず、頼りきりになってしまわないようにする方法をご教示いただきたい。今でも和英辞典やgoogle翻訳にかじりついて英作文を仕上げようとする生徒が多いのが気になっており、これは良いことと捉えて良いのかがわからない。

A4

学習者に、日本語と英語の発想の違いや、日本語を介していてはわからない英語の理解などを教えることが重要ではないでしょうか。「英語はトレーニング。スポーツと同じ」といったことばには一理ありますが、スポーツとてただひたすらやらせるだけなら、たいていの人は飽きるだけでしょう。スポーツでも、どのような動きが合理的か、自分の癖は何か、など考えさせる指導が重要ではないでしょうか。今後の英語指導は、もっと学習者に言語について考えさせる授業にならないと、学習者の意欲を引き出せないかと思います。


Q5 

AI役割により、今後例えば学校の英語教員は日本語で言う古典を教えるような役割をするようになる可能性はありますでしょうか?実用から教養を教えるというような。

A5

この質問の意図も、私はあまり正確に理解できないのですが、おそらく上のA4と重なるかと思います。

とはいえ、英語がまったく実用を考えない教養科目になるべきだとは考えていません。日英両語あるいは言語一般などに関する教養は、AIを使いこなすという実用目的に必須だからです。そもそも教養と実用の間に厳密な線引はできないと私は考えます。実用につながらない教養は単なる無駄や虚栄ですし、教養を必要としない実用はそれこそ早晩AIやロボットに取って代わられる実用ではないでしょうか。


Q6 

最近テレビCMでよく見かける○○○のような、学習者の弱点を診断し復習用解説や問題演習を提示するA活用の学習用アプリの可能性をどう見ていらっしゃいますか。我々教員の見立てよりもより正確に学習者の「わからない」の原因を特定し、弱点補強に力を発揮するのかなと興味を持っています。

A6

○○○については、私は使ったことがないのでなんとも言えません。前提のところで述べましたように「AIだから良いとか悪い」といった判断はできません。それぞれのAIについて使用者がその性能を見きわめる必要があるかと思います。



C AIの可能性について

Q7

今井むつみ教授(慶應義塾大学)が提唱されている「スキーマ」概念をAI翻訳に実装する可能性

A7

私はAIの専門家ではないので、間違っているかもしれませんが、その「スキーマ」に関するデータ(「教師あり学習」用の正解・不正解のタグがついたデータ)を莫大に与えれば、もちろん(第3段階の)AIは学習できるはずです。ただしそのAIの「理解」が人間の理解と同じであるとは限りません。


関連記事

「実践報告:大学生はライティング授業を通じていかに「英語スキーマ」を学ぶか」(4/24(土)Zoomでの研究会)の発表スライドを公開します

https://yanase-yosuke.blogspot.com/2021/04/424zoom.html

今井むつみ (2020) 『英語独習法』岩波新書

https://yanase-yosuke.blogspot.com/2020/12/2020_22.html


以上です。


質問をしてくださったおかげで私も多少は考えを整理することができました。質問者の皆様には特に御礼申し上げます。



***


Q8 (2021/06/19追加)

高校授業において、タブレットを使ったスピーキング指導の方法について考えています。AIを使って会話するなどが考えられますが、教師としてはそれに対して指導をすれば効果的だと思われますか。


A8

「会話」というのは、次々に変わりかねない話題に対応する自由度の高い課題です。「汎用的AI」に近づいたAIが可能な課題でしょう。少し前に「チューリングテスト」に合格した、すなわち、AIと人間が会話(といってもタイピングを通じての通信)して、人間の方が、相手がAIであることに気づかなかったという報告がなされました。しかし、その解釈については否定的・批判的なものが多いようです。


関連記事

4年前の「AIがチューリングテスト合格」騒動は何だったのか

https://www.itmedia.co.jp/news/articles/1807/26/news014.html


また、そもそも現在のAIは人間のように意味を理解しませんし、物語という様式でさまざまな意味を統合的に理解することはできません。質問者の方が念頭においている会話AIがどのようなものか知りませんが、おそらくは人間の会話のビッグデータを基に作られたものだと思われます。つまり、たとえばAとBの二人の会話データ  (A1 → B1 → A2 → B2 → A3 → B3 ... → An → Bn) を利用して、「A1が入力されたらB1を出力すること」「B1が入力されたらA2を出力すること」「A2が入力されたらB2を出力すること」を「正解」とする学習を、AIにさせます。そうやってAIが会話のパターンを機械学習し、AIはユーザーが入力した英語に対して、「正解」と思われる解答を機械的に推論して出力するという仕組みです。

そのようなAIでの会話は、典型的な "Hi, how are you?" "I'm OK. How about you?"ぐらいでしたらこなせるでしょうが、すこし会話が発展すると、AIからの回答はむしろジョークとして考えた方がよいようなトンチンカンなものになることも考えられます。そうなると、私でしたら会話AIを授業で使うことはしません。

ただ、AIはもっと定型的な課題(=ある入力に対する正解出力が明確に定められている課題)には有効です。所定の英文を学習者が読み上げ、AIがその発音の「適切性」(正解)を判定するアプリにはいろいろいいものがあるようです。

ただ、これは6/19のセミナーの対談相手である岡田健志さん(AIアプリ作成統括経験あり)から教えていただいたことですが、そのようなアプリ作成には、どの程度の発音が「正解」なのかという「ストライクゾーン」をどのように設定するかというのが鍵となります。あまりストライクゾーンを狭く設定すると、たとえばアナウンサーのようなアメリカ標準英語しか認めなくなりますし、あまりゾーンを広くするとなんでもOKのようになってしまいます。

ちなみにこれは私の認識・経験ですが、iOSのSiriの英語認識のストライクゾーンはかなり広いと思います。少々変な発音でも、典型性や前後の文との関係から、かなり話者が意図する語を推論してくれます。

もしSiriに自分の発音の正確性を判定してもらいたい時には、AIのビッグデータからすれば珍しい発音をしてみると、AIは結構厳しく話者が発音した通りの音を文字化します(もちろんその際も、機械推論は続いているのですが)。私の場合は、自分が好きな指揮者の "Carlo Maria Giulini"を自分なりに発音してみたら、たしかにSiriは私の偏った発音に即した文字化をしてくれました。私なりにできるだけ正確に発音できるよう努力したら、正確に認識してくれました。

話を戻しますと、発音認定アプリを使うにせよ、そのアプリがどのような利用者層を対象として、どのようなビッグデータを基に作成されたのかなどをまずは調べることが大切かと思います。また、それよりも大切なのは、実際に試しに使ってみて、その使い心地を確かめることでしょう。「AIだからいい/駄目だ」という単純な一般化はできません。





"AI is an empowerment tool to actualize the user's potential."

  本日、「 AIはユーザーの潜在的能力を現実化するツールである。AIはユーザーの力を拡充するだけであり、AIがユーザーに取って代わることはない 」ということを再認識しました。 私は、これまで 1) 学生がAIなしで英文を書く、2) 学生にAIフィードバックを与える、3) 学生が...