
のqueryの質問を96パターン考えることで、多角的にその単語の意味を理解してるってことなのか?でもどうやって96パターンの異なるqueryを生成するんだ?ニューラルネットワークの初期値を確率的に変えることでqueryが分散するのか?

あたりの行列計算(内積)、この書き方だとK^T Qにすべきじゃない?そんなことない?

初心者すぎて、あたりの説明がわからない……1文を区切ることで、入力された文章自体を学習の材料に出来ちゃうというのは分かった。でも、今回の例は形容詞は後に続く名詞を説明しているから大丈夫だけど、後置修飾の場合だったら、後ろのトークンが前に影響を及ぼせるようにしないといけないのでは?後置修飾の情報は、どうやって反映されるんだ?

コンテキストウィンドウについて

で96個のquery, key, valueのセットを並列にニューラルネットワークで学習させてるようだけど、

〜が答えですね。つまり、元の行列を一度各ヘッドに分解してattentionをしたあと、再結合してアウトプットしてるんですね。

maskingというのは予測をするために行う行為で、一方での演出は事前の学習段階を示している、ということなのでしょうか?
