で96個のquery, key, valueのセットを並列にニューラルネットワークで学習させてるようだけど、(00:20:50 - 00:06:20) - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

で96個のquery, key, valueのセットを並列にニューラルネットワークで学習させてるようだけど、(00:20:50 - 00:06:20)
GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。

日本語版Twitter

元チャンネル(英語)
https://www.youtube.com/c/3blue1brown
元動画(英語)
https://www.youtub...
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。

日本語版Twitter

元チャンネル(英語)
https://www.youtube.com/c/3blue1brown
元動画(英語)
https://www.youtube.com/watch?v=eMlx5fFNoYc&t=795s&pp=ygUVYXR0ZW50aW9uIDNibHVlMWJyb3du

訂正
冒頭でAttention機構は2017年の論文ではじめて登場したと紹介していましたが、正しくは2014年にBahdanauらによって初めて導入されていました。もちろんそれ以前にも、人々がこのアイディアについて実験していたのではないかと思います。コメントのご指摘、ありがとうございます!
Attention Is All You Needは従来のシーケンス処理モデルに使われていた回帰型ニューラルネットワークに対して、文字通りAttentionのみでシーケンス処理を可能にし、また多くのアテンションブロックを使用することでモデルの性能を向上させるアプローチが広く受け入れられるきっかけを作ったと言えるのではないでしょうか。

新チャンネルUfolium
https://www.youtube.com/watch?v=nF7gFRebGTk&pp=ygUHdWZvbGl1bQ%3D%3D
https://www.youtube.com/watch?v=wrNCjIjIzuk&pp=ygUHdWZvbGl1bQ%3D%3D

資料
Andrej Karpathy
https://youtu.be/kCc8FmEb1nY?si=ja2COj-IOYR_gQvt

vcubingx
https://youtu.be/1il-s4mgNdI?si=6v5eNjToNX999kW4

Anthropic
https://transformer-circuits.pub/2021/framework/index.html

https://www.gptandchill.ai/codingproblems

LLMの歴史 Brit Cruise
https://youtu.be/OFS90-FX6pg?si=udNZoCAlpt8Odaoe

https://arxiv.org/pdf/1301.3781

訳注
「シングルヘッドのアテンション」と訳されている部分は、英語では"Single head of attention"、"Single-headed attention"、"single-head attention"などと表現されています。意味としては「アテンションのヘッド1つ分」という使い方もあれば、「シングルヘッド」という「ある種の特徴や仕様を表現する言葉」として使っている場合もあります。日本語訳では前者のように受け取れる部分でもいくつかは後者で訳していて、これはMulti-head Attentionとの対比をより明確にするためにこのように訳しています。
----------------------------------------
英語版翻訳元チャンネルの支援
https://www.patreon.com/3blue1brown
アニメーションはmanimで作られています
https://github.com/3b1b/manim

英語版公式ソーシャルメディア
Webサイト: https://www.3blue1brown.com
Twitter:
Facebook: https://www.facebook.com/3blue1brown
Reddit: https://www.reddit.com/r/3Blue1Brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
https://vincerubinetti.bandcamp.com/album/the-music-of-3blue1brown
Stream the music on Spotify:
https://open.spotify.com/album/1dVyjwS8FBqXhRunaG5W5u
のqueryの質問を96パターン考えることで、多角的にその単語の意味を理解してるってことなのか?でもどうやって96パターンの異なるqueryを生成するんだ?ニューラルネットワークの初期値を確率的に変えることでqueryが分散するのか? - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

のqueryの質問を96パターン考えることで、多角的にその単語の意味を理解してるってことなのか?でもどうやって96パターンの異なるqueryを生成するんだ?ニューラルネットワークの初期値を確率的に変えることでqueryが分散するのか?

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @user-ml4qd8kh4l 様 
00:06:20 - 00:26:05
あたりの行列計算(内積)、この書き方だとK^T Qにすべきじゃない?そんなことない? - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

あたりの行列計算(内積)、この書き方だとK^T Qにすべきじゃない?そんなことない?

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @いあ-u1o5q 様 
00:10:29 - 00:26:05
初心者すぎて、あたりの説明がわからない……1文を区切ることで、入力された文章自体を学習の材料に出来ちゃうというのは分かった。でも、今回の例は形容詞は後に続く名詞を説明しているから大丈夫だけど、後置修飾の場合だったら、後ろのトークンが前に影響を及ぼせるようにしないといけないのでは?後置修飾の情報は、どうやって反映されるんだ? - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

初心者すぎて、あたりの説明がわからない……1文を区切ることで、入力された文章自体を学習の材料に出来ちゃうというのは分かった。でも、今回の例は形容詞は後に続く名詞を説明しているから大丈夫だけど、後置修飾の場合だったら、後ろのトークンが前に影響を及ぼせるようにしないといけないのでは?後置修飾の情報は、どうやって反映されるんだ?

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @端-d1y 様 
00:12:00 - 00:26:05
コンテキストウィンドウについて - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

コンテキストウィンドウについて

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @relocatable_a 様 
00:12:39 - 00:26:05
で96個のquery, key, valueのセットを並列にニューラルネットワークで学習させてるようだけど、 - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

で96個のquery, key, valueのセットを並列にニューラルネットワークで学習させてるようだけど、

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @user-ml4qd8kh4l 様 
00:20:50 - 00:06:20
〜が答えですね。つまり、元の行列を一度各ヘッドに分解してattentionをしたあと、再結合してアウトプットしてるんですね。 - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

〜が答えですね。つまり、元の行列を一度各ヘッドに分解してattentionをしたあと、再結合してアウトプットしてるんですね。

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @ner-m9w 様 
00:22:20 - 00:26:05
maskingというのは予測をするために行う行為で、一方での演出は事前の学習段階を示している、ということなのでしょうか? - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

maskingというのは予測をするために行う行為で、一方での演出は事前の学習段階を示している、ということなのでしょうか?

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @端-d1y 様 
00:23:20 - 00:26:05
例えばで、後のトークンから前のトークンにも線が伸びて干渉しているような演出がなされているので、後ろから前にも影響を及ぼすのかと勘違いしてしまいました演出のことは気にしないことにします! - GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習

例えばで、後のトークンから前のトークンにも線が伸びて干渉しているような演出がなされているので、後ろから前にも影響を及ぼすのかと勘違いしてしまいました演出のことは気にしないことにします!

GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
2024年06月08日  @端-d1y 様 
00:23:20 - 00:26:05

3Blue1BrownJapan

※本サイトに掲載されているチャンネル情報や動画情報はYouTube公式のAPIを使って取得・表示しています。動画はYouTube公式の動画プレイヤーで再生されるため、再生数・収益などはすべて元動画に還元されます。

Timetable

動画タイムテーブル

タイムテーブルが見つかりませんでした。