Attention is all you need

    Attention is All You Need

    Attention is All You Need

    1) Query, Key, Value Q = Query, K=Key, V=Value 우리가 Attention을 통해 최종적으로 구하고자 하는 것은 Query가 가져야 하는 값. 즉, “Query와 Key와의 비교를 통해, Query가 가져야 하는 값”을 찾는 과정 위 식에서 Query와 Key의 비교가 둘의 행렬을 곱해 주는 부분 루트 dk로 나눠 주는 것은 스케일을 조정해주기 위함 여기까지가 Attention의 Energy를 구하는 과정 Energy란 입력 시퀀스 내의 다른 위치들 간의 상대적인 중요성을 계산하기 위해 사용하는 에너지 값(=attention score) Energy를 구한 후에 softmax를 거치는데, 이 과정까지 거치게 되면 Query의 특정 부분이 Key를 이루는 모든 부분들에 대..