You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
기존의 Transfomer의 decoder에서는 masked self attention을 한 결과로 얻은 output으로 encoder-decoder attention을 합니다.
근데 여기서는 masked self attention과 encoder-decoder attention을 따로 하고 그 결과들을 더해서 attention_norm을 하고 있습니다.
이렇게 해도 self attention으로 얻은 정보와 encdoer의 input에 대한 정보를 둘 다 사용할 수는 있겠으나 encoder-decoder attention을 할 때 self attention으로 얻은 정보를 활용하지 못하고 있으므로 이를 수정해 주면 더 좋은 성능을 기대할 수 있을 것 같습니다.
아래 그림의 왼쪽이 기존 코드에서의 동작을 나타내고 있고 오른쪽이 수정 후의 동작입니다.
The text was updated successfully, but these errors were encountered:
SATRN.py의 TransformerDecoderLayer의 forward()부분에서
p4-fr-9-googoo/networks/SATRN.py
Line 444 in f8ee504
이 부분의 tgt를 out으로 바꿔야 할 것 같습니다.
한번 바꿔보고 실험 해보겠습니다.
<전체 코드>
기존의 Transfomer의 decoder에서는 masked self attention을 한 결과로 얻은 output으로 encoder-decoder attention을 합니다.
근데 여기서는 masked self attention과 encoder-decoder attention을 따로 하고 그 결과들을 더해서 attention_norm을 하고 있습니다.
이렇게 해도 self attention으로 얻은 정보와 encdoer의 input에 대한 정보를 둘 다 사용할 수는 있겠으나 encoder-decoder attention을 할 때 self attention으로 얻은 정보를 활용하지 못하고 있으므로 이를 수정해 주면 더 좋은 성능을 기대할 수 있을 것 같습니다.
아래 그림의 왼쪽이 기존 코드에서의 동작을 나타내고 있고 오른쪽이 수정 후의 동작입니다.
The text was updated successfully, but these errors were encountered: