<aside> 💡

The original paper is available from arXiv. It's recommended to keep the original open as you follow along with this series.

元の論文はarXivから入手できます。このシリーズを読み進める際は、元の論文を開いておくことをお勧めします。

</aside>

Let's begin with the abstract and introduction to understand what this paper is about. This is the first few sentence from the abstract.

概要(abstract)と序論(introduction)から始めて、この論文が何について書かれているのかを理解しましょう。これは概要の冒頭の数文です。

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.

主流な配列変換モデルは、エンコーダとデコーダを含む複雑な再帰型、あるいは畳み込みニューラルネットワークに基づいている。最も優れた性能を示すモデルは、アテンション機構を介してエンコーダとデコーダを接続している。本稿では、再帰や畳み込みを完全に排除し、アテンション機構のみに基づいた、シンプルで新しいネットワーク・アーキテクチャである Transformer を提案する。

Basically, they are claiming that their new architecture called Transformer is better than the other old and common architectures at the time.

つまりTransformer と呼ばれる新しいアーキテクチャが、当時の他の一般的なアーキテクチャよりも優れていると主張しています。

At a very high level, the model discussed here is a computer program that takes text as input and outputs another text. The task they are discussing in this paper is translation of relatively short text. The size and sophistication of the model is nothing comparable to AI models today, but this architecture became the foundation for the big leap.

大まかに言えば、ここで議論されているモデルは、テキストを入力として受け取り、別のテキストを出力するコンピュータプログラムです。この論文で扱われているタスクは、比較的短いテキストの翻訳です。モデルのサイズや洗練度は今日のAIモデルには及びませんが、このアーキテクチャは後の大きな発展の基礎となりました。

In the paper, they compare the new architecture with other common architectures at the time, RNN and CNN, and claim that the new architecture has significant advantages over them.

論文では、当時の主流だったRNNやCNNと新しいアーキテクチャを比較し、Transformerが大きな利点を持っていると主張しています。

The new architecture is "based solely on attention mechanisms," which is what we are going to spend the whole pages on. But before that, let's briefly talk through a few keywords necessary to understand the paper.

新しいアーキテクチャは「アテンション機構のみに基づいて」いて、これがこれから詳しく見ていく部分です。ですがその前に、論文を理解するために必要なキーワードをいくつか簡単に押さえておきましょう。