LLMs are becoming integrated into our daily lives. Their strength lies in being usable without understanding complex details because they speak in human language. But this also means we might not think much about how they actually work or what's really happening under the hood. You don't necessarily need to know the details (after all, who'd want a car you can't drive without understanding its mechanics?). But knowledge and good mental models provide guidance for thinking and resistance against baseless clickbaits and fearmongering.
LLMは日常生活にとけこみつつあります。人間の言葉で話してくれるので、複雑なことを理解しなくても使えるのが強みなのですが、これは実際にどのように機能しているのか、内部で何が起こっているのかについて、あまり考えなくなるかもしれないということでもあります。詳細を知る必要は必ずしもありません(仕組みを理解しないと運転できない車なんて要らないですよね)。しかし、知識や良いメンタルモデルは、思考のためのガイドとなり、根拠のない釣りや煽りに対する抵抗力を与えてくれます。
"Attention Is All You Need" is one of the most influential papers that shaped modern AI like Gemini and ChatGPT. Unlike previous models that read input sequentially, the architecture introduced in this paper processes everything at once, understanding connections between words through a self-attention mechanism.
Attention Is All You Needは、GeminiやChatGPTのような現代のAIを形作った最も影響力のある論文の1つです。入力を順番に読む以前のモデルとは異なり、この論文で紹介されたアーキテクチャはすべてを一度に処理し、自己注意 (self-attention) メカニズムを通じて単語間のつながりを理解します。
Returning to primary sources from time to time can be refreshing and eye-opening. When machine learning first became popular, we'd often tinker with models. But with LLMs, the scale has grown so massive that unless you're in a specialized job, most people don't directly build models anymore. I feel like reading and explaining papers is the next best learning method after building things yourself. In fact, while writing this series (which was originally a quick explainer I needed for my work), I noticed various gaps and ambiguities in my own understanding.
時々原典に立ち返ることは、新鮮で目を開かせてくれます。機械学習が広まり始めた頃はモデルをいじることもよくありました。しかしLLMでは規模が非常に大きくなり、専門職でない限り、ほとんどの人は直接モデルを構築しなくなりました。論文を読んで説明することは、自分で作ることに次ぐ最良の学習方法だと感じています。実際、このシリーズを書いている間(もともとは仕事用に書いた簡単な解説です)、自分の理解にさまざまなギャップや曖昧さがあることに気づきました。
<aside> 💡
By the way, I'm not saying the original paper is always correct just because it's the original. Many papers have oversights and biases stemming from the authors' optimism and hopes.
ちなみに、原典だからといって必ず正しいとは言っていません。多くの論文には、著者の楽観と希望に起因する見落としやバイアスがあります。
</aside>
One last thing before diving into details. For intuitive understanding, I'll describe the model's design and behavior as if it "thinks," "learns," "remembers," and "searches" like a human. But let's not forget that in reality, it's merely manipulating and computing numbers according to specific rules. Throughout this series, we'll come back to this point several times.
詳細に入る前に最後に1つ。ここでは直感的な理解のために、モデルが「考え」「学び」「記憶し」「探す」といったように設計や振る舞いを、あたかも人間のように説明しますが。ですが、実際には特定のルールに従って数値を操作し計算しているに過ぎないことを忘れないようにしましょう。このシリーズを通して、この点には何度か立ち返ります。
The original paper is available from arXiv. It's recommended to keep the original open as you follow along with this series.
元の論文はarXivから入手できます。このシリーズを読み進める際は、元の論文を開いておくことをお勧めします。