【エンジニア視点】中学受験はLLMの学習と同じ構造だった｜塾＝SFT、暗記＝RAGというアナロジー

Contents

1 中学受験はLLMの学習と似ているのではないか
2 地頭は「Pre-training」
3 塾の本質は「SFT」
4 暗記科目はRAG
5 一番怖いのは「過学習」
6 すべての子どもにSFTが必要なわけではない
7 SAPIXはOpenAIっぽい
8 スポーツはRLHFかもしれない
9 まとめ

中学受験はLLMの学習と似ているのではないか
地頭は「Pre-training」
塾の本質は「SFT」
暗記科目はRAG
一番怖いのは「過学習」
すべての子どもにSFTが必要なわけではない
SAPIXはOpenAIっぽい
スポーツはRLHFかもしれない
まとめ

中学受験はLLMの学習と似ているのではないか

最近、中学受験という巨大プロジェクトを間近で見ていて、あることに気づきました。

中学受験の勉強プロセスは、LLM（大規模言語モデル）の学習構造とかなり似ている

教育論や精神論をいったん横に置き、純粋に「学習システム」として中学受験を見てみると、このアナロジーは意外としっくりきます。

地頭は「Pre-training」

まず前提として、人間にはベース能力があります。

LLMで言えば Pre-training（事前学習） の部分です。

幼少期の

読書
会話
遊び
体験

こうした大量の経験データを通して、子どもの思考の基盤は作られます。

いわゆる地頭と呼ばれる部分です。

塾に入ったからといって、このベース能力が急激に変わるわけではありません。

塾の本質は「SFT」

多くの親は「塾に入れると賢くなる」と思っています。

しかし実際に塾がやっていることは、LLMで言うとSFT（Supervised Fine Tuning）に近いものです。

つまり、特定の問題に強くなるように調整する作業です。

例えば次のようなものです。

つるかめ算
場合の数
規則性
記述問題の書き方

こうした入試特有の問題パターンに対する回答精度を高めているわけです。

つまり塾は

入試問題というタスクに特化したトレーニング

を行っているとも言えます。

暗記科目はRAG

社会や理科の暗記。

これもLLMの概念で説明できます。

それがRAG（検索拡張生成）です。

例えば次のような知識です。

歴史年号
地理
生物分類

これらは推論だけでは出てきません。

つまり、頭の中に知識データベースを作り、そこから検索するイメージです。

中学受験の暗記は「知識インデックス構築」に近いのかもしれません。

一番怖いのは「過学習」

LLMでも問題になるのがOverfitting（過学習）です。

これは

特定の問題には強い
応用が効かない

という状態です。

中学受験でもよく見られます。

塾のテストでは高得点なのに、少し形式が変わると急に解けなくなる。

これはある意味、問題パターンに慣れすぎた状態とも言えます。

すべての子どもにSFTが必要なわけではない

この構造を考えると、一つの疑問が出てきます。

すべての子どもに中学受験というトレーニングが必要なのか？

論理的な推論が得意なタイプの子どもには、このトレーニングは合います。

一方で

人をまとめる力
対人関係のセンス
行動力

といった能力で輝くタイプもいます。

そういう子どもにとっては、早い段階でペーパーテストに特化する必要はないのかもしれません。

SAPIXはOpenAIっぽい

ここまで考えると、塾の性格も少し見えてきます。

塾	LLM企業
SAPIX	OpenAI
早稲田アカデミー	Anthropic
日能研	Google
四谷大塚	Meta

完全に個人的な印象ですが、例えばSAPIXは

問題の洗練度
上位層のレベル
教材の完成度

を見ると、最先端モデルを作る研究所のような雰囲気があります。

ただし当然ながら、すべての子どもに合うわけではありません。

スポーツはRLHFかもしれない

LLMの最後の調整工程にRLHFがあります。

これは人間のフィードバックをもとに、社会で自然に振る舞えるよう調整する工程です。

子どもにとって、この役割を担うのは

スポーツ
武道
チーム活動

のようなものかもしれません。

勉強とは別の形で

礼儀
自制心
協調性

を学ぶことになります。

まとめ

中学受験をLLMの学習として眺めると、少し冷静に見えてきます。

塾は魔法ではありません。
しかし、特定の目標に対して非常に強力なトレーニング装置ではあります。

大事なのは、子どもがどんな「モデル」なのかを理解すること。

そしてその子に合った学習を選ぶことなのかもしれません。