【SQL実践｜実務向け】実務で迷わないCHAR型とVARCHAR型の使い分けとパフォーマンス最適化の勘所

データベース設計において、文字列型であるCHAR型とVARCHAR型の選択は、システムのパフォーマンスやストレージ効率に直結する極めて重要な決定事項です。多くのエンジニアが「なんとなく可変長だからVARCHARを使っておけば良い」という認識で設計を進めがちですが、実務の現場では、それぞれの特性を深く理解していないことが原因で、インデックスの効きが悪くなったり、断片化によるパフォーマンス低下を招いたりすることがあります。本記事では、DBAの視点から、両者の内部構造の違い、パフォーマンスへの影響、そして実務における正しい選定基準について詳しく解説します。

CHAR型とVARCHAR型の内部構造と違い

まず、両者の基本的な定義から整理しましょう。CHAR型は固定長文字列型であり、VARCHAR型は可変長文字列型です。

CHAR(N)として定義した場合、その列には常にN文字分のバイト数が割り当てられます。例えば、CHAR(10)と定義し、「ABC」という文字列を保存した場合、内部的には「ABC」の後に7つのスペース（パディング）が追加され、常に10文字分として物理領域を占有します。

一方、VARCHAR(N)は可変長です。VARCHAR(10)に「ABC」を保存した場合、実際に使用されるのは「ABC」のデータ量（＋数バイトの長さ情報を管理するためのオーバーヘッド）のみです。このため、ストレージの節約という観点ではVARCHARが有利に見えます。

しかし、ここで注意が必要なのは、現代のデータベースエンジン（MySQLのInnoDBやPostgreSQLなど）の内部動作です。例えば、MySQLのInnoDBでは、VARCHARであっても内部的には固定長に近い形式で処理されるケースがあり、単純に「VARCHAR＝省スペース」という図式が常に成立するわけではありません。

なぜ固定長（CHAR）が選ばれることがあるのか

「常にVARCHARで良いのではないか」という疑問に対して、DBAは「データの性質」という観点から回答します。CHAR型が選ばれるべきケースは、以下の条件を満たす場合です。

1. データの長さが常に一定であること
2. データの更新頻度が極めて低いか、更新されても長さが変わらないこと

典型的な例は、郵便番号、ISO国コード（JP, USなど）、MD5やSHA-1などのハッシュ値、固定長のユーザーIDやフラグ文字列などです。これらのデータは長さが固定されているため、CHAR型を選択することで、データベースエンジンはデータの開始位置や終了位置を計算する必要がなくなり、検索や取得の処理が極めて高速になります。

また、VARCHAR型は更新時に「長さが変わる」可能性があるため、ページ内の空き領域への断片化（フラグメンテーション）を誘発しやすいという弱点があります。CHAR型であれば、上書き更新が発生しても領域サイズが変わらないため、インプレース更新が容易であり、断片化を最小限に抑えることができます。

実務におけるパフォーマンス最適化のコード例

次に、具体的なケーススタディを通してパフォーマンスへの影響を見てみましょう。ここではMySQLを想定した例を挙げます。

— ケース1：固定長のIDをCHARで定義する場合
CREATE TABLE users (
user_uuid CHAR(36) PRIMARY KEY,
username VARCHAR(50) NOT NULL
) ENGINE=InnoDB;

— ケース2：可変長のテキストをVARCHARで定義する場合
CREATE TABLE logs (
log_id INT AUTO_INCREMENT PRIMARY KEY,
message VARCHAR(255) NOT NULL,
created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
) ENGINE=InnoDB;

ケース1のように、UUIDのように必ず36文字で構成されるデータは、CHAR型で定義することで、インデックスのルックアップ速度が向上します。VARCHAR(36)で定義した場合、インデックスの各エントリに「長さ情報」を保持するための追加バイトが必要となり、メモリ効率がわずかに悪化します。

また、頻繁に検索対象となるカラムをCHAR型にすることで、インデックスのサイズを小さく保つことができ、結果としてバッファプールへのキャッシュ効率が向上します。

VARCHAR型の落とし穴：メモリ割り当てとソート

VARCHAR型には「メモリ管理のコスト」という隠れた代償があります。多くのデータベースエンジンは、一時テーブルを作成してソート処理を行う際、VARCHARカラムに対して定義上の最大長（N）に基づいてメモリを割り当てることがあります。

例えば、VARCHAR(255)を大量に定義したテーブルでORDER BY句を含むクエリを実行すると、データベースは一時的に最大サイズ分のメモリを確保しようとします。もし定義がVARCHAR(10000)のような巨大な値であれば、メモリ不足を引き起こし、ディスクベースのソート（ファイルソート）が発生してパフォーマンスが劇的に低下します。

したがって、VARCHARを使用する場合であっても、必要以上に大きなサイズを指定するのは避けるべきです。実務では「VARCHAR(255)が無難」という設計をよく見かけますが、実際のデータが最大20文字程度であれば、VARCHAR(30)など、現実的な最大値に絞るのがプロの設計です。

DBAが推奨する選定フローチャート

実務でカラム型を決定する際は、以下のステップで検討してください。

ステップ1：データの長さは100%固定か？
YESならCHARを選択。NOならステップ2へ。

ステップ2：データの長さはどの程度変動するか？
最大値と最小値の差が小さい場合（例：10文字〜15文字）、CHARを選択する余地があるか検討。差が大きい場合はVARCHARを選択。

ステップ3：インデックスを貼る予定はあるか？
頻繁に検索・結合に使用するカラムであれば、可能な限り固定長（CHAR）または短いVARCHARに抑える。

ステップ4：更新頻度は高いか？
頻繁に更新されるカラムであれば、断片化を防ぐために固定長（CHAR）を優先的に検討する。

まとめ：理論値と実務のバランス

CHARとVARCHARの選択は、単なるストレージの節約の問題ではなく、データベースの「物理的な読み書きの効率」を左右する設計判断です。

多くの開発者は、ディスク容量が安価になった現代において「ストレージ効率」を重視しがちです。しかし、DBAの視点では、ディスク容量よりも「CPUの計算コスト」「メモリのキャッシュ効率」「インデックスの断片化」を優先します。

特に、大規模なデータセットを扱う場合、CHAR型を適切に活用することで、クエリの実行計画が安定し、メモリ不足によるパフォーマンス低下を防ぐことができます。逆に、安易なVARCHARの多用は、インデックスの肥大化と断片化を招き、長期的にはシステムのメンテナンスコストを増大させます。

最後に、データベース設計は「一度決めたら終わり」ではありません。リリース後のデータ分布の変化に合わせて、必要であれば型の見直し（ALTER TABLE）を行う勇気も必要です。ただし、型変更はテーブルの全スキャンを伴う重い操作になりがちですので、設計フェーズで可能な限り最適な型を選択しておくことが、最もコストの低いパフォーマンス最適化となります。

本記事が、皆さんのデータベース設計における意思決定の一助となれば幸いです。常に「なぜその型を選んだのか」という理由を言語化できるエンジニアを目指してください。それが、堅牢で高速なシステム構築への第一歩となります。