【Java】文字化けを防ぐ方法

2025年5月17日2025年7月4日

Javaで開発をしていると、文字化けに悩まされた経験はありませんか？

たとえば、Windows環境で作成したCSVファイルを本番のLinuxサーバーで処理したら、日本語の顧客名が全て「��」に化けてしまった。あるいは、ローカルでは正常に動作していたログ出力機能が、本番環境では文字化けを起こしてしまう――そんなトラブルに直面した方も多いはずです。

こうした問題の多くは、「デフォルトの文字エンコーディングに依存している」ことが原因です。

この記事では、Javaにおける文字化けの仕組みと原因を解説し、どのようにすれば安定して文字を扱えるのか、どんなコードを書けば安全かについて、実例を交えて丁寧にご紹介します。

なぜ文字化けが起きるのか？

Javaでは、文字コードを明示的に指定しない場合、実行環境のデフォルトエンコーディングが自動的に使用されます。この「デフォルト」は、JVMが起動しているOSのロケールや設定によって異なります。

たとえば、日本語版のWindowsでは MS932（Shift_JIS） が使われる一方、LinuxやmacOSの多くの環境では UTF-8 が標準です。

環境によるデフォルトエンコーディングの違い

実行環境	デフォルトエンコーディング
Windows（日本語版）	MS932（Shift_JIS互換）
macOS / Linux	UTF-8

読み書きが異なる文字コードで行われると、本来の文字が正しく解釈されず、文字化けが発生してしまいます。
つまり、「ある環境では正常に見えても、別のOSに移した瞬間に文字化けが起きる」のは、コードが実行環境のエンコーディングに依存しているためなのです。

デフォルトエンコーディングを確認する方法

自分の環境のエンコーディングが何かを知りたい場合には、Charset.defaultCharset()で確認することができます。

System.out.println("Default charset: " + Charset.defaultCharset());

依存してはいけないNGコード例

次のようなコードは、一見シンプルに見えますが、実行環境のデフォルトエンコーディングに依存しているため、本番環境でのトラブルの原因となります。

// ファイル読み込み
FileReader fr = new FileReader("input.txt");
InputStreamReader isr = new InputStreamReader(new FileInputStream("input.txt"));

// ファイル書き込み
FileWriter fw = new FileWriter("output.txt");
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("output.txt"));

// バイト配列 ⇒ 文字列
String text = new String(byteArray);

// 文字列 ⇒ バイト配列
byte[] byteArray = text.getBytes();

これらのコードでは、文字コードが明示されていないため、JVMが動作しているOSの設定に依存して読み書きや変換が行われます。

その結果、開発環境では正常でも本番環境では文字化けするなど、移植性や再現性に欠ける深刻な問題が発生します。特にチーム開発やCI/CDパイプライン、本番環境へのデプロイ時には、デバッグが困難な障害を引き起こす可能性があります。

安定した方法：エンコーディングを指定する

文字化けや環境依存のトラブルを防ぐために最も重要なのは、文字エンコーディングを明示的に指定することです。

Javaでは、StandardCharsets.UTF_8 などの定数を使うことで、安全かつ明確にエンコーディングを指定できます。これにより、実行環境に左右されず、常に正しい文字の読み書きが保証されます。

✅ 正しいコード例（UTF-8を明示）

// ファイル読み込み
FileReader fr = new FileReader("input.txt", StandardCharsets.UTF_8);
InputStreamReader isr = new InputStreamReader(new FileInputStream("input.txt"), StandardCharsets.UTF_8);

// ファイル書き込み
FileWriter fw = new FileWriter("output.txt", StandardCharsets.UTF_8);
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("output.txt"), StandardCharsets.UTF_8);

// バイト配列 ⇒ 文字列
String text = new String(byteArray, StandardCharsets.UTF_8);

// 文字列 ⇒ バイト配列
byte[] byteArray = text.getBytes(StandardCharsets.UTF_8);

FileReaderとFileWriterはJava 11以降、第2引数でCharsetを指定できるようになりました。
それ以前のバージョンで文字コードを指定する場合には、InputStreamReaderOutputStreamWriterを使う必要があります。

ファイル読み込み時にはBufferedReader、ファイル書き込み時にはBufferedWriterやPrintWriterでラップして利用するケースが実際には多いです。

なぜ `StandardCharsets.UTF_8` を使うべきか？

例外やスペルミスのリスクがない: Charset.forName("UTF-8") と違い、コンパイル時に検証される定数
高いパフォーマンス: 事前にキャッシュされた定数のため、文字列解析のオーバーヘッドがない
Java 7以降の標準API: 信頼性とメンテナンス性に優れる
UTF-8は国際標準: マルチバイト文字にも強く、グローバル展開にも対応可能
将来性: 現代のWebアプリケーションやAPIの標準的な文字コード

補足：JVM起動時にエンコーディングを指定する方法

コードで毎回エンコーディングを指定するのが難しい場合は、JVM起動時のオプションでデフォルトエンコーディング自体を明示的に指定する方法もあります。

java -Dfile.encoding=UTF-8 com.example.app.HelloWorld

この設定によって、エンコーディング未指定の場合には UTF-8 が使われるようになります。ただし、アプリケーション内で別のエンコーディングを指定している場合は、そちらが優先される点に注意してください。

ベストプラクティスと注意点

以下のようなガイドラインを守ることで、文字化けリスクを大幅に減らすことができます。

項目	推奨内容
ファイル読み書き	`InputStreamReader` / `OutputStreamWriter` + `StandardCharsets.UTF_8`
バイト⇔文字変換	`new String(byte[], Charset)` や `String.getBytes(Charset)`
エンコーディングの指定	`Charset.forName("UTF-8")` ではなく、`StandardCharsets.UTF_8` を使用
外部ファイルの処理	入出力形式（文字コード）をチームで共有された仕様として明文化
レガシーコード対応	JVM起動オプション `-Dfile.encoding=UTF-8` で暫定対応