UTF-8およびBOM

データベース活動 では、BOM (http://en.wikipedia.org/wiki/Byte-order_mark) を含む UTF-8 ファイルのインポートにまだ問題があるようです。

--Frank Ralf 10:36, 13 July 2009 (UTC)

BOMとは何ですか？

マルチバイト文字の場合、バイトの出現順序を示すために使用されます。

Unicodeの特殊文字を表示できるテキストエディタが必要です。Windows用の優れたUnicodeテキストエディタとしては、SC UniPadがあります。

この図は、OpenOffice CalcからエクスポートしたCSVファイルで、最初のデリミタの後にも BOM (#FEFF) が入り込んでいます。

MoodleがLinuxサーバにインストールされている場合、以下のコマンドラインのいずれかを試してみてください:

find . -type f -print0 | xargs -0r awk '/^\xEF\xBB\xBF/ {print FILENAME}{nextfile}'
fgrep -rl `echo -ne '\xef\xbb\xbf'`

検索 & 削除！

find . -type f -exec sed 's/^\xEF\xBB\xBF//' -i.bak {} \; -exec rm {}.bak \;

上記のユニコード対応のテキストエディタであれば、BOMを削除することができ、中にはファイルを開いたり保存したりする際に自動的にBOMを削除するものもあります。

また、Notepad++のように、BOMなしでファイルを保存できるテキストエディタもあります。