[戻る]
一括表示

テキストファイルの文字コード自動判別 投稿者:てぅ 投稿日:2022/09/29(Thu) 22:49:12 No.378

いつもありがたく使わせていただいております。

テキストビューアでS-JISとUNICODE(UTF-16)のファイルは正しく判別されますが、
UTF-8、EUC、JISの場合は、S-JISと判定され文字化けしています。
(UTF-8が自動判別されるとうれしいです)

文字コードを手動で設定すれば、正しく表示されますが、
私の環境がおかしいのでしょうか?

Re: テキストファイルの文字コード自動判別 投稿者:おやぶん 投稿日:2022/10/01(Sat) 15:30:52 No.379

自動判別ですが、ファイルの先頭になるBOMで、UNICODEとUTF8かを判別しています。
そのため、これらがない場合には、必ずSHIFT-JISという判別になっています。

UTF-8の場合、BOM無しの場合が多いためかもしれません。
ファイルの先頭を100バイトくらいチェックすればもうちょっと精度が上がるかもしれませんので調べてみます。

Re: テキストファイルの文字コード自動判別 投稿者:おやぶん 投稿日:2022/10/05(Wed) 23:59:59 No.381

2022/10/06の版で自動判別を強化しました。
確認をお願いします。

強化したとはいえ、必ずしも正しく判別はできません。、
先頭の1028byteをチェックしているので、これ以降に日本語などが入っていると誤認識します。
また、バイナリファイルも判別はできません。
EUCのファイルをShift JISで読み込んだときも、文字列変換ができてしまうため、Shift JISとして読み込む場合が多いです。(対処法が今のところ見つかっていません)

Re^2: テキストファイルの文字コード自動判別 投稿者:てぅ 投稿日:2022/10/06(Thu) 08:45:17 No.383

いつもありがとうございます。
Unicode 64bit版、32bit版、マルチバイト版でも表示したいUTF-8のファイルが自動判別されました。

早々のご対応ありがとうございます。

- WebForum -