OmegaT TMXの種の作り方…。
|
Lingoes2.4.2betaの言語ファイルをOmegaTを使って翻訳しようとしたのですが、テキストエディタでインスタントに作ったTMXでエラーが出て使えません。INIファイルにはHTMLでは文字エンティティにしなければならないような「&」や「"」やHTMLコードそのものが含まれています。エラーはどうやらその辺りで出てしまうようなのですが、一応XMLだけでなくプレーンテキストも扱えると思っていただけにこれにはちょっと困ってしまました…。
これはそもそもTMXをテキストエディタ+マクロで合成して作ったのがまずかったのですね…。プレーンテキストが扱えると言うのはあくまで原文 (翻訳元) なのでこういう場合は、Okapiツールのような専用プログラムでセグメント化/TMX作成するか、OmegaT 自身でそれぞれのファイルをセグメント化だけやらせて (そのためだけのダミーのプロジェクトを二つ使う)、その結果 (翻訳元と翻訳先が同じ英語と日本語の二つのTMXファイル) を合成してTMX化するのが正しいというかまともなやり方と言えそうです… (この方法はウェブページの翻訳で経験済み)。
という訳でそれをやらせてみようと思ってます。ただ、Lingoes の言語ファイルは UTF16LEなのですが、OmegaTではどうやらUTF8しか扱えないようです。エディタで開いて保存し直せば済むのですが、これも面倒といえば面倒です。それよりも面倒なのは、テキストエディタでTMXを作った時もそうだったのですが、INIファイルの項目を 1対1 になるように並べ替え/コメント削除をやらなければならない事。これはかなり面倒ですが、最初のTMXの種を作るには仕方の無い作業です…。
ところで、Lingoesの言語ファイル用には既にテキストエディタで作ったインチキTMXがあるので、このファイルからタグを全て削除すれば英語の日本語が交互に並んだファイルを簡単に作る事が出来ます。これをOmegaTのダミープロジェクトでセグメント化すれば一からはじめるより大分楽になりそうです。という事でそれを試してみました。日本語が混ざっているのでプロジェクトの翻訳元と翻訳先は両方とも日本語にしてこのファイルをインポートしてみました。セグメント化はデフォルトのルール設定でそれなりにできているようなのですが、何故か日本語が化けてしまいます…。ちなみにこのファイルの文字コードはUTF-8です。
いまのところこの原因は不明で、OmegaTのINIファイルのインポートフィルタがUTF-8を認識しないのかもしれませんが、このあたりはちょっと判りません。のちほどあれこれ試してみたいと思います。
|


