OmegaT と Google 翻訳者ツールキットで Wikipedia を翻訳してみる

以前は wikipedia:翻訳メモリOmegaT というツール使ってよく翻訳していました。OmegaT の基本機能は以下になります。

エキスパート Python プログラミングの翻訳 を始めるときに他の訳者の方々に翻訳メモリについて尋ねてみたら、当時は誰も使っていませんでした。そして @ と一緒に翻訳作業を行う中で、

重要なのは、日本語力

Shibu's Diary: エンジニアは翻訳をやるとお得

という意味がよく分かり、ツールを使う必然性がなくなり、その後は OmegaT は使わなくなりました。

閑話休題。私が OmegaT を使っていた頃のバージョンは 1.4 から 1.6 ぐらいだったと思います。その後、Google 翻訳 機能が追加されたと聞き、改めて使ってみることにしました。今回検証した OmegaT のバージョンは 2.0.5_4 です。

ここで、ふと疑問が出てきました。

OmegaTGoogle 翻訳機能があるのは素晴らしいけれど、
それなら最初から Google 翻訳者ツールキット を使ったら良いのではないか。

何がどう違うのかがよく分からなかったので、双方のツールで実際に Plone (英語) を翻訳してみることにしました。OmegaTGoogle 翻訳者ツールキットもウェブから直接、原文をインポートできるので、翻訳を始めるにあたり特に前準備は必要ありません。始めるときに手間がかからないのはとても嬉しいですね。

  • Google 翻訳者ツールキット

インポートした後の画面のスクリーンショットです。OmegaT は分節ごとに上下に原文と訳文がくっついた形態で表示されます。Google 翻訳者ツールキットは左右(もしくは上下)に原文と訳文を比較するような形態で表示されます。双方のツールとも、分節ごとに編集領域が割り当てられるところは同じです。

  • Google 翻訳者ツールキット

では早速、翻訳に取り掛かりましょう。

ん?最初の段落の表示内容が双方のツールで随分違っていますね。

  • Google 翻訳者ツールキット

Wikipedia から原文をインポートしたので wiki 記法の扱いが違うようです。OmegaTwiki 記法を含めて原文をそのままのテキストで取り込み、Google 翻訳者ツールキットは原文のテキストを加工して表示しているようです。翻訳が完了した後で Wikipedia にコピペして戻すことを考えると Google 翻訳者ツールキットの自動的な加工はちょっと気になります。Google 翻訳者ツールキットのこの訳文をそのままローカルにダウンロードしてみると、wiki 記法に戻されていることは確認しました。

  • Google 翻訳者ツールキット

wiki 記法ではハイパーリンクを [ [リンク|リンクの名前] ] で表します。例えば、上記のテキストの

[[アプリケーションサーバ|サーバー]]

の原文は

[[application server]]

です。リンクを含む wiki 記法そのものが勝手に翻訳されると、訳文の作成後に wiki 記法のハイパーリンクの抜き出しと修正が必要になります。これはちょっと困ったものだなと思い、今回は Google 翻訳者ツールキットではなく、wiki 記法をそのまま扱える OmegaT で翻訳を行うことにしました。

さー、OmegaT でどんどん翻訳するよ。Google 翻訳による機械翻訳が分節ごとに必ず表示されます。

実際に使ってみると、Google 翻訳はこんなときに快適です。

  • ある単語だけ意味が分からない
  • 意味は通るけど、他の参考訳も見てみたい
  • 自分の訳文と機械翻訳が一致したらショートカットで一発置換

また分節内の短い文章の翻訳精度は高い方だと思います。文章の語順を並び替えて、繋ぎの「てにをは」を日本語的に自然な形にしたら、それで十分なケースも多かったです。

快適に翻訳をしていると、ある分節で TMX ファイルからの参考訳文が表示されました。

  • Google 翻訳者ツールキット

双方のツールとも任意の TMX ファイルを追加できるので、あらかじめ NetBeans ドキュメント作成ガイドライン で公開されている TMX ファイルを追加しておきました。おや、同じ TMX ファイルを追加したのに表示内容が違います。Google 翻訳者ツールキットでは、グローバル共有 TM から参考訳文が表示されているようです。Google 翻訳者ツールキットは世界中(?)の公開されている翻訳結果を使って TMX ファイルを生成・共有しているようです。自分で TMX ファイルを作成しなくても、色んな参考訳文が見れるのは素晴らしいですね。まさに Google ならではの取り組みとも言えます。

実際、この参考訳文は OmegaT で表示されている nb50ja よりも Google 翻訳者ツールキットで表示されているグローバル共有 TM の方が参考になりますね。

次に箇条書きがたくさん出てきました。

  • Google 翻訳者ツールキット

箇条書きの短い文章を翻訳するのは難しくないけれど、大量にあるので一括置換して、レビューでおかしなところだけ直せると効率的です。OmegaTwiki のフォーマット情報を保持していないので、Google 翻訳の内容を一括置換するのはやや危険です。冒頭のフォーマット情報をツールが加工しないこととのトレードオフになるので仕方ありません。一方、Google 翻訳者ツールキットの機械翻訳の結果は8割程度、そのまま使えそうな内容でした。短い文章が大量にある箇条書きは Google 翻訳者ツールキットの方が優れています。

少し使ってみての双方のツールの機能や差異をまとめます。個人的評価の見方は以下になります。

  • O < G: G の方が良さそう
  • O <= G: どちらかと言えば G の方が良さそう
  • O = G: どちらも同じ、もしくは用途次第
項目 OmegaT(O) Google 翻訳者ツールキット(G) 個人的評価
ユーザインタフェース 単調でややごちゃごちゃ ペイン分割により見易い O < G
wiki 記法 そのまま 加工 O = G
ショートカット あり あり O = G
操作性 良い 良い O = G
カラーハイライト あり あり O = G
コメント追加 不可 O < G
コラボレーション TMX を共有 原文/TMX を Web で共有 O < G
TMX 可(グローバルTM) O <= G
用語集 O = G
サイズ制限 なし あり O > G
対応フォーマット html/xhtml,odt/ods/odp html,odt,doc,rtf,txt O > G
対応フォーマット doc/xls/ppt,rtf,txt,wiki wiki,knol O > G
ドキュメント 翻訳途中 翻訳途中 O = G
インストール Java が必要 不要 O < G
管理 プロジェクト単位 ドキュメント単位 O = G
原文ファイル扱い 削除は手動 追加/削除 O <= G

全体的に見ると Google 翻訳者ツールキットの方が良さそうと思える項目が少し多いかもしれません。とはいえ、翻訳メモリとしての基本機能はどちらも十分なので、翻訳を行うのは1人なのか複数人なのか、複数ファイルを1プロジェクトとして管理したいかそうでないか、フォーマットに対応しているかどうか、用途次第で使い分けるのが良さそうな気がします。今回の wikipedia の翻訳には OmegaT を使いましたし、、、

と言っているうちに、なんと! wikipedia:Plone が翻訳されました。