Lailaps

~~ 英仏独伊西Wiktionary & Project GutenbergのEPWINGほか ~~

更新履歴

はじめに

2013年秋にフランス語を習い始めたのですが、発音が全く聞き取れず(blond, blanc, brun, un bon vin blancとか)、何とかしようとフリーの発音データを探していてフランス語のWiktionary (Wiktionnaire)にたどり着きました。フランス語の発音データだけあれば良かったのですが、せっかくなのでテキスト部分も、挿絵画像も、ついでに英独伊西のWiktionaryもEPWINGにしてみました。

Wikiサイトがダウンロード用に公開しているのは、HTMLそのものではなくてWiki形式のテキストです。これをEBStudioで処理するために自分でHTMLに変換しなければなりませんでしたが、数百~数千種類もある(しかも言語ごとに異なる!)テンプレートの文字列変換( {{m}} → m など)にかなり手こずりました。全部まじめに対応するとWikiシステムそのものを開発するのと同等になり、キリがないので主要そうなものだけ変換し、それ以外は {{...|...}} のままで残しました。どうぞご了承ください(フランス語の発音が分かればいいや、という個人的な割り切り(諦め?)もあります)。

EPWINGの仕様上、また変換の都合上、表示が本来の姿でないこともあります。気になった語はWiktionary本家サイトや他の辞書でもご確認ください。

もう一つ、20言語以上のプロの翻訳(採用条件では3カ国語以上必須、校正担当もプロ)がそろっている欧州評議会の議事録もEPWINGにして、パラレルコーパスとして使えるようにしてみました(言語によっては一部欠けていることもあります)。どんなものかは、2001年9月12日の特別会議議事録などをご覧ください。眺めていると楽しいのですが、何の役に立つのか私には分かりません。ただこれほどの内容のものは他にはありません。

[2015/04/18追記] Project Gutenberg にある英仏独伊西の作品テキストをEPWINGにしました。ただし膨大な作品があり、全部をEPWINGデータに収録出来なかったので、言語別の人気作(ダウンロード数が多いもの)ベスト100について、それに関わった作者の全作品を収録しました。たとえば英語では75作家、1531作品の収録となりました。青空文庫の全作品を収めた青空WINGのように、テキストの全文検索に使えると思います。

なお収録した言語について分かって作っているわけではありませんので、とんでもない誤りなどがある可能性があります。テンプレート文字列変換の追加・修正なども、お気づきの際はどうぞお知らせください(→なんでも掲示板)。

EPWINGデータのセットアップ

ダウンロードして解凍し、お使いのEPWINGソフトで辞書を追加してください。

外字設定ファイルを使うと、外字がきれいに表示されます。EPWINGソフトによって使う外字設定ファイルの拡張子が決まります。EBWin=.map, EBMac/EBPocket for iOS=.plist, Logophile=.zgai(全角), .hgai(半角)です。Wiktionaryの外字はすべて全角、評議会議事録ではすべて半角です。適切なファイルを適切な箇所にコピーするなり読み込むなりしてください(方法はソフトのマニュアルをご覧ください)。

EBShrinkを使うことで、ファイルサイズをかなり小さくできます(Wiktionaryで半分くらい、議事録で1/5くらい)。ただし、圧縮した辞書はEBWin/EBMac/EBPocketなどでしか使えません。




WiktionaryのEPWING

■ダウンロード

外字設定ファイルは、EBWin/EBMac/EBPocketやLogophileで記号付き文字などをビットマップ画像ではなくUnicode文字として美しく表示するためのファイルです。ここで公開しているすべてのEPWING版Wiktionaryで共通です。

辞書データを更新したら外字設定ファイルも更新してください。

wiktio-en-170301 は、2017/03/01 に保存された英語WiktionaryのデータをEPWINGにしたものになります。

EPWING化にあたり、対象としている言語の解説部分だけを抜き出しました(英Wiktionaryの「そして」のような日英ページや、catのページでも英語以外のcatの解説は収録していません)。ごく一部の画像と音声が欠けていることがあります(ファイルの不在・形式変換失敗などのため)。フランス語Wikitionnaireでは、ページ末尾の発音セクションを見出し語の直後に移動しました。

音声ファイルは、オリジナルのOggファイル(44.1kHz, 一部ステレオ)をogg123でWavファイルに変換し、ファイルサイズ縮小のためsoxで16kHzモノラルにダウンサンプリングし、さらに自作プログラムで先頭・末尾のほぼ無音部分をカット&各ファイルの最大音量の統一(話者によって録音レベルが異なると不便だったので)したものです。画像ファイルはjpg/gif/png/svgのみとし、ImageMagickで240px四方のJPEGに縮小したものです。

[2017/03/11追記] フランス語のデータは、音声データを入れると2GBを越えてしまい、正常に使えるEPWINGを作れませんでした。今回のデータは、ひとまず音声無しとしました。夏の更新までに対応策を考えます。

EBWin4で発音音声が聞こえない場合、ファイル→設定→「音声再生にWindows Media Playerを使う」をチェックすると聞こえるようになることがありました(チェックがなくても聞こえることもあります。私の環境だけの一時的な問題なのかもしれません。もちろんミュートせず、ほかのソフトの音声は聞こえることを確認した上の話です)。

2014年6月公開版での英cat仏chat独Katze伊gatto西gato。EPWINGでは複雑な表示指定(表の表示も)ができないため、見栄えが変わっているところがあります。

猫の検索例

2014年6月公開版での英red仏rouge独rot伊rosso西rojo。英仏伊では色見本の矩形画像も追加しました。red hair の色が、英語とスペイン語ではかなり違います。

光の加減やら単なる一例としても、赤毛というより金髪・栗色のような。英WikipediaのRed hairはまあまあ赤毛, オランダで開催されるRedhead Dayの人々は金髪、赤みがかった金髪・・ではないのか?blondほど明るい色ではないのがred hair?スーパーサイヤ人の髪はthe Saiyan's hair becomes golden in colorとある(日本語を訳したせい?)。アカゲザル、う~~ん・・・。Google画像検索の赤毛のアンAnne of Green Gablesでは(アニメと実写の差もありますが)色合いがかなり違うように見えます(アニメっぽい色の髪もある)。red hairと言ったら桜木花道か、せめてred hairの検索画像くらいだと思っていました。でもnatural red hairなら red でも一応納得。白ワインも白くはない(牛乳ではない)ことですし(仏blancの色見本で、純白の他に明るく薄い黄色・ピンクなどもblancだと分かります)。

赤の検索例

■検索方法

■Wiktionaryについて

2017/03/11公開版

言語見出し数画像数音声数サイズ[GB]
英語721,13814,09315,7101.26
フランス語1,622,04523,00501.59
ドイツ語412,47017,55523,8991.85
イタリア語341,4574,5743950.38
スペイン語784,4384,8835720.64

2016/08/11公開版

言語見出し数画像数音声数サイズ[GB]
英語662,73513,21715,8181.21
フランス語1,541,31321,33818,4352.04
ドイツ語375,36317,06324,5151.80
イタリア語332,0604,3443940.37
スペイン語781,3844,8285890.64

2016/03/05公開版

言語見出し数画像数音声数サイズ[GB]
英語639,59712,28315,3461.16
フランス語1,500,59620,11618,5841.98
ドイツ語312,25615,35222,3121.72
イタリア語316,5844,1553950.34
スペイン語779,3124,6966140.63

2015/09/19公開版

言語見出し数画像数音声数サイズ[GB]
英語610,80511,59315,2601.12
フランス語1,431,56719,50418,5281.91
ドイツ語271,30016,26323,6131.61
イタリア語314,2764,0424000.33
スペイン語774,16343186400.60

英語Wiktionary:20150224から20150901で増えた見出し

2015/02/28公開版

言語見出し数画像数音声数サイズ[GB]
英語572,23810,73515,1961.08
フランス語1,431,57118,59417,8811.85
ドイツ語242,71213,65617,8031.37
イタリア語310,1603,8184000.32
スペイン語776,7034,4786730.62

2014/06/08公開版

言語見出し数画像数音声数サイズ[GB]
英語540,5379,88215,0161.0
フランス語1,431,56717,62418,5281.8
ドイツ語214,77212,60510,1471.0
イタリア語243,1083,4822600.25
スペイン語745,2674,4466630.62



Project Gutenberg人気作品のEPWING

■ダウンロード

Project Gutenbergには4万点以上の作品があり、そのすべてを一つのEPWINGに納めることは出来ませんでした。そこで、言語別に人気作ベスト100を調べ、それらの作品の作者の全作品テキストを収録しました。ただし、単純に機械処理可能なHTMLファイルが公開されていない作品は除外しました。ある言語からの翻訳作品や、同一作品の底本が異なるテキストなども取り込んでいます(面倒なのでいちいち作品をチェックして選別していません)。

収録作品がこれで十分なのか、私には全く分かりません。収録すべき作家・作品がありましたら、なんでも掲示板までお知らせください。

Project Gutenbergの検索例

■検索方法

ある単語やフレーズの出現箇所を検索する場合、英語版では全文検索で、仏独伊西では前方一致(最大3単語までを)で検索してください。

全言語共通

英語

仏独伊西




欧州評議会議事録のEPWING

■ダウンロード

テキストが膨大すぎて全部を一つのEPWINGにできなかったので、適当に分割しました(それでも一つ1.5GBくらいです)。収録期間は2001年9月~2011年6月まで(スラブ語派は2007年9月から)で、サイズ縮小のため、1日分収録・5日分(スラブ語派では2日分)スキップとしています。2001/09/12の議事録はあれば必ず含めました。どのEPWINGでも英語訳を含めてあります。英仏独伊西のデータは約2千万語入っています。一言語あたり数百万語はあります。

発言者の言語には、* を付けてあります(例:*EN)。英語以外の場合、各段落番号の直後に言語名を表示しています。ただし、データフォーマットの表記揺れや、話者が途中で言語を切り替えた場合など、一部正しく処理できていない箇所があります。参考程度にご覧ください。

外字設定ファイルは、ここで公開しているすべてのEPWING版欧州評議会議事録で共通です。

欧州評議会議事録の検索例

■検索方法

言語の種類は無関係に、ある単語が出てくる段落(とその複数言語訳)を前方一致・完全一致で見つけられます。




既知の問題

その他

著作権とライセンス

Wiktionaryは、CC BY-SAで公開されていますので、EPWING版も同じとします。

Project Gutenbergについてはこちらを参照:The Project Gutenberg License

欧州評議会議事録は、非商用ならテキストの再利用が認められています。EPWING版はCC BY-NC-SAとしておきます。

連絡先

謝辞

Wiktionaryの執筆・管理などに関わった皆様に深くお礼申し上げます。

Project Gutenbergに携わった皆様に深くお礼申し上げます。
創設者Michael Hart氏の、"the greatest value created by computers would not be computing, but would be the storage, retrieval, and searching of what was stored in our libraries"の一節は、私がフリーのEPWING辞書に取り組んでいる動機の一つです。

欧州評議会議事録に携わった皆様に深くお礼申し上げます。

EPWING関係のソフトを精力的に開発されているhishida様に深くお礼申し上げます。

Java Wav File IOのAndrew Greensted博士に深くお礼申し上げます。とても使いやすいライブラリでした。

関連プロジェクト

私が行っているEPWING開発プロジェクトは、他にもあります。




Lailaps (Λαῖλαψ)って?

プロジェクト名をどうしようか、EuropeWINGにでもするか(う~~~ん)、Europeといえばエウローペーだ、と、『西洋古典学事典』を開いたらエウローペーはゼウスから猟犬ライラプスを譲り受けたとありました(由来や飼い主については諸説あるようです)。

ライラプス (「暴風・突風」の意)ギリシア神話中、追いかけた獲物は必ず捕らえるという駿足の猟犬 『西洋古典学事典』より

うん、まあ、そんな感じ、そうなればいいな、と。

(C) 大久保克彦, 2014-2016