北スラヴ語(人工言語群)の系統分析――お手軽系統分析――
この投稿は「語学・言語学・言語創作 Advent Calendar 2020」の9日目の記事です。
あいさつ
始めまして、時耕ひとみです(あるいは小河羽衣、ひ〇〇、その他もろもろの名義がありますが)。私のメインはエスペラント諸語についてであり、「ラテン語から標準エスペラントまでの経時的な変化を現実に作られた人工言語群を傍証として作り上げる」という壮大な茶番または遠回りを目標にしています。この目標のために比較言語学っぽいことをかじってはいますがいかんせん専門として教育を受けたわけではないのでなかなか怪しいところがあります。
今回はエスペラント諸語でやっていたような系統樹をなにか別のものを題材にして描くことを記事にしようと思い立って急にアドカレに参加しました。対象を北スラヴ語という人工言語群にしたのは①自然言語を題材にすると雑な語りでボロが出るので人工言語でやりたい、②大きなくくりで同系といえるような人工言語群がエスペラント諸語と北スラヴ語くらいしかない、という情けない理由です。
北スラヴ語とは、端的に言うと悪ふざけの部類です。現実のスラヴ語派は南スラヴ語(セルビアクロアチア語、ブルガリア語など)と西スラヴ語(チェコ語とポーランド語など)と東スラヴ語(ロシア語やウクライナ語)の3つに分かれ、東西南北のうち北のみが実在しません。このような「現実には無い用語」を用いた言語系のジョークとしては殺格(生格のもじり)などというネタがありますね。北スラヴ語自体は一発ネタではなく何人もの人工言語作者が参加したプロジェクトでした。詳しくはここを読めばいいと思います
steen.free.fr
方針A
分析の方法としては本来ならば「スワデシュリストを作成して単語それぞれの類似度を計算しそれらを合算して距離行列を作成し樹形図を作る」というのが一番オーソドックスなやり方です。しかしこれをするには207語×nC2組の比較を行う必要があり、とても手作業で行うのは面倒です。しかし自動化するにしても私は情報系には疎いので何をどう書けばいいのかわかりません。そこでスワデシュリストではなく言語を特徴づける短い文章を集め、その1行の文字列同士の編集距離をもとにすることにしました。古い人工言語に共通で翻訳される短文と言えば、そう、「主の祈り」です。
www.krassotkin.ru
様々な言語の主の祈りを集めているサイトがあったのでここから引っ張りました。使用した言語は
自然言語
クロアチア語
ブルガリア語
マケドニア語
チェコ語
スロバキア語
ポーランド語
ロシア語
ベラルーシ語
ウクライナ語
人工言語
Nasika
Skuodian
Slavëni
Seversk
Slavisk
Lydnevi
Vozgian
Slovio
Interslavic
まず自然言語のみの結果がこう
だいたいよさげなので人工言語も足す
これ実はひと月前にやったやつで、この時は満足してたんですが冷静になって考えると「語彙の差より統語の差のほうがデカい」という問題点に気付きました。気付いたので方針を変える
方針B
結局語彙で比較することにしました、といってもスワデシュリストつくるの面倒だったので「主の祈りから共通しそうな内容語のみピックアップして一行につなげて編集距離を比較」という脳筋解決と相成った。使用した言語は
自然言語
クロアチア語
ブルガリア語
マケドニア語
古代教会スラヴ語
スロベニア語
チェコ語
スロバキア語
ポーランド語
カシューブ語
ロシア語
ベラルーシ語
ウクライナ語
人工言語
Nasika
Slavëni
Seversk
Slavisk
Lydnevi
Vozgian
方針Aの時と数が合わないのは前集めたデータを保存し損ねたという事情があります
まず自然言語のみの結果がこう
うーむ
どちらにしても「北スラヴ語に含まれる〇〇は[東西南]スラヴ語に含めることができます!」という感じの結果は得られませんでした、以上です。