Twitterで試しに言語調査

ちょっと日本語のデータについて調べたいことがあって、いつもはスーパー同居人ちゃんに「こういう日本語はアリだろうか？」などと意見を聞いたりしているのですが、ふと「Twitterで聞いてみたらどうだろう？」と思い立って、聞いてみました。

しかし、なんせTwitterは140字制限がある。三つの文を用意して、「これ日本語としてどう？」みたいな質問の仕方をしてみましたが、Twitterの発言枠ではまとまった説明などができないので、意図がフォロワーの方々にあまり伝わらず、失敗。

やはりTwitterで調査を完結させることは無理だと悟りました。

そこで急遽、簡単なcgiスクリプトを書いて、ウェブ上に「調査票」を置き、そこからウェブ版Twitter経由で回答してもらうという形にしました。現在、「http://twitter.com/home?status=XXXX」とすれば，XXXXという文言をウェブ版twitterのテキストエリアに放り込むことができるようなので、CGIのSubmitを押したら、当該URLに飛ぶ仕様にしました。

ついでに、三つだけじゃつまらないので、全部で12の文を用意し、5段階で評価してもらいました（1＝「まったく許容できない」、5＝「じゅうぶん許容できる」）。当該ウェブサイトは→こちらです。（現在は投稿できません。）

調べたかったこと

調査の意図は、Twitterでも少し説明しました。以下に転載します。

少し解説すると、動詞の「含意」の強さを知りたいんだよね。たとえば、「殺す」には相手が「死ぬ」ことが含意されているので、「あいつを殺したが死ななかった」とは言えない（と思う）。それに対し、「洗濯する」はふつう対象を「きれいにする」ためにするものだけど、「服を洗濯したが全然きれいにならなかった」と言えるので、「洗濯する」という動詞の意味論は「きれいにする」を含意しない。
しかし日本語には微妙なケースもいろいろあって、例えば「機密文書を燃やしたが水に濡れていて燃えなかった」というのはOKだと言われている。つまり、「燃やす」は「燃える」が含意されているはずだが、意外に強い含意じゃないということになろうかと。
で、「あげる」「くれる」「もらう」には「受け取る」が含意されているわけだけど、どの程度強い含意なのか、自分で考えてわけがわからなくなってきたので（中略）、他の人の感覚がどうかを知りたいと思って。

ということで、動詞の「結果含意」がどの程度の強さなのかということを、結果含意を否定する文を続けた場合の容認度で計ろうとしたわけです。

結果

3/22夜から24の終わりまで、約1日半で32人の方から回答をいただきました。まことにありがとうございます。

以下が結果（スコアを平均したもの）です（n=31; 自分を除く; 回答漏れがあったものも今回は除外）。

【グラフの見方】
縦軸は各文に対する皆さんの評価で、5がOK、1がNGです。もっといえば、5ならば含意キャンセルOK、1ならば含意キャンセル不可ということになります。
y軸の最小値を1にしているのは、1が実質的な最低評価（ゼロ評価）に当たるからです。3がちょうど真ん中の評価となります。
棒グラフそれぞれ、上についている数字が平均値で、上下に伸びている「ヒゲ」は標準誤差を表します。
標準誤差というのは、データのばらつきから計算した誤差範囲ということで、例えば一番左端の棒グラフは平均値が4.8と出ましたが、この4.8という数値は31人の平均であり、もっともっとたくさんの人を対象に調べた場合、4.8からズレが生じる可能性がありますが、その予想されるズレの範囲が、このヒゲの範囲です。逆にいえば、このヒゲの示す範囲が小さいということは、31人の意見のばらつきが小さかった（よって、もっとたくさんの人数を調べても、結果は大差ないだろう）ということであり、ヒゲの示す範囲が大きいということは、31人の意見のばらつきが大きかった（よって、もっとたくさんの人数を調べた場合、違う数値が出てくる可能性が大きい）ということになります。

★★クリックして若干拡大★★

上のグラフのグループ分けは、テストしたかった３つのグループです。実際の調査では各グループの文が適度に散らばるように配置換えしましたので、並びが異なります。

解説

まず左端のグループの4つの文は、いわゆる「状態変化」（「Xに対して行動した結果、Xの状態が変化した」）の動詞のグループです。予想通り、「洗う」（スコア4.8）は状態変化の含意が弱いということが示され、「殺す」（スコア2.4）は状態変化の含意が強いという結果になりました。「殺す」はもっとスコアが低いかと思いましたが、2.4どまりでしたね。*1 「脱色したがまったく色は落ちなかった」(3.5)は、ぼく的には全然OKで、ただ、駄目だという人がいることも予想できたので、平均スコアとしては、まあ、こんなもんかなと思うのですが、そもそも「脱色」という「結果含意」がストレートに示されている語で、なぜ含意が弱いのか、興味深いところです。

真ん中のグループの3文は、主語移動の動詞で、「到着」がどの程度含意されているかがポイントです。「急行した」は、ぼく的には「到着」は全然含意されていないのですが、スコア3.9と、思ったより伸び悩んだのが意外でした。また、「行く」も、評価がかなり分かれ、3.3という「真ん中よりちょっと上」の評価となりました。対して、「来る」はスコア1.3と、「到着」の含意がかなり強いことが伺えます。「行く」と「来る」に差が出た（p < .001）のは事前の予想通りでしたが、「行く」はもうちょっと高くなるかと思っていました。

右端のグループの5文は、目的語移動の動詞で、こちらは目的語の「到着」、換言すれば、モノの「受け取り」がどの程度強く含意されているかがポイントでした。実はぼくがもっとも調べたかったのがこのグループです。予想通り、「投げる」（スコア4.7）「送る」（スコア4.7）には、受け取りの含意はごく弱いという結果が出ました。問題は「あげる」「くれる」「もらう」です。今回の結果では「あげる」がスコア3.9、「くれる」がスコア3.8と、そこそこ高いスコアが出たのに対し、「もらう」が対照的にスコア1.5と低くなりました。つまり、「もらう」には受け取りの含意が大変強く、「あげる」「くれる」はそれほどでもないということです。「あげる」vs.「もらう」、「くれる」vs.「もらう」の差は統計学的に有意(ps < .001)で、「あげる」vs.「くれる」には有意差はありませんでした(p > .5)。

注意：「平均値」は「ただしさ」を表すものであはりません

ところで、ここであらかじめ一つ強調しておきたいことは、上の数値が「日本語としての正しさ」を表しているわけではないということです。「あれ？オレの感覚と違うな？ということは、オレの日本語は間違っているのか？」というようには考えないでください。文法や意味の知識というのは、各個人の頭のなかに生理学的に実在する「リアルな存在」であり、誰にも否定はできません。いっぽう、こういった複数のヒトの調査を平均したものは、ただの統計的な数字にすぎないのであります。例えば、日本人男性の平均身長が172cmで、貴方の身長が160cmだとしても、貴方が身長という点で「間違った存在である」ことにはなりません。貴方が160cmであるのは誰にも否定できないリアルな事実であるのに対し、平均身長はただの統計的数値にすぎず、「標準」という名の虚構にすぎないのであります。

だったらこういう調査する意味もないじゃん、ということになりますが、そうとも言えません。「172cm」がただの統計上の数字だとしても、「標準的な身長の日本人男性」をベースに様々な議論をすることは無意味なことではありません。言語について言えば、特定の言語について研究する場合、理想的には、脳内に生理学的に内在する言語知識のモデルを構築するべきですが、今回の調査でも見られたように、意見がまっぷたつに割れることがあります。○○さんがある文に対し「5」の判定をし、××さんが同じ文に対し「1」の判定をするなんてことが今回も起こっています。ということは○○さんの言語知識は××さんの言語知識とは異なるということであり、両者それぞれに対し、異なった言語知識の理論モデルを立てる必要が出てきます。…理想的には。

しかし、日本だけで1億以上のヒトがいるのに、それぞれについて理論モデルを作ることは現実的には不可能です。ですから妥協点として、「標準的な日本語」（あるいは「標準的な日本語方言」）というものが仮にあると設定、それを研究者の共通の議論のベースとし、その土俵上で、科学的な議論をする必要があるということです。とにかく共通の土俵を作らなければ、議論が成り立ちませんから。

その意味で、統計データをとることも、ある程度有用だということになります。

実は、今回の調査をやろうと思ったきっかけは、自分の論文の草稿で上記の「クレル・アゲル・モラウ」の文に対して、「モラウだけNG、クレル・アゲルはOK」と書いたところ、審査した査読者が「クレルもアゲルも容認不可」とコメントしてきたことに始まります。そういわれれば微妙な気もするし、考えているうちにどっちだか分からなくなってしまったのです。ぼくの論文ではここはそれほど大きなポイントではないので、どっちであったとしても構わないのですが、実際他の人の感覚ではどうなのかを知りたいというのがポイントでした。

結果、上記で分かるように、「アゲル 3.9」「クレル 3.8」と「モラウ 1.5」では、はっきりとした差が出ましたので、ぼくの「モラウだけ違う」という感覚は統計的には支持されたことになります。もちろん、上に書いたように、だからといって査読者の感覚が「間違っている」ということにはなりません。また、判断の揺れが存在することを無視してしまうわけにはいきません。ただ、「標準的日本語」を研究するうえで、「モラウだけ違う」と「とりあえず仮に」考えて議論を進めても良いだろうという方向性を、今回の調査は示してくれたろうと思っています。

Twitterで調査をすることの意義・意味

今回は、Twitterを通して回答を募集してみたのですが、それにどんな意義や意味があるのか、現時点での考えを列記して終わりにしたいと思います。

140字制限があるので、Twitter本体で調査をするのは無理
Twitterで募集すると、その募集がretweetされたりすることで、比較的短時間でサンプルが集まる。
ただ、それには、フォロワーが多い人の影響力が必要不可欠
募集かけて半日ぐらいが勝負。つまり短期勝負。retweetされることで、その「半日」が延びる
Twitterで投稿受付をすることのメリットは、投稿者のアイデンティティーが「ある程度」保証されることがあげられる
今回Twitter投稿という形にして、Web上（CGI）での集計をしなかったのは、CGIよりTwitterのほうが、重複回答を回避しやすいから
とはいえ、Twitter投稿者の素性が100%保証されるわけではない（例えば、今回は日本語母語話者を想定したが、外国人が混じっている可能性を排除できない）という問題は残る
授業でアンケートを配って回答してもらう方が、現時点では確実、かつ簡単にデータが集められるだろう
ただ、休み中に取りたい場合や、パイロット調査をしたい場合などにTwitterで調査する意義はあるかもしれない
また、授業で調査をやると年齢層が偏るので、Twitterの調査結果との比較で違いが出れば、年齢ファクターの影響をあぶりだせるかもしれない

こんな感じでしょうか。

ともあれ、協力くださった方々、本当にありがとうございました。

*1:これは「殺した」と「息絶えていなかった」の「視点」が異なる可能性があるからだと思われます（つまり、殺人者は「殺した」と思ったが、客観的な視点からは「息絶えていなかった」と解釈する可能性がある）。「私」を主語にしたら、スコアはもっと低くなったと言う気がします。