前々から研究結果がまとまったら公開しようと思っていた問題の1つにキッズgooがある。要するに子供向けの検索エンジンで、しかも検索結果に年齢層に応じたふりがなを振ってくれるというおまけ付き。ふりがなはふりがなで同一性保持権あたりがどうなんだろうと疑問に思わなくもないけれど。
でも、何よりもこのサービスが問題なのはフィルタリング機能にある。内部に保持する有害語リストにマッチすると、対象サイトを「教育上よろしくないサイト」と見なして「ごめんね。ページがひょうじできませんでした。」と表示するのだ。
今日、ネットを徘徊していたらキッズgooはじかれサイト同盟なんてのを見つけたので、良い機会だし、未完成だけど、私の実験の中間報告をしてみる。なお、似たような実験で興味深い報告が妖精現実フェアリアルにあった。
まず、弾かれそうな単語を1つだけ含むテキストファイルをアップロードして、それが弾かれるかどうか試した。実験対象語は性的マイノリティ関連のサイトでよく使われる用語を恣意的に選んだほか、官能小説用語表現辞典から適当に目に付いたものを採用した。
さて、結果は下記の表の通りである。"S"はフィルターを通過して正常に閲覧できたことを、"F"はフィルターによって撥ねられたことを意味する。
| 対象語句 | 結果 | 考察 |
|---|---|---|
| 同性愛 | F | 想像通り |
| 性同一性障害 | S | これが撥ねられなかったのは幸い |
| 性的 | F | つまり、"性的少数者"は却下らしい |
| ゲイ | F | これは同性愛者の児童にとって問題 |
| レズビアン | F | |
| sexual | S | "性的"は駄目でこれは良いのか? |
| sexy | F | これを禁止するのは分からなくはないが、ちょっと神経質過ぎるでは? |
| homosexual | S | |
| lesbian | F | しっかりチェックされている。 |
| gay | F | |
| GID | S | 要するに、この辺の言葉は知らないだけなんだろうなと想像してみる |
| SRS | S | |
| Gender | S | これを撥ねたらさすがに怒る。通って良かった。 |
| 性交 | F | 微妙なライン |
| 性転換 | S | うーん。GID当事者団体は最早あまり使わないし、むしろ官能小説での使用の方が多いと思うのだけれど。ただ、禁止されると"性転換症 Transsexualism"が引っ掛かるという問題はある。 |
| 性器 | F | おいおい……。 |
| 性教育 | S | 妥当な結果 |
| ジェンダー | S | 妥当な結果 |
| 陰茎 | F | 想像通りだけれど、少々疑問を感じる |
| 肛門 | F | やりすぎでしょう。 |
| 括約筋 | S | 妥当 |
| 陰核 | F | ……そうですか。 |
| 陰唇 | F | |
| 膣 | F | |
| ヴァギナ | F | |
| vagina | S | これだけ通った理由が気になる。 |
| ペニス | F | 通らない……。 |
| クリトリス | F | |
| 乳頭 | F | |
| 乳房 | F | |
| 陰嚢 | F | |
| 官能小説 | F | 妥当な結果 |
| ass | S | 通っていいのか? |
| 女芯 | S | |
| ほと | S | とりあえず、小学生が古事記へのアクセスを拒否されるという事態は避けられたようです。 |
| さね | S | |
| 肉真珠 | S | こんな言葉、アダルトサイトにしか使わないと思いますが、小学生が見ても良いそうです。 |
| 淫蜜 | S | |
| 女陰 | F | それなのにこれは駄目だそうです。中国哲学の一部が読めません。 |
| 朱雀 | S | いくら何でもそこまでは神経質でなかったようです。 |
| 乳首 | F | この人たちが何を考えてフィルターを作ったのか分からなくなってきました。 |
| 海綿体 | S | |
| 勃起 | F | まぁ、官能小説での使用である場合が多そうな気がしますし、賛成。 |
| 玉袋 | F | |
| 菊座 | F | |
| まら | S | いいのか? まあ、伝承文学では使用頻度が多そうなので有り難いですが。 |
| fuck | F | とりあえず、"Fuck'n Ass Hole"はちゃんと撥ねてくれる模様。 |
| セックス | F | ジェンダー系のサイトは全滅の恐れが出てきました。 |
| インターセックス | F | "セックス"が駄目なせいでしょう |
| インターセクシュアル | S | これは良いらしい |
| 半陰陽 | F | 訳が分かりません。 |
結果を見ると次のようなことが分かる。
えーと、確か前掲の官能小説用語辞典に書いてあったのだと思うのだけれど(実験自体は結構前なので忘れかけている)、日本の官能小説界は戦後の規制の中で発禁処分を受けることが多かったため、伏せ字や間接的な表現、巧みな比喩によってこの主の単語ベースのチェックをすり抜ける方向に発展してきたそうな。とすると、うん。このサービスは次のような効果をもたらすんじゃ無かろうか。
えっとですね。やっぱり、日本語文献に関する限り、やはり単語ベースのコンテンツフィルタリングは無理があると思うのです。本当に子供を有害コンテンツから守ろうとするなら、まめに「有害URLリスト」を更新してくれるような会社と契約して、URLベースのフィルタリングをするのが正しい対応でしょう。
とりあえず、今日も私を笑わせてくれたキッズgooに幸いあれ。
「陰核」「女陰」ですね。
「朱雀」のほうは五行思想における人体に対する対応なのですけれども、そこからの隠喩で女陰を朱雀門と書く技法もあるようです。ですから、それを撥ねるほど「神経質ではな」かったようで。
あれやこれやと隠喩を駆使する官能小説家さんたちには、ため息混じりに「ご苦労様です」と言いたいばかりです。
「ほとほと」とか「とまらない」が引っかかってしまうからではないでしょうか。
あー。確かに。 < mint
形態素解析するのは処理能力喰うから微妙なんでしょうしね。
よくわからない理由により、コメントが即座には反映されないかもしれませんか゛、ボタンを押して元の画面に戻ってきたならたぶん正しく送信されています。
「さね」「朱雀」って何ですか ? (泣)