コグノスケ


link 未来から過去へ表示  link 過去から未来へ表示(*)

link もっと前
2007年10月14日 >>> 2007年10月14日
link もっと後

2007年10月14日

手でやるのは限界らしい

当サイトにあるカウンタにつけたユーザエージェント文字列の分析が破綻してきています。カウンタが分類しきれていない奴らを観察していると、正規表現(しかも現在は手で追加しなければならない)では表現しづらいものが増えているように思います。

特にIEのレンダリングエンジンを使っているブラウザが多くて、ユーザエージェント文字列の種類も多様です。

パーサ

手でやるのはもうマンドクサくて死にそうなので、ちゃんと文字列をパースして分類しようと思います。

User-Agentヘッダを表現するBNF(Backus-Naur Form)はRFC 2616 "Hypertext Transfer Protocol -- HTTP/1.1" あたりを見ると書いています。User-AgentヘッダのBNFを見る限りでは、パーサプログラムの主な分岐点は、先読みした1文字が「括弧か否か」ってくらい(※)です。

その程度であれば再帰下降パーサ(recursive descent parser)をガリガリと書けば良さそうです。昔授業で書いた気がするけど完全に忘れたな。一番簡単なパーサだろうし、たぶん書けるだろう…。

パーサに通すと、"Mozilla/5.0 (hogehoge)" のような文字列は、"Mozilla" というプロダクト名と "5.0" というプロダクトのバージョンのペア、そして括弧内のコメント文字列 "hogehoge" に分けられます。

バージョンやコメントは省略できます。以下その例です。
・プロダクトとコメントの間に空白なし "Mozilla/5.0(hego)"
・バージョンを省略 "Mozilla(hego)"
・コメントなし "Mozilla"
・プロダクト、コメントは何個でも書ける "Mozilla Firefox/abc(hoge)(hage) Gecko/def"

コメントの文字列の記法には決まりはないのですが、慣例としてセミコロンで区切った情報を記述することが多いようなので、セミコロンをデリミタにして分割します。

とまあ以上の話までは実装しましたが、これってパースする部分だけなので特に何かをしているわけではありません。肝心の分類方法をこれから考えないとねえ…。

(※)k文字だけ先読みするパーサをLL(k) パーサというらしい。今回書くパーサはLL(1) パーサですね。

編集者:すずき(2007/10/14 22:33)

コメント一覧

  • コメントはありません。
open/close この記事にコメントする



link もっと前
2007年10月14日 >>> 2007年10月14日
link もっと後

管理用メニュー

link 記事を新規作成

<2007>
<<<10>>>
-123456
78910111213
14151617181920
21222324252627
28293031---

最近のコメント5件

  • link 02年8月4日
    lxbfYeaaさん (07/12 10:11)
    「555」
  • link 24年6月17日
    すずきさん (06/23 00:12)
    「ありがとうございます。バルコニーではない...」
  • link 24年6月17日
    hdkさん (06/22 22:08)
    「GPSの最初の同期を取る時は見晴らしのい...」
  • link 24年5月16日
    すずきさん (05/21 11:41)
    「あー、確かにdpkg-reconfigu...」
  • link 24年5月16日
    hdkさん (05/21 08:55)
    「システム全体のlocale設定はDebi...」

最近の記事3件

  • link 22年7月8日
    すずき (08/21 14:21)
    「[マンガ紹介 - まとめリンク] 目次: マンガ紹介一覧が欲しくなったので作りました。5作品乙女ゲームの破滅フラグしかない悪役...」
  • link 22年8月29日
    すずき (08/21 14:20)
    「[マンガ紹介] 目次: マンガ紹介久しぶりにお気に入りのマンガ紹介シリーズ。短めの完結作品を2つ。赤髪の女商人(全3巻、202...」
  • link 19年3月28日
    すずき (08/21 14:19)
    「[マンガ紹介] 目次: マンガ紹介お気に入りのマンガ紹介シリーズ。こわもてかわもて(全2巻、2019年)(アマゾンへのリンク)...」
link もっとみる

こんてんつ

open/close wiki
open/close Linux JM
open/close Java API

過去の日記

open/close 2002年
open/close 2003年
open/close 2004年
open/close 2005年
open/close 2006年
open/close 2007年
open/close 2008年
open/close 2009年
open/close 2010年
open/close 2011年
open/close 2012年
open/close 2013年
open/close 2014年
open/close 2015年
open/close 2016年
open/close 2017年
open/close 2018年
open/close 2019年
open/close 2020年
open/close 2021年
open/close 2022年
open/close 2023年
open/close 2024年
open/close 過去日記について

その他の情報

open/close アクセス統計
open/close サーバ一覧
open/close サイトの情報

合計:  counter total
本日:  counter today

link About www2.katsuster.net
RDFファイル RSS 1.0

最終更新: 08/21 14:21