傾向とは?
|
トップITニュースWindowsストラテジーセキュリティオープンソースデベロッパーモバイルサーバホワイトペーパーブログPodcastエグゼクティブコンテンツマップ今月のオンライン・ムックPlus Symantec、96時間以内にマルウェア分析リポートを提供(20:35)クリアスウィフト、Linux版アンチスパムソフトを無償提供(20:28)技術屋がゴルフから学べること(18:32)ポリコム、解像度に依存しないビデオ会議システムを提供(17:50)IBM、無償オフィスソフトの改良版を発表――約1割がLinuxユーザー(17:45)放送技術を積極投入――NECが法人向け映像サービスを大幅強化(15:39)オルタナブログ通信:あなたのブログは“誰が”書かせる――ブログマーケティングの行方(12:34)Dell、リモートデスクトップ管理サービス企業を買収(12:00)Microsoft、Vista SP1のテストを拡大(11:38)モバイルサイト活用術:キャリアが提供するモバイルサイト支援の実力とは?(10:30)5割強が他人の無線LANに「ただ乗り」――Sophos調査(09:38)「北京五輪ツアーに当選!」スパムに要注意(08:53)IBM、クラウド推進の「Blue Cloud」計画を発表(08:47)Leopard初のセキュリティアップデート、ファイアウォール問題に対処(08:36)企業ID管理システム確立への道:IT全般統制におけるアイデンティティ管理(08:00)Windows Mobileスマートフォンを便利に:画面が回転する方向を変えてみよう(07:15)「つくばチャレンジ」にセグウェイベースのロボットが参加(01:20)SQL Server 2008の3社共同検証プロジェクトがスタート(00:30) 最近では英文だけでなく、日本語で書かれたスパムメールも目立つようになってきた。この記事では3回に分けて、日本語スパムの実態と対応策を探っていきたい。 スパムは何も英文で書かれているとは限らない。日本人のところにやってくる「欲しくないメール」「受け取りたくないメール」の中には、当然ながら日本語で書かれたものも含まれる。 前回は、数多くの海外からのスパムメールが届くISP A(仮称)のメールボックスを元に傾向を分析したが、今回は、他に2つのメールサーバ宛てにやってきたスパムも加え、日本語スパムの傾向を分析してみたい。 前回の記事で、全部で7つあるメールアドレスのうち、メインで使用しているものとそうでないものとがあると紹介したが、今回の分析では、その「メイン」で用いている4つのアドレスすべてが対象となる。 今回分析対象に追加したISP Bは、もう1つ別のプロバイダーのメールも管理しているのだが、ここでは便宜的に1つのものとして扱う。またISP Cは、いわゆる「パソコン通信」時代から続く老舗のアカウントだ。ここは無償でスパムのフィルタサービスを提供しているが、利用するには会員種別を変更しなければならないので筆者は利用していない。 分析データとして使用したのは2004年11月中に届いたメール(注:ミスで1日ほど収集できない日があった)で、届いたメールの総数と日本語スパムと判断したメールの数は以下のとおりだ。ここでは、有用なメール以外で、かつ日本語を含むサブジェクトが付いているものはすべて日本語スパムと判断した。 1カ月のうちに届いた日本語スパムメールは計271通。私のメールアカウント全体では、だいたい1日当たり9通ぐらい日本語スパムが届く計算になっている。ここで見ても分かるように、ISP AとBは英語スパムが主体となっているのに対し、ISP Cは日本語スパム率が非常に高い。 次に前回同様、日本語スパムについても内容ではなくヘッダーで分析してみた。まず、スパムメールの送信元が何と名乗っているかを「From」欄から判断した。 2位の「騙し」というのは、「usouso@hogehoge.com@mx.ISP.jp」のように二重に「@」を使った記述だ。これは、ISPのサーバを「うちのネットワークからのメールだよん」と騙し、転送してもらうためのテクニックだが、こんな余計な文字列が付いている時点でアヤシサ爆発である。また、2バイトコードを使っているのか「読めないFrom:」というのも少なからずある。 ともあれ集計してみると、少なくとも、自称送信元としては圧倒的に日本語版のYahoo!メールが利用されていることが分かる。「Yahoo!メールからのスパムが多い」という悪評はここから来ているわけだ。 これも前回書いたことだが、スパム送信者が特定のISPのSMTPサーバを用いる「正当な送信方法」を使っていれば、送信元IPアドレスにはもっと偏りがあってもいいはずだ。だが実際には、スパマーは自分のアカウント抹消を防ぐため、ISPのSMTPサーバではなく「ADSL/FTTH接続している自らのSMTPサーバ」や「ゾンビマシン」を使って送信してくる。このため、上記のとおり送信元IPアドレスは分散し、偏りは生じない。スパムメールの3分の2がそれぞれ異なるIPアドレスからやってくるということは、スパマーがISPのSMTPサーバを使っていないであろうことを示唆している。 第2回 MIJSカンファレンス「Japan」 11/29開催決定!真のアプリケーション連携がここから始まる!! MIJSでは、活動の成果を発表させて頂くために、11/29(木)目黒雅叙園にて第2回 MIJSカンファレンスを開催いたします。本カンファレンスでは、「MIJS標準規格」の発表をはじめ、様々な製品連携をご紹介いたします。 ◆日本の有力ソフトウェアベンダーが集結◆製品の相互連携による基盤強化◆日本製ソフトウェアの海外展開 日時:2007年11月29日(木) 10:15〜会場:目黒雅叙園 2F定員:1000名 参加費:無料(登録制)主催:MIJSコンソーシアム 5割強が他人の無線LANに「ただ乗り」――Sophos調査Seagate HDDに混入のウイルス、ネットゲームを標的に日米の先駆者が語るWeb2.0の行方定年間近の“サーバごころ”ITマネジャーがAndroidに注意を払わなければならない5つの理由NTTドコモ、法人向け位置情報専用端末を発売PC共有や無線LANただ乗りも――10カ国の在宅勤務者の実態Microsoft、Vista SP1のテストを拡大有線と同等、のはずがそうではなかった暗号化の「予想外」AMDがGPU「Radeon HD 3800シリーズ」を世界同時発表 jobtxt1 += '匿名|最高25社から査定結果が届く。査定|プロが鑑定するあなたの市場価値'; 探すという行為を行うのに、検索エンジンはもはや欠かすことのできないものとなっている。現在、検索エンジンにはどのようなものがあるのか。まずはそれを知ることから始めよう。 ビジネスインテリジェンスの新潮流 〜パフォーマンス マネジメント〜:第2回 組織知性とパフォーマンスマネジメント 今再び注目を集める「BI:ビジネスインテリジェンス」。だが、組織全体で共有されないインテリジェンスでは意味がない。連載2回目は、情報を共有することで可能となる「パフォーマンスマネジメント」の真髄を探る。 PCインターネットに匹敵する規模に成長した携帯インターネット。だが、ユーザーがPCに求めると、携帯電話に求めるものはだいぶ異なるようだ。携帯電話という環境の本質を把握することが大事になる。 上司が部下の業績を正しく評価(レビュー)して初めて成り立つ成果主義。だが、この評価の仕組みを理解せずにおきて破りの行動に出る上司もいるのだ。 わたしに限らず、多くのハッカーたちはフリーソフトウェア(オープンソースソフトウェア)が大好きです。ハッカーがフリーソフトウェアを愛する最も大きな理由は、自由なのです。 進化するケータイは、いったいどこへと向かうのか。会社更生法の適用を受けるNOVAの今後は? これらを伝える報道メディアの中立性とは――オルタナティブ・ブロガーは、ITの時事ネタから、「頑張れ」など日本語の使い方に至るまで、独自の視点から発信していく。 ITmedia エンタープライズでは、インターネットを活用したオンライン・セミナーを開催します。ITを活用するためのタイムリーな話題について、さまざまな分野から講師を招き、読者へリアルタイムかつインタラクティブに情報をお届けします。申し込みは無料で、どなたでも自由にご参加いただけます。 トップITニュースWindowsストラテジーセキュリティオープンソースデベロッパーモバイルサーバホワイトペーパーブログPodcastエグゼクティブコンテンツマップ今月のオンライン・ムックPlus |
[ 37] ITmedia エンタープライズ:手元に届いた「イマドキの日本語スパムメール」傾向編 (1/2)
[引用サイト] http://www.itmedia.co.jp/enterprise/articles/0503/11/news095.html
|
傾向推定(けいこうすいてい、Trend Estimation)とは、ある過程(プロセス)を測定したものを時系列として扱い、そのデータの傾向を推定する統計的手法である。完全には解明されていない物理的系に対しては、何らかのモデルを構築して測定結果を説明しようと試みる。特に測定結果が増加傾向や減少傾向にあるかを知ることでランダムな振る舞いではないことを判断しようとする。例えば、ある地点での毎日の気温を測ることで季節による変化の傾向や長期的な気象変化の傾向を読み取る。 特に、等質性の問題は重要である(その時系列は全測定区間で等しく信頼できるか?)。以下では、単純化のためそのような観点をあえて避ける。 データ群が与えられ、そのデータから何らかのモデル(この場合、データに適合する関数を意味する)を構築したい場合、選択可能な関数は様々である。しかしそのデータについて何らかの事前の解釈が存在しない場合、最も単純な直線的関数を適合させるのが基本である。 直線に適合させると決めた場合にも様々な手法が存在する。しかし圧倒的に多く使われるのは最小二乗法である。データの地点 xi とそのデータ値 yi について a と b を選択することで次の式を最小化する。 以下では、最小二乗法で求めた「傾向」について述べる。問題は、その傾向の有意性であり、「有意」とはどういうことか、である。 赤い部分は上位1%、青は5%、緑は10% を示す。この場合本文で述べられている95%の信頼度のV値は 0.2 である。 無作為であることが分かっているデータ列(例えばサイコロを振った結果やコンピュータが生成したランダムな数列)があるとき、その傾向を求めるとゼロ傾向となることはほとんどない。しかし、その傾向が極めて小さいことは予測される。ある決まった程度のノイズを含む決まったサイズ(例えば100個)のデータ列があり、それを多数生成する(例えば10万組)と、その10万組のデータ列から傾向を計算することができ、傾向の分布があることを経験的に知ることになる(右図参照)。その分布は(完全にランダムなら)ゼロを中心とする正規分布となるだろう(中心極限定理)。以上の手順からある程度の統計的確かさ S を設定することができる(95%が典型的だが、より正確には99%、より大まかなら 90%)。そして、S% の傾向が含まれる範囲を指定する傾向値 V を求めることができる。細かいことを言えば、分布は正と負の両方に広がっており、両方を対象と考える場合もあるし、一方だけを対象と考える場合もある。 以上のように多数回の試行によって経験的に経験の分布を計算することを示した。単純な場合(正規分布の無作為なノイズ)、傾向の分布は正確に求められる。 ここで、それまでのランダムデータ列とおおよそ同じ分散特性の新たなデータ列を考える。そのデータ列が実際に傾向を持つかどうかは分からないので、傾向 T を計算し、それが V より小さいと判明したとする。そこで、確からしさ S の範囲でこのデータの傾向はランダムノイズと区別できないと言える。 しかし、S を選んだとき、残りの 1 ? S の部分がある傾向を持っていると(誤って)宣言する可能性があることに注意されたい。逆に本当に傾向を持つデータ列の残り部分は、傾向を持たないと宣言される可能性がある。 a と b は(通常、未知の)定数であり、e は無作為な誤差である。e が何らかの特殊な性質を持つと判明するまでは、正規分布であると仮定する。e が常に同じ分布であると仮定するのが最も単純だが、そうでない場合(いくつかのデータの分散が非常に大きいなど)、最小二乗法においてそれらのデータの分散の逆で重み付けすることで考慮することができる。 1つの時系列を分析するとき、傾向推定によって e の分散を推定することができる。つまり、傾向推定で求めた at + b に従って残差として e を取り出し、そこから分散を求める。多くの場合、これが e の分散を求める唯一の方法である。 特殊な例として気温の時系列がある。気温データは時間に対して均質でないことが分かっている。一般に気象観測データは最近になるに従って増えており、従って気温の推定に関わる誤差は時と共に減少している。このため気象データの傾向推定を行うにはこれを考慮する。 データ列のノイズが明らかになると、傾向 a が 0 とほとんど差異がないという帰無仮説によって傾向を検定することができる。上述の無作為データ列の傾向の分散の話から、無作為な(本来傾向のない)データからも傾向が得られることがあることが分かる。もし計算された傾向 a が V より大きければ、その傾向は S の水準においてゼロと有意な差があると言える。 ノイズの多い時系列から傾向を抽出することは難しい。例えば、本来の時系列が 0, 1, 2, 3 という値で、それとは独立した正規分布ノイズ e の標準偏差を E とする。長さ50の時系列データがあるとき、E = 0.1 なら傾向は明らかだろう。E = 100 では傾向はおそらく分かるだろう。しかし、E = 10000 では傾向はノイズに埋もれてしまうだろう。 具体例として、IPCCが示した過去140年間の気温の記録[1]を見てみよう。年間気温の分散は約 0.2°C で、傾向は約 0.6°C、95% 信頼度は 0.2°C である(年間の分散と同じ値となっているのは偶然である)。従ってこの傾向は統計的に 0 とは有意な差がある。もっとも、気温の変動の具体的原因はこのデータからは分からない。 最小二乗法による傾向推定では、残差の二乗を推定後に捨てる。それはつまり推定された傾向のラインで説明されるデータの分散の部分がどれだけかということでもある。それは傾向の有意性には関係しない(右図参照)。ノイズの多い系列では残差の二乗は非常に小さいこともあるが、推定の有意性が非常に大きいこともある。フィルタリングを行うと残差の二乗は増大する傾向があるが、推定される傾向そのものやその有意性にはあまり違いが生じない。 これまで、データ列は傾向とノイズから構成されるとしてきた。また、ノイズは各データで「独立」であった(マルコフ性、正規分布ノイズ)。ノイズが定常的なガウス・マルコフ過程に従うという前提は情報最小の原理から生じた。これは統計の容易さという点で大きな意味がある。気象データのような実データはこの前提を満たさないかもしれない。 |
[ 38] 傾向推定 - Wikipedia
[引用サイト] http://ja.wikipedia.org/wiki/%E5%82%BE%E5%90%91%E6%8E%A8%E5%AE%9A
