傾向とは?

トップITニュースWindowsストラテジーセキュリティオープンソースデベロッパーモバイルサーバホワイトペーパーブログPodcastエグゼクティブコンテンツマップ今月のオンライン・ムックPlus
マイクロソフト、BI分野の新製品はエンドユーザーへアピール(20:30)GMO-HSアイル、「WEB1グランプリ」コンテストが14日締め切り(20:06)今年2度目のMIJSカンファレンスが開催:「ASP/SaaSでも通用する」――国産パッケージの海外進出を見据えるMIJS(19:50)ORF2007 Report:日本が必要とする組織設計の在り方(19:00)ACCESS、最新の暗号技術を実装したWindows Mobile用フルブラウザを公開(18:43)SEOポイズニング、Yahoo!の対応に遅れ(18:18)Programing Bible:GDB/GDBserverによるクロスターゲットのリモートデバッグ(18:14)F5、ネットワーク機器管理システムの最上位を発表(18:10)キー・ポイント、ファイル保管システムにAIRを利用(17:50)NEC、携帯電話でも動く組み込み向け自動翻訳ソフトを開発(17:41)IBM、Sametimeの新バージョンを間もなく提供(16:20)「Exchange Server 2007」のSP1リリース(15:36)NEC、ホットプラグ対応のオフィス用サーバを発売(12:51)日本HPとMS、金融機関向けソリューション「楓」を発売(11:59)ホワイトペーパー:ホスト系/オープン系両方で使える帳票管理システムの全貌(11:25)[WSJ] AppleとAT&T、3G版iPhoneの2008年投入を計画(10:21)オルタナブログ通信:アマゾンは書籍を変えるか――Amazon Kindleの挑戦にブロガーは?(10:14)McAfee、年次報告書で「サイバー冷戦」に警鐘(09:05)FBIがボットネット摘発作戦で8人を起訴 被害総額は2000万ドル超(08:50)「Googleポイズニング」攻撃第2波の兆し?(08:30)Firefoxパッチに早くも不具合発覚、再リリースで修正へ(08:01)夏目房之介のその後の「起業人」:執着がないからできる?――「お金もうけなんて簡単」(08:00)今日から学ぶCOBIT:ITガバナンスを定義してみる(08:00)SaaS市場拡大のエンジンはスマートフォンの普及か(07:30)Windows Mobileスマートフォンを便利に:携帯電話からの絵文字メールを見る(07:25)企業セキュリティ古今東西:まさかの漏えい、その損失はいくら?(07:00)セキュリティ向上計画:iptablesを使って特定のネットワークアプリケーションをブロックする(05:00)不定期集中企画:手元に届いた「イマドキの日本語スパムメール」スパムはこれからどうなるの? これからも進化し続けます!編(00:30)Undocumented Mac OS X:第12回 Universal Binary【前編】(00:20)
マクニカネットワークス、PC Xサーバ「Exceed 2008J」を発表(23:16)サイベース、災害対策ソリューションを提供(21:50)キオスク端末3000台の空きリソース、仮想化でサービスに(20:31)電波の見える化でトラブル解消――NTTソフト(20:05)イー・モバイル、サービスエリアの都道府県数が約2倍に(20:03)二足歩行ロボットの歴史がまた1ページ――ZMPの最新ロボットが登場(19:28)12月1日が記念日に――ソフトバンクIDCが発表(19:06)KDDIとパナソニック コミュニケーションズ、企業向け内線サービスで協業(18:26)
最近では英文だけでなく、日本語で書かれたスパムメールも目立つようになってきた。この記事では3回に分けて、日本語スパムの実態と対応策を探っていきたい。
スパムは何も英文で書かれているとは限らない。日本人のところにやってくる「欲しくないメール」「受け取りたくないメール」の中には、当然ながら日本語で書かれたものも含まれる。
前回は、数多くの海外からのスパムメールが届くISP A(仮称)のメールボックスを元に傾向を分析したが、今回は、他に2つのメールサーバ宛てにやってきたスパムも加え、日本語スパムの傾向を分析してみたい。
前回の記事で、全部で7つあるメールアドレスのうち、メインで使用しているものとそうでないものとがあると紹介したが、今回の分析では、その「メイン」で用いている4つのアドレスすべてが対象となる。
今回分析対象に追加したISP Bは、もう1つ別のプロバイダーのメールも管理しているのだが、ここでは便宜的に1つのものとして扱う。またISP Cは、いわゆる「パソコン通信」時代から続く老舗のアカウントだ。ここは無償でスパムのフィルタサービスを提供しているが、利用するには会員種別を変更しなければならないので筆者は利用していない。
分析データとして使用したのは2004年11月中に届いたメール(注:ミスで1日ほど収集できない日があった)で、届いたメールの総数と日本語スパムと判断したメールの数は以下のとおりだ。ここでは、有用なメール以外で、かつ日本語を含むサブジェクトが付いているものはすべて日本語スパムと判断した。
1カ月のうちに届いた日本語スパムメールは計271通。私のメールアカウント全体では、だいたい1日当たり9通ぐらい日本語スパムが届く計算になっている。ここで見ても分かるように、ISP AとBは英語スパムが主体となっているのに対し、ISP Cは日本語スパム率が非常に高い。
次に前回同様、日本語スパムについても内容ではなくヘッダーで分析してみた。まず、スパムメールの送信元が何と名乗っているかを「From」欄から判断した。
2位の「騙し」というのは、「usouso@hogehoge.com@mx.ISP.jp」のように二重に「@」を使った記述だ。これは、ISPのサーバを「うちのネットワークからのメールだよん」と騙し、転送してもらうためのテクニックだが、こんな余計な文字列が付いている時点でアヤシサ爆発である。また、2バイトコードを使っているのか「読めないFrom:」というのも少なからずある。
ともあれ集計してみると、少なくとも、自称送信元としては圧倒的に日本語版のYahoo!メールが利用されていることが分かる。「Yahoo!メールからのスパムが多い」という悪評はここから来ているわけだ。
これも前回書いたことだが、スパム送信者が特定のISPのSMTPサーバを用いる「正当な送信方法」を使っていれば、送信元IPアドレスにはもっと偏りがあってもいいはずだ。だが実際には、スパマーは自分のアカウント抹消を防ぐため、ISPのSMTPサーバではなく「ADSL/FTTH接続している自らのSMTPサーバ」や「ゾンビマシン」を使って送信してくる。このため、上記のとおり送信元IPアドレスは分散し、偏りは生じない。スパムメールの3分の2がそれぞれ異なるIPアドレスからやってくるということは、スパマーがISPのSMTPサーバを使っていないであろうことを示唆している。
Oracleは2003年、サンフランシスコのOracle OpenWorldにおいて、gridの「g」を製品名に冠した「Oracle Database 10g」を披露した。あれから4年が過ぎ、エンタープライズ向けのグリッド技術は、需要の変化にも柔軟に対応でき、IT資源を有効活用できる、今すぐ使える技術として浸透した。
今年創業30周年を迎える同社はこの夏、久々のメジャーリリースを発表し、変化に伴うリスクやコストの低減する機能も新たに搭載した。Oracleの次なる一手とは何か? 「Oracle OpenWorld San Francisco」では、新たなステージへと踏み出したOracleの全貌が明らかとなる。
チェルノブイリに住む生物が静かに指し示すもう1つの進化「Googleポイズニング」攻撃第2波の兆し?「SEOポイズニング」の影響、日本語サイトやほかの検索エンジンにもMSのSilverlight、次のバージョンアップで2.0にFirefoxに危険度「高」の脆弱性、最新版にアップデートをApple、MacBookが“絶好調”――デスクトップシェアを引き離すFirefoxパッチに早くも不具合発覚、再リリースで修正へNTTドコモ、905iと705iシリーズを一斉発表ACCESS、最新の暗号技術を実装したWindows Mobile用フルブラウザを公開SEOポイズニング、Yahoo!の対応に遅れ
jobtxt1 += '匿名|最高25社から査定結果が届く。査定|プロが鑑定するあなたの市場価値';
検索の進化が人々の生活様式を変えたように、検索テクノロジーの進化とイノベーションは隣り合わせにある。次世代検索が示すテクノロジーは次なるイノベーションを巻き起こすのか。
ビジネスインテリジェンスの新潮流 〜パフォーマンス マネジメント〜:第3回 パフォーマンス マネジメントを支える、これからのBIの姿
今再び注目を集める「BI:ビジネスインテリジェンス」。情報を共有して企業の戦略を共通化することで、最適な活動が自立的に生まれてくる。こうした情報の伝達をスムーズに行うことが、本来のパフォーマンスマネジメントであり、BIのあるべき姿だ。
モバイルサイトの世界だけで展開されるサービスが、現実世界に飛び出したら、どうなるのだろう。そんな試みにKDDIとサイバードが挑んだ。
上司が部下の業績を正しく評価(レビュー)して初めて成り立つ成果主義。だが、この評価の仕組みを理解せずにおきて破りの行動に出る上司もいるのだ。
ハッカーの多くは何らかのスピード狂的側面を持っているようです。しかし、最適化を始める前には、その作業が無駄になるかならないかを見極める必要があります。
年末が近付き、「Web of the Year 2007」の季節がやってきた。オルタナブロガーが注目したWebサイトは? そしてGoogleのケータイOS「Android」は何を目論むか? ケータイ広告、ダウンロード違法化議論――ITの今を巡る事象を、オルタナブロガーは独自視点から解きほぐしていく。
ITmedia エンタープライズでは、インターネットを活用したオンライン・セミナーを開催します。ITを活用するためのタイムリーな話題について、さまざまな分野から講師を招き、読者へリアルタイムかつインタラクティブに情報をお届けします。申し込みは無料で、どなたでも自由にご参加いただけます。
IT導入の“勝ち組”たる理由とは?──TechTargetジャパンの人気事例記事は会員登録(無料)で
導入事例や製品レポートなど、IT導入担当者必見の会員限定コンテンツがさらに充実。技術文書が中心の500点以上のホワイトペーパーも無料でダウンロードできる
トップITニュースWindowsストラテジーセキュリティオープンソースデベロッパーモバイルサーバホワイトペーパーブログPodcastエグゼクティブコンテンツマップ今月のオンライン・ムックPlus

[ 175] ITmedia エンタープライズ:手元に届いた「イマドキの日本語スパムメール」傾向編 (1/2)
[引用サイト]  http://www.itmedia.co.jp/enterprise/articles/0503/11/news095.html

株式会社ウェザーニューズ(所在地:東京都港区、代表取締役社長:草開千仁)は、本日、今年の梅雨シーズンにおける傾向を発表いたしました。
今年は、梅雨入りが平年並となる所が多いですが、梅雨明けは、ラニーニャ現象(※1)の影響で早くなる可能性があります。ラニーニャ現象の時は、太平洋高気圧が強まって梅雨前線を押し上げ、梅雨明けは九州をはじめ西日本を中心に平年並か早めになる傾向があります。昨年が遅い梅雨明けでしたので,早い夏の到来を感じさせるかもしれません。一方、オホーツク海高気圧の勢力が一時的に強まり、関東や東北の梅雨明けは遅くなる可能性もあります。今年の梅雨は、西日本ではメリハリのある天気変化で、6月下旬以降は強い雨が降りやすい見込み。また東北では、シトシトと雨が降りやすいでしょう。関東などはメリハリ型とシトシト型の混在タイプになりそうです。夏の天気は、北日本では比較的涼しく、西日本で暑い「北冷西暑型」となりそうです。
メリハリ型:はっきりとしない梅雨入りで、5月は空梅雨傾向。梅雨明け直前には豪雨の可能性も 。
メリハリ型:晴れて夏のような暑さを感じる日もあれば、強い雨が降り続く日もあり、比較的天気変化にメリハリのある梅雨。特に6月下旬からは、強い雨が降りやすい。梅雨明けは早まる可能性も高い。
混在型:雨が降ったり、晴れて気温が上がる日があったりと変わりやすい天気傾向。またシトシトと弱い雨が降り続いて、梅雨明けが遅くなる可能性もある。
シトシト型:太平洋側は気温が低い日が多く、シトシトした雨が降りやすい。日本海側では天気や気温の変化が大きそう。梅雨明けが遅くなる可能性がある。
「エルニーニョ」の逆の現象を指し、ペルー沖から太平洋の中央部まで、赤道近くの海面の水温が、平年に比べて、半年から1年半ほど低いままになることをいいます。
当社では、日々、長期気象予測サービスの実用化に向けて取り組みをおこなっていますが、現在の気象予測の技術水準では、予測精度の誤差が大きくなる場合があります。この度の梅雨の傾向発表にあたり、複数の長期予報の有識者の見通しを元に、総合的に見解をだしています。本リリースにおける情報につきましては、発表日における最新の見解になりますので、最新の見解は当社の携帯サイト(http://wni.jp)にてご確認ください。
世界17カ国に38の営業拠点を持つ、気象情報業界のグローバルリーディングカンパニー。海、空、陸のあらゆる気象現象の世界最大規模のデータベースを有し、独自のピンポイント予報により、航空、海運、流通、自治体などの各業務の問題解決情報を提供。一般個人・大衆に対しては、携帯電話、インターネット、BSデジタル放送等のメディアを通じて、個人の生活を支援する各種情報を提供している。ホームページ:http://weathernews.com

[ 176] ウェザーニューズ 2007年梅雨傾向発表!/2007.5.11
[引用サイト]  http://weathernews.com/jp/c/press/2007/070511.html

傾向推定(けいこうすいてい、Trend Estimation)とは、ある過程(プロセス)を測定したものを時系列として扱い、そのデータの傾向を推定する統計的手法である。完全には解明されていない物理的系に対しては、何らかのモデルを構築して測定結果を説明しようと試みる。特に測定結果が増加傾向や減少傾向にあるかを知ることでランダムな振る舞いではないことを判断しようとする。例えば、ある地点での毎日の気温を測ることで季節による変化の傾向や長期的な気象変化の傾向を読み取る。
特に、等質性の問題は重要である(その時系列は全測定区間で等しく信頼できるか?)。以下では、単純化のためそのような観点をあえて避ける。
データ群が与えられ、そのデータから何らかのモデル(この場合、データに適合する関数を意味する)を構築したい場合、選択可能な関数は様々である。しかしそのデータについて何らかの事前の解釈が存在しない場合、最も単純な直線的関数を適合させるのが基本である。
直線に適合させると決めた場合にも様々な手法が存在する。しかし圧倒的に多く使われるのは最小二乗法である。データの地点 xi とそのデータ値 yi について a と b を選択することで次の式を最小化する。
以下では、最小二乗法で求めた「傾向」について述べる。問題は、その傾向の有意性であり、「有意」とはどういうことか、である。
赤い部分は上位1%、青は5%、緑は10% を示す。この場合本文で述べられている95%の信頼度のV値は 0.2 である。
無作為であることが分かっているデータ列(例えばサイコロを振った結果やコンピュータが生成したランダムな数列)があるとき、その傾向を求めるとゼロ傾向となることはほとんどない。しかし、その傾向が極めて小さいことは予測される。ある決まった程度のノイズを含む決まったサイズ(例えば100個)のデータ列があり、それを多数生成する(例えば10万組)と、その10万組のデータ列から傾向を計算することができ、傾向の分布があることを経験的に知ることになる(右図参照)。その分布は(完全にランダムなら)ゼロを中心とする正規分布となるだろう(中心極限定理)。以上の手順からある程度の統計的確かさ S を設定することができる(95%が典型的だが、より正確には99%、より大まかなら 90%)。そして、S% の傾向が含まれる範囲を指定する傾向値 V を求めることができる。細かいことを言えば、分布は正と負の両方に広がっており、両方を対象と考える場合もあるし、一方だけを対象と考える場合もある。
以上のように多数回の試行によって経験的に経験の分布を計算することを示した。単純な場合(正規分布の無作為なノイズ)、傾向の分布は正確に求められる。
ここで、それまでのランダムデータ列とおおよそ同じ分散特性の新たなデータ列を考える。そのデータ列が実際に傾向を持つかどうかは分からないので、傾向 T を計算し、それが V より小さいと判明したとする。そこで、確からしさ S の範囲でこのデータの傾向はランダムノイズと区別できないと言える。
しかし、S を選んだとき、残りの 1 ? S の部分がある傾向を持っていると(誤って)宣言する可能性があることに注意されたい。逆に本当に傾向を持つデータ列の残り部分は、傾向を持たないと宣言される可能性がある。
a と b は(通常、未知の)定数であり、e は無作為な誤差である。e が何らかの特殊な性質を持つと判明するまでは、正規分布であると仮定する。e が常に同じ分布であると仮定するのが最も単純だが、そうでない場合(いくつかのデータの分散が非常に大きいなど)、最小二乗法においてそれらのデータの分散の逆で重み付けすることで考慮することができる。
1つの時系列を分析するとき、傾向推定によって e の分散を推定することができる。つまり、傾向推定で求めた at + b に従って残差として e を取り出し、そこから分散を求める。多くの場合、これが e の分散を求める唯一の方法である。
特殊な例として気温の時系列がある。気温データは時間に対して均質でないことが分かっている。一般に気象観測データは最近になるに従って増えており、従って気温の推定に関わる誤差は時と共に減少している。このため気象データの傾向推定を行うにはこれを考慮する。
データ列のノイズが明らかになると、傾向 a が 0 とほとんど差異がないという帰無仮説によって傾向を検定することができる。上述の無作為データ列の傾向の分散の話から、無作為な(本来傾向のない)データからも傾向が得られることがあることが分かる。もし計算された傾向 a が V より大きければ、その傾向は S の水準においてゼロと有意な差があると言える。
ノイズの多い時系列から傾向を抽出することは難しい。例えば、本来の時系列が 0, 1, 2, 3 という値で、それとは独立した正規分布ノイズ e の標準偏差を E とする。長さ50の時系列データがあるとき、E = 0.1 なら傾向は明らかだろう。E = 100 では傾向はおそらく分かるだろう。しかし、E = 10000 では傾向はノイズに埋もれてしまうだろう。
具体例として、IPCCが示した過去140年間の気温の記録[1]を見てみよう。年間気温の分散は約 0.2°C で、傾向は約 0.6°C、95% 信頼度は 0.2°C である(年間の分散と同じ値となっているのは偶然である)。従ってこの傾向は統計的に 0 とは有意な差がある。もっとも、気温の変動の具体的原因はこのデータからは分からない。
最小二乗法による傾向推定では、残差の二乗を推定後に捨てる。それはつまり推定された傾向のラインで説明されるデータの分散の部分がどれだけかということでもある。それは傾向の有意性には関係しない(右図参照)。ノイズの多い系列では残差の二乗は非常に小さいこともあるが、推定の有意性が非常に大きいこともある。フィルタリングを行うと残差の二乗は増大する傾向があるが、推定される傾向そのものやその有意性にはあまり違いが生じない。
これまで、データ列は傾向とノイズから構成されるとしてきた。また、ノイズは各データで「独立」であった(マルコフ性、正規分布ノイズ)。ノイズが定常的なガウス・マルコフ過程に従うという前提は情報最小の原理から生じた。これは統計の容易さという点で大きな意味がある。気象データのような実データはこの前提を満たさないかもしれない。

[ 177] 傾向推定 - Wikipedia
[引用サイト]  http://ja.wikipedia.org/wiki/%E5%82%BE%E5%90%91%E6%8E%A8%E5%AE%9A



お気に入り



  • track feed
    • seo