時系列データを取り扱う前に

はじめに

時系列データをRで扱うことを考えてみます。動機はトレードをする際、感覚で行うのではなく何か裏付けがほしいと思うからです。そのための第一歩として時系列データ(要は株価など)を自在に扱えるようにしたい。

そのためにはどうすればいいかを考えました。

ツールを考える

データはcsv/テキストデータで入手できることが多いようです。ネットで公開されているものから取引所の公式データまで汎用的に処理できるようcsvで提供されています。よって、テキスト処理を行うためのツールの選定から始めます。

いろいろ調べて候補に挙がったのは、R、pythonです。Rは統計処理向けの言語で、簡単な統計処理から複雑な処理まで様々なライブラリが用意されていて、主に学術研究で使われることが多いように思います。ネットでの情報を見ていると、医療関係で使っている方が多いような気がしました。これはおそらく治験などで薬などの効果を見極めるために統計処理を日常的に使うためだと思いました。様々な条件下で薬の効果のみ確認するためには統計処理が必要で、日常的に使うためには対話式のインターフェースが優れているのかと思いました。また、定型的な処理だけではなく、非定常な作業もあるものと思います。つまり実験の結果を受けてさらに深く検討する際には、小回りが利くツールが必要なのだと思います。

次にpythonです。2.x系と3.x系があるらしい。新しく学ぶので新しいほうがいいと思うわけですが、2.x系と3.x系で互換性がないとのこと。試しに3.x系をインストールしていじってみたが、ネットの記述は2.x系が多く、参照しているライブラリも2.x系で話が進むため、参考にならないことが多く困った。だったら2.x系を試せばいいわけだが、またやり直す気力もないためしばらく保留することにしました。ルーチンワークが多くなったらまた検討することになると思います。

結論

以上の経緯を経て、私の場合は、試行錯誤を繰り返すうちはRによる作業のほうがいいだろうという結論になりました。