Intro to Data Science : Project 2

Project 2: Wrangling Subway Data

pandas.read_csv(filename)
pandasql.sqldf(q.lower(), locals())
- #Execute your SQL command against the pandas frame
cast(maxtempi as integer)
平均
- avg(cast (meantempi as integer))
曜日指定
- where cast (strftime('%w', date) as integer) in (0,6);

ファイル存在
- import os.path
- os.path.exists(path)
リストのサイズ
- print len(list)
csv
- reader = csv.reader(open(name, 'rb'), delimiter=',')
  - for row in reader:
- writer = csv.writer(open(name, 'wb'), delimiter=',')
テキスト読み込みと書き込み
- with open(output_file, 'w') as master_file:
  - master_file.write
- ヘッダーをスキップ
  - python - Read file from line 2 or skip header row - Stack Overflow
- with open(fname) as f:
  - next(f)
    - for line in f:
range
- for var in range(0, 10):
- 最後の数値含まない
  - range(1,11)
  - [1,2,3,4,5,6,7,8,9,10]
array empty
- if not len(record) == 0:
- if len(record) != 0:
スペース削除
- map(str.strip, row[var5+3:var5+8])
  - strは文字列化

pandas

pandas.read_csv(filename)
データのフィルタ
- turnstile_data = turnstile_data[turnstile_data['DESCn'] == 'REGULAR']
- 破壊的なのは存在する？
shift(1) 前後のデータ
fillna(1) NAに対するデフォルト値
- df['ENTRIESn_hourly'] = (df['ENTRIESn'] - df['ENTRIESn'].shift(1)).fillna(1)
pandas.to_datetime(time).hour
import datetime
- date_formatted = datetime.datetime.strptime(date, '%m-%d-%y').strftime('%Y-%m-%d')
- 時刻表現文字列を生成するための strftime(format) メソッド
- datetime.strptime() クラスメソッドは日付や時刻に対応するフォーマット文字列から datetime オブジェクトを生成

2時間弱

quattro_4 scribble