请选择 进入手机版 | 继续访问电脑版
楼主: Nicolle
2097 12

Data Wrangling with Python [推广有奖]

版主

巨擘

0%

还不是VIP/贵宾

-

TA的文库  其他...

Python(Must-Read Books)

SAS Programming

Must-Read Books

威望
16
论坛币
12389817 个
通用积分
986.6312
学术水平
3277 点
热心指数
3299 点
信用等级
3072 点
经验
472153 点
帖子
23423
精华
91
在线时间
9468 小时
注册时间
2005-4-23
最后登录
2021-10-16

Nicolle 学生认证  发表于 2015-10-27 08:26:57 |显示全部楼层
1论坛币

Product Details
  • Paperback: 450 pages
  • Publisher: O'Reilly Media; 1 edition (Jan. 25 2016)
  • Language: English
  • ISBN-10: 1491948817
  • ISBN-13: 978-1491948811
  • Product Dimensions: 15 x 1.5 x 25 cm


最佳答案

wwqqer 查看完整内容

在这里:https://bbs.pinggu.org/thread-4231859-1-1.html
关键词:ANGLING python Data With RAN Media

本帖被以下文库推荐

stata SPSS
wwqqer 在职认证  发表于 2015-10-27 08:26:58 |显示全部楼层
在这里:https://bbs.pinggu.org/thread-4231859-1-1.html
已有 1 人评分经验 论坛币 收起 理由
Nicolle + 100 + 100 精彩帖子

总评分: 经验 + 100  论坛币 + 100   查看全部评分

使用道具

Nicolle 学生认证  发表于 2016-3-25 19:57:42 |显示全部楼层

11.1

  1. from bs4 import BeautifulSoup
  2. import requests

  3. page = requests.get('http://www.enoughproject.org/take_action')

  4. bs = BeautifulSoup(page.content)
  5. ta_divs = bs.find_all("div", class_="views-row")

  6. all_data = []

  7. for ta in ta_divs:
  8.     data_dict = {}
  9.     data_dict['title'] = ta.h2.get_text()
  10.     data_dict['link'] = ta.a.get('href')
  11.     data_dict['about'] = [p.get_text() for p in ta.find_all('p')]
  12.     all_data.append(data_dict)

  13. print all_data
复制代码

使用道具

Nicolle 学生认证  发表于 2016-3-25 19:58:20 |显示全部楼层

11.2

  1. from lxml import html

  2. page = html.parse('http://www.emoji-cheat-sheet.com/')

  3. proper_headers = page.xpath('//h2|//h3')
  4. proper_lists = page.xpath('//ul')

  5. all_emoji = []

  6. for header, list_cont in zip(proper_headers, proper_lists):
  7.     section = header.text
  8.     for li in list_cont.getchildren():
  9.         emoji_dict = {}
  10.         spans = li.xpath('div/span')
  11.         if len(spans):
  12.             link = spans[0].get('data-src')
  13.             if link:
  14.                 emoji_dict['emoji_link'] = li.base_url + link
  15.             else:
  16.                 emoji_dict['emoji_link'] = None
  17.             emoji_dict['emoji_handle'] = spans[1].text_content()
  18.         else:
  19.             emoji_dict['emoji_link'] = None
  20.             emoji_dict['emoji_handle'] = li.xpath('div')[0].text_content()
  21.         emoji_dict['section'] = section
  22.         all_emoji.append(emoji_dict)

  23. print all_emoji
复制代码

使用道具

Nicolle 学生认证  发表于 2016-3-25 19:59:33 |显示全部楼层
11.3
  1. from lxml import html

  2. page = html.parse('http://www.enoughproject.org/take_action')
  3. root = page.getroot()

  4. ta_divs = root.cssselect('div.views-row')
  5. print ta_divs

  6. all_data = []

  7. for ta in ta_divs:
  8.     data_dict = {}
  9.     title = ta.cssselect('h2')[0]
  10.     data_dict['title'] = title.text_content()
  11.     data_dict['link'] = title.find('a').get('href')
  12.     data_dict['about'] = [p.text_content() for p in ta.cssselect('p')]
  13.     all_data.append(data_dict)

  14. print all_data
复制代码

使用道具

Nicolle 学生认证  发表于 2016-3-25 20:00:20 |显示全部楼层
11.4
  1. import requests

  2. google = requests.get('http://google.com')

  3. print google.status_code
  4. print google.content[:200]
  5. print google.headers
  6. print google.cookies.items()
复制代码

使用道具

Nicolle 学生认证  发表于 2016-5-6 08:47:21 |显示全部楼层
3.1
  1. import csv

  2. csvfile = open('data-text.csv', 'rb')
  3. reader = csv.reader(csvfile)

  4. for row in reader:
  5.     print row
复制代码

使用道具

Nicolle 学生认证  发表于 2016-5-6 08:47:42 |显示全部楼层
  1. import csv

  2. csvfile = open('data-text.csv', 'rb')
  3. reader = csv.DictReader(csvfile)

  4. for row in reader:
  5.     print row
复制代码

使用道具

Nicolle 学生认证  发表于 2016-5-6 08:48:18 |显示全部楼层
  1. import json

  2. json_data = open('data-text.json').read()

  3. data = json.loads(json_data)

  4. for item in data:
  5.     print item
复制代码

使用道具

Nicolle 学生认证  发表于 2016-5-6 08:49:08 |显示全部楼层
  1. from xml.etree import ElementTree as ET

  2. tree = ET.parse('../../data/chp3/data-text.xml')
  3. root = tree.getroot()
  4. print root

  5. data = root.find('Data')

  6. all_data = []

  7. for observation in data:
  8.     record = {}
  9.     for item in observation:

  10.         lookup_key = item.attrib.keys()[0]

  11.         if lookup_key == 'Numeric':
  12.             rec_key = 'NUMERIC'
  13.             rec_value = item.attrib['Numeric']
  14.         else:
  15.             rec_key = item.attrib[lookup_key]
  16.             rec_value = item.attrib['Code']

  17.         record[rec_key] = rec_value
  18.     all_data.append(record)

  19. print all_data
复制代码

使用道具

您需要登录后才可以回帖 登录 | 我要注册

京ICP备16021002-2号 京B2-20170662号 京公网安备 11010802022788号 论坛法律顾问:王进律师 知识产权保护声明   免责及隐私声明

GMT+8, 2021-10-17 17:27