Pthon

[原]解密Airbnb数据流编程神器:Caravel 颠覆许多大数据分析平台的开源工具

概述我非常认同前百度数据工程师、现神策分析创始人桑老师最近谈到的数据分析三重境界:统计计数多维分析机器学习数据分析的统计计数和多维分析,我们通常称之为数据探索式分析,这个步骤旨在了解数据的特性,有助于我们进一步挖掘数据的价值。而基于我们对数据的理解,再引入机器学习的算法对数据做出预测就变得水到渠成了。现实世界里,大部分的公司更多时间其实没有这个精力去搭建复杂的数据分析平台,

Django 学习小组:博客开发实战第二周教程 —— 实现博客详情页面和分类页面

上周我们完成了博客的 Model 部分,以及 Blog 的首页视图 IndexView。本节接上周的文档 Django 学习小组:博客开发实战第一周教程 —— 编写博客的首页面,我们继续给博客添加功能,以及改善前面不合理的部分。本教程将带你完成 Blog 的详情页面,即用户点击首页的文章标题或者阅读全文按钮将跳转到文章的详情页面来阅读整篇文章。其次将调整一些目录结构以使其在

tornado异步的mock以及装饰器

mock非常适合写单元测试, 用它patch掉网络请求的返回值即可async_func.py!/usr/bin/env python-- coding:utf-8 --import signalimport errnoimport tornado.genimport tornado.ioloopimport tornado.webimport tornado.httpcli

让我们一起来构建一个模板引擎(四)

在 上篇文章 中我们的模板引擎实现了对 include 和 extends 的支持, 到此为止我们已经实现了模板引擎所需的大部分功能。 在本文中我们将解决一些用于生成 html 的模板引擎需要面对的一些安全问题。转义首先要解决的就是转义问题。到目前为止我们的模板引擎并没有对变量和表达式结果进行转义处理, 如果用于生成 html 源码的话就会出现下面这样的问题 ( templ

mac 下终端代理方案

brew install proxychains-ngecho "\nsocks5 127.0.0.1 1088" >> /usr/local/etc/proxychains.confsock5 server 的安装 自己搜索 shadowsocks server 安装mac 下安装 shadowsocks-libev 当客户端 监听本地端口127.0.0.1:1088现

自己写一个 wsgi 服务器运行 Django 、Tornado 等框架应用

前几天写了 浅谈cgi、wsgi、uwsgi 与 uWSGI 等一些 python web 开发中遇到的一些名词的理解,今天博主就根据 wsgi 标准实现一个 web server,并尝试用它来跑 Django、tornado 框架的 app。编写一个简单的 http server在实现 wsgi server 之前我们先要做一些准备工作。首先,http server 使用

LocalNote,像使用本地文件一样使用印象笔记(支持 markdown 格式)

LocalNoteEnglish VersionLocalNote让你能够像使用本地文件一样使用印象笔记。支持流行的markdown格式的笔记,印象笔记中完美显示,上传重新下载笔记仍为.md格式。支持印象笔记原笔记格式转化为markdown格式,轻松开始使用。三平台支持,安装即用,在linux平台也流畅的使用印象笔记。可全笔记本使用,也可限定特定的笔记本使用,两种使用模式,

generator

前文我们了解如果书写一个Iterator,以及怎样在一个类中安装一个Iterator. 但,有时候我们只想要一个简单的iterator, 而且并不想这么复杂. 处于这个目的, 变成语言里面出现了generator 这个概念. 根据wiki的解释:In fact, all generators are iteratorsgenerator 同样也有iteartor的优势, 在

Django 学习小组:博客开发实战第三周教程——文章列表分页和代码语法高亮

摘要:前两期教程我们实现了博客的 Model 部分,以及 Blog 的首页视图 IndexView,详情页面 DetailView,以及分类页面 CategoryView,前两期教程链接请戳:Django 学习小组:博客开发实战第一周教程 —— 编写博客的 Model 与首页面Django 学习小组:博客开发实战第二周教程 —— 博客详情页面和分类页面本周我们将继续完善我们

使用lml代替beautifulsoup

我觉得beautifulsoup不好用,速度也慢(虽然可以使用lxml作为解析器了).另外soup.find_all这种简直就是手工时代的操作(很多人使用find find_all这几个函数, 其实它们使用起来不是很愉快)多使用soup.select才是正确的选择, 多简单方便.爬虫对html页面做的操作,大部分时候在选取东西,find_all还要自己手工去写(比如手工写正