r

[译] 解密 Airbnb 的数据科学部门如何构建知识仓库

顽疾Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法。我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体验。最近,我们开始解决一个令人头疼的问题。随着组织的扩大,如何确保我们如何确保一个洞见有效地通过社交网络,这在我们内部称之为知识扩张。当我们团队仅由几个乐于分享和发现研究技巧的人

[原] 容器定义应用:数据科学的容器革命

概述随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自Docker的容器化技术。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。瓶颈1. 环境部署一致性保持数据科学环境一致性通常都是一件异常痛苦的事情,在不同的机器之间同时部署即使是用 Pyt

用R做一个灵活的时间序列数据可视化工具

数据可视化的烦恼数据分析师经常需要看数据。通常而言,数据或存放在MySQL数据库,或存放在Hadoop集群,或存放在阿里云的ODPS上。分析师根据业务需求写SQL语句从数据平台上提取出需要的数据,随后就面临着本文要重点讨论的怎么对数据可视化的难题。对于一个固定的需求,通常需要观察多组数据。普通一点的分析师,可能是拷贝出一组数据,贴到Excel里,绘个图看一下,然后拷贝下一组

R可视化:使用leaflet绘制高德地图

前言很多朋友说在R里没法使用高德地图,这里给出一个基于leaflet包的解决方法。当然,除了提供这个方法外,我还尝试对空间可视化的基础知识做一个简单的介绍。R空间可视化基础空间数据可视化,需要解决两个问题,一是怎么在R中表示空间数据,二是怎么在R中绘制空间数据/地图。sp包用于解决第一个问题,leaflet包用于解决第二个问题。sp空间数据最常用的格式是shp,主要由三个文

企业级市场中为何 RStudio 能够击败所有商业化Markdown编辑器获得运维青睐?

Markdown编辑器之战编辑器之战是一个历史遗留问题,以前大家争论最大的是Vim和Emacs。但是在代码工作者之外,对于文字工作者,Markdown编辑器则是兵家必争之地。Markdown之争近年来甚嚣尘上,各种云服务、论坛、笔记产品、编辑器都纷纷声明支持Markdown的编辑和预览。参考MacTalk的池老师最近给有道云笔记写的软文是一个很好的例子。作为一个多年深度的M

R可视化:iris数据探索

前言Kaggle数据挖掘竞赛里有一个经典的探索性分析例子,对iris数据集进行了各种形式的可视化,帮助人通过直观的图形更深地理解特征与label的关系。Kaggle官网给出了Python版本的实现,链接如下:https://www.kaggle.com/benham...本文用R对该notebook的代码进行重现。代码library(tidyr)library(dplyr)

使用kNN算法实现简单的手写文字识别

0. 介绍kNN,即k-Nearest Neighbor(k近邻算法), 简介可参考KNN的一些总结. 本文是《机器学习实战》一书第二章的例子, 主要利用kNN实现简单的手写文字识别.书中使用Python实现, 本文是使用R语言. 数据集中的图片分辨率为32*32, 并且该数据已经预处理成文本文件, 即类似点阵字体, 使用1代表有文字的像素, 0表示空白.1. kNN算法实