T.L Blog

大道至简

集成学习

结合R实例

融合方法 有人把它称为机器学习中的“屠龙刀”,非常万能且有效,集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术,集成算法往往是很多数据竞赛关键的一步,能够很好地提升算法的性能。哲学思想为“三个臭皮匠赛过诸葛亮” 现实生活中,我们经常会通过投票,开会等方式,以做出更加可靠的决策。集成学习就与此类似。集成学习就是有策略的生成一些基础模型,然后有策略地把它们都结合起来以做出最终的决策...

pyspark依赖部署

玩pyspark就像玩本地一样

前阵子需要用到Python相关数据挖掘的包,通过pyspark到线上跑,依赖比如sklearn、pandas等,线上机器版本是centos6.x,python2.6.x,gcc4.4.7,都是比较老的,可能是稳定压倒一切的原则吧,多少年都没更新了,那如何运行指定Python版本并能用线上不具有的包呢。 本文介绍两种方法,一种是通过virtualenv来解决包依赖问题,第二种通过anacon...

微博话题爬取与存储分析

一步步教你微博话题数据爬取与分析,以上海租房为例

大数据社会下数据就是黄金,新浪微博作为一个国内网络社交早就意识到这一点,本着资本家和商人的心态给你提供的开放API接口只可以获得少量无关紧要的数据(想要数据,money来换),对比国外Twitte等社交平台会提供一些数据接口供研究人员获取大量研究数据。那我们GEEK的口号是,凡是网上能显示数据的朕兼“可取”(v_v…为什么加个引号呢,因为虽然出于技术角度是都可取得,但出于道德方面考虑也要尊重...

Google Plus 文本提取与分析

数据提取、Bosen分词、NLTK、TFIDF、余弦相似度等

本文所有数据源自google+,全篇围绕五个方面来进行文本提取和分析: 数据获取 中文分词 NLTK 特征词提取 文本相似度 除此之外本文还设计到情感词分析,齐普夫定律等。其他方法像摘要自动提取、意见挖掘、文本聚类、新闻分类等常规文本分析内容并不适合google+的数据集,因此本文没有涉及。 获取数据 准备 google+ api 获取授权: 左侧栏第三个,...

匈牙利算法详解

二分图的最大匹配,完美匹配,最小路径覆盖数

“匈牙利算法”最早是由匈牙利数学家D.Koning用来求矩阵中0元素的个数的一种方法,由此他证明了“矩阵中独立0元素的最多个数等于能覆盖所有0元素的最少直线数”。1955年由W.W.Kuhn在求解著名的指派问题时引用了这一结论, 并对具体算法做了改进,仍然称为“匈牙利算法”。 指派问题是人员调度问题中的经典问题———m个人完成n项工作,且每个人完成每项工作的效率不一样,确定任务指派方案使得完...

GitHub数据提取与分析

谁是你关注领域的大牛,哪个是你领域内的最火项目,当前Hot Language是什么

GitHub作为全球最大的代码托管平台,每小时都有成千上万个项目产生,他为开源作出了不可磨灭的贡献。本文使用了NetworkX对GitHub的进行图形分析,通过gitHub的丰富数据,构建可以在各种不同的方式使用数据模型。这里将github用户、代码、仓库构建成兴趣图。本文包含三方面: github 开发者平台和对应的api 如何使用NetworkX作图 构建github的兴...

一道题目两种方案

阿里数据开发工程师一道笔试题,分组统计排名

阿里数据开发工程师一道笔试题,分组统计排名。 数据准备 具体题目网上没有搜到,那就造点数据来说明下。 首先造张员工表和部门表,结构如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 mysql> describe Employee; +--------------+-------------------+------+-----...

如何理解特征值

特征值在二次型优化和数据降维中的应用

定义 从线性空间的角度看,在一个定义了内积的线性空间里,对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。 特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。应用到最优化中,意思就是对于R的二次型,自变量在这个方向上变化的时候,对函数值的影响最大,也就...

海量大数据处理单机方案

通过巧妙的算法和相应的数据结构来提供大数据下的单机方案

所谓海量数据处理,无非就是基于海量数据上的存储、处理、操作。何谓海量,就是数据量太大,所以导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。 现在如果要求单机解决海量数据处理呢?显然只有通过空间换时间,通过把大数据分成小块小块解决,或者通过巧妙的算法和相应的数据结构来各个击破。 1. HASH算法 Hash可以通过散列函数将任意长度的输入变成固定长度的输出,也可...

Leecode(387)

First Unique Character in a String

题目 从一个字符串中找出第一个非重复字符,输出所在字符串中的位置,如果不存在,输出-1. 难度评价:简单 例子 Examples: s = “leetcode” return 0. s = “loveleetcode”, return 2. 解法 思路很简单,就是对每个字符计数,然后找出计数为1的字符输出。既然要输出索引,那么就要想办法在计数的时候就把索引信息输进去,千万...