Skip to content

wqw547243068/wangqiwen

Repository files navigation

资料汇总

目录:

点这里从头再读一遍

积累平时的代码

Github编辑

名词解释    解释(代码引用示例之一)        select * from table where a=3 limit 10;

备注信息:


流程图: (代码引用示例之二)

flow
st=>start: Start:>https://www.zybuluo.com
io=>inputoutput: verification
op=>operation: Your Operation
cond=>condition: Yes or No?
sub=>subroutine: Your Subroutine
e=>end
st->io->op->cond
cond(yes)->e
cond(no)->sub->io

macbook配置

  • 汇总
功能 方法 备注
终端用户名自定义 系统偏好设置->共享->编辑电脑名称  -
画图工具OmniGraffle+Pro 6下载地址,注册码;7下载地址(含许可证) 兼容viso,功能强大
Mac Office 2016破解 操作简单,安装完mac office正式版后,下载破解文件,双击锁,就可以 参考地址
Mac下安装Windows Mac电脑上用VMware Fusion安装Windows7 提前下载vmware+Windows安装包,添加Windows虚拟机后默认无法启动,需要单独指定iso镜像位置,再重启即可
画图工具OmniGraffle+Pro 6下载地址,注册码;7下载地址(含许可证) 兼容viso,功能强大(【2017-12-6】注:7.4版才能用许可证,7.5以上不行)
安装pip sudo easy_install pip pip直接安装其他工具
软件包管理器 homebrew安装(参考地址);安装wget:brew install wget brew安装命令:ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
翻墙 1.有代理ip的直接设置:网络->高级->代理->勾选网页代理+安全网页代理,输入服务器域名及端口,无需填入账号。2.用lantern下载 备选方案很多
vim颜色显示 1.vim ~/.vimrc,2.添加colorscheme desert;syntax on vim sublime颜色主题
vim开发环境 vim IDE部署 其他主题包,[vim-go开发环境[(http://blog.csdn.net/chosen0ne/article/details/40782991)
shell目录颜色显示 开启方法:编辑~/.bash_profile,增加:export CLICOLOR=1;export LSCOLORS=exfxaxdxcxegedabagacad 注:如何在shell字符串中显示彩色字符?,显示白色:echo -e "\033[37m white \033[0m"
mac免密码远程登录 使用ssh创建rsa公钥密码。基本步骤:* 1.ssh-keygen生成密钥(ssh-keygen -t rsa) * 2.复制密钥文件到远程机器(scp ~/.ssh/id_rsa.pub [email protected]:/home/wangqiwen/.ssh) * 3.登录远程机器,修改文件权限(cd ~/.ssh && cat id_rsa.pub >> authorized_keys; chmod 644 authorized_keys;chmod 700 ~/.ssh/) 参考地址:mac无密码登录,Linux 下 SSH 命令实例指南,菜鸟学Linux命令:ssh命令 远程登录
ssh会话管理 ssh配置文件实现别名快捷登录
chrome浏览器中右键失灵 双指触碰链接时,并未弹出右键菜单,而是“图片另存为” 解决办法:这是由于chrome浏览器上开启了鼠标手势,造成干扰,关闭或删除插件即可
image not recognized dmg文件无法安装,原因:文件损坏,dmg权限不允许任意来源的包;换浏览器 如何开启任意来源包?sudo spctl --master-disable
redis安装 brew install redis 使用方法:启动服务,redis-server,连接服务:redis-cli
mac mail客户端设置 连接163时,需要先去163邮箱开启pop3/imap选项,通过手机验证码设置连接密码;mail终端配置时填入的密码是连接密码(非登录密码!) wqw3721
安装虚拟机 vmware安装,下载地址 vmware fusion 8激活码:FY75A-06W1M-H85PZ-0XP7T-MZ8E8,ZY7TK-A3D4N-08EUZ-TQN5E-XG2TF,FG1MA-25Y1J-H857P-6MZZE-YZAZ6
Mac下运行Windows软件 (1)boot camp安装Windows虚拟机(win 10文件过大);(2)安装wine 步骤:(1)brew cask install xquartz(2)brew install wine
java 官方下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 优先使用绿色版(tar.gz,非二进制的rpm)。环境变量配置方法:修改/etc/profile文件,在文件的最下边加入下边的文本:export JAVA_HOME=/opt/jdk1.7; export CLASSPATH=.:$JAVA_HOME/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar; export PATH=$JAVA_HOME/bin:$PATH
Web服务 Mac OS 启用web服务,简网教程
linux 服务器mail mail command not found 解决方法:sudo yum install mailx;echo "test" (竖线) mail -s "content" [email protected]
linux下安装http服务 安装httpd 1.yum install httpd -y 2.随系统启动:chkconfig httpd on 3.开启Apache:service httpd start
terminal下如何开启应用? 用open命令开启(open .用finder打开当前位置目录;open file自动调用默认程序打开文件;say hello语音说话),可以传参,备注:放到别命中,alias view='open /Applications/Preview.app'或alias edit='open /Applications/Sublime\ Text.app' open /Applications/Sublime\ Text.app README.md
shell美化 Oh My ZSH! 安装:sh -c "$(curl -fsSL https://raw.github.com/robbyrussell/oh-my-zsh/master/tools/install.sh)"
刻盘 Etcher全平台工具 操作过程极其简单
移动硬盘无法写入 原因:mac不支持ntfs格式,需要安装特殊软件:ntfs for mac
mac显示当前路径 命令:defaults write com.apple.finder _FXShowPosixPathInTitle -bool YES 顶栏出现路径,还可以点击定位到子目录
mac当前位置打开终端 命令:https://jingyan.baidu.com/article/ce436649281a293773afd3d8.html
mac下excel打开csv中文乱码 原因是mac底下中文一律utf8编码,而excel文档默认中文是gbk编码,需要单独设置下才行。http://blog.csdn.net/wqdwin/article/details/76058154 亲测有效
【2018-1-11】 网易mumu模拟器
【2018-1-11】 mac下安装adb,调试Android brew cask install android-platform-tools
【2018-6-25】 crossover mac版 mac上运行ie浏览器,使用步骤

wqw:code wangqiwen$ git clone https://github.com/p1cn/backend.git
Cloning into 'backend'...
Username for 'https://github.com': wqw547243068
Password for 'https://[email protected]':
remote: Invalid username or password.
fatal: Authentication failed for 'https://github.com/p1cn/backend.git/'

原因:Github没有fork项目代码,或没加所在机器的sshkey(settings->deplot keys)

python使用mysql方法

安装方法

mac下安装MySQL-python

要想使python可以操作mysql,就需要MySQL-python驱动,它是python 操作mysql必不可少的模块。

  • 下载地址
  • 下载MySQL-python-1.2.5.zip 文件之后直接解压。
  • 进入MySQL-python-1.2.5目录:
python setup.py install

连接mysql

shell 代码,shell脚本中调用sql脚本

#mysql初始化-shell
mysql=/usr/local/mysql/bin/mysql
$mysql -uroot -pwqw  < init.sql

或者shell脚本中直接执行sql

mysql=/usr/local/mysql/bin/mysql
$mysql -uroot -p123456 <<EOF  
source /root/temp.sql;  
select current_date();  
delete from tempdb.tb_tmp where id=3;  
select * from tempdb.tb_tmp where id=2;  
EOF

爬虫

python抓取链接二手房数据

json使用

shell中使用json

  • #[2016-12-31] shell中使用json
  • 安装:

pip install git+https://github.com/dominictarr/JSON.sh#egg=JSON.sh

  • 使用:
echo '{"a":2,"b":[3,6,8]}' |JSON.sh

详情参考:https://github.com/dominictarr/JSON.sh

可视化

地图数据可视化

学习资料

学习技巧

  • 互联时代怎么阅读?
  • 读书重在结构生长,形成扎实的支撑;
  • 碎片阅读重在视野的纳新和扩展,开枝散叶;
  • 思考重在提炼和关联,勾画错综的经脉。
  • 学习就是如此,由外而内,无广不精,无博不深,但能坚持必有所成。
  • 网络阅读的最佳实践,不在“取”,在“舍”,知舍才能知关键,料不在多,有感悟一二足矣。

费曼技巧

  • 学习金字塔

学习金字塔

数学基础

Essence of Linear Algebra

  • 行列式:行列式,记作 det(A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特 征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小 了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的 体积。如果行列式是 1,那么这个转换保持空间体积不变
  • 【2017-11-24】遇见数学:图解线性代数
  • 六大概率分布
  • 最优化算法-避开鞍点
  • 频率学派与贝叶斯学派之争知乎网友解释,频率学派最先出现,疯狂打压新生的贝叶斯学派,贝叶斯很凄惨,就跟艺术圈的梵高一样,死后的论文才被自己的学生发表,经过拉普拉斯之手发扬光大,目前二派就像华山派的剑宗和气宗。频率学派挺煞笔的,非得做大量实验才能给出结论,比如你今年高考考上北大的概率是多少啊?频率学派就让你考100次,然后用考上的次数除以100。而贝叶斯学派会找几个高考特级教师对你进行一下考前测验和评估,然后让这几个教师给出一个主观的可能性,比如说:你有9成的把握考上北大。
    • 这个区别说大也大,说小也小。(1)往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值;贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这个和量子力学某些观点不谋而合。(2) 往小处说,频率派最常关心的是似然函数,而贝叶斯派最常关心的是后验分布。我们会发现,后验分布其实就是似然函数乘以先验分布再normalize一下使其积分到1。因此两者的很多方法都是相通的。贝叶斯派因为所有的参数都是随机变量,都有分布,因此可以使用一些基于采样的方法(如MCMC)使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布,因此更加客观,也更加无偏,在一些保守的领域(比如制药业、法律)比贝叶斯方法更受到信任。
    • 频率 vs 贝叶斯 = P(X;w) vs P(X|w) 或 P(X,w)   - 频率学派认为参数固定,通过无数字实验可以估计出参数值——客观;
    • 贝叶斯学派认为参数和数据都是随机的,参数也服从一定的分布,需要借助经验——主观
  • 统计学基础知识【脑图笔记】
  • 大矩阵相乘:分布式版本,MapReduce实现矩阵相乘Hadoop实现大矩阵相乘之我见
    • A大B小(内存受限) 图
    • AB都大(内存受限) 图
    • 不受内存限制(最小粒度) 图
  • Colah的Visual Information Theory中文翻译
  • 【2017-11-24】遇见数学,图解普林斯顿微积分系列 图

计算机基础

分布式计算

推荐系统

  • 项量:关于LDA,pLSA,SVD和Word2vector的一些看法
    • SVD算法是指在SVD的基础上引入隐式反馈,使用用户的历史浏览数据、用户历史评分数据、电影的历史浏览数据、电影的历史评分数据等作为新的参数
    • LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题,将词语(term)中的concept提取出来,建立一个词语和概念的关联关系(t-c relationship),这样一个文档就能表示成为概念的向量。这样输入一段检索词之后,就可以先将检索词转换为概念,再通过概念去匹配文档。在实际实现这个思想时,LSA使用了SVD分解的数学手段.x=TSD
    • PLSA和LSA基础思想是相同的,都是希望能从term中抽象出概念,但是具体实现的方法不相同。PLSA使用了概率模型,并且使用EM算法来估计P(t|c)和P(c|d)矩阵.LDA是pLSA的generalization:一方面LDA的hyperparameter设为特定值的时候,就specialize成pLSA了
    • NMF:一种矩阵分解,要求输入矩阵元素非负,目标和 SVD 一样。
    • pLSA:SVD 的一种概率解释方法——要求矩阵元素是非负整数。LDA:pLSA 加上 topics 的 Dirichlet 先验分布后得到的 Bayesian model,数学上更漂亮。为什么是 Dirichlet 先验分布,主要是利用了 Dirichlet 和 multinomial 分布的共轭性,方便计算。
  • 从item-base到svd再到rbm,多种Collaborative Filtering(协同过滤算法)从原理到实现
  • 案例分享:世纪佳缘推荐系统经验分享
  • 《推荐系统实践》阅读笔记:LFM模型、图模型、slop one和SVD算法
  • 实时推荐系统

机器学习

特征工程

算法总结

异常检测

  • IsolationForest。欺诈等是一系列的异常孤立点,而IsolationForest则是检测这类孤立点的一个有效算法。无需样本标记、线性时间复杂度。一般情况下要比OneClasSVM等表现要好。尤其是对非高斯分布的样本空间。
  • 【2017-7-31】反欺诈(Fraud Detection)中所用到的机器学习模型有哪些?
    • (1)可视化:相关矩阵+多维尺度变换
    • (2)算法模型:时序相关(时间序列分析)、时序无关(无监督学习Isolation Forest、监督学习one-class SVM、统计学密度估计)

机器学习经验总结

流形学习

  • 什么是流形学习?传统的机器学习方法中,数据点和数据点之间的距离和映射函数f都是定义在欧式空间中的,然而在实际情况中,这些数据点可能不是分布在欧式空间中的,因此传统欧式空间的度量难以用于真实世界的非线性数据,从而需要对数据的分布引入新的假设。流形(Manifold)是局部具有欧式空间性质的空间,包括各种纬度的曲线曲面,例如球体、弯曲的平面等。流形是线性子空间的一种非线性推广。参考流形学习的简单介绍
  • 流形学习:本质上,流形学习就是给数据降维的过程。这里假设数据是一个随机样本,采样自一个高维欧氏空间中的流形(manifold),流形学习的任务就是把这个高维流形映射到一个低维(例如2维)的空间里。流形学习可以分为线性算法和非线性算法,前者包括主成分分析(PCA)和线性判别分析(LDA),后者包括等距映射(Isomap),拉普拉斯特征映射(LE)等。流形学习可以用于特征的降维和提取,为后续的基于特征的分析,如聚类和分类,做铺垫,也可以直接应用于数据可视化等。注:摘自集智百科流形学习(优质,包含代码及案例)
    • 拟合线性的流形学习模型:LLE, LTSA, Hessian LLE, 和Modified LLE
    • 拟合非线性的流形学习模型:Isomap,MDS和Spectral Embedding
    • 效果示意如下:降维效果
  • 浙大何晓飞的流形学习ppt,讲的很清楚,全面,最佳资料

降维

常见的pca属于无监督{【2017-12-28】【精华】PCA可视化讲解,马尔科夫链可视化讲解Markov Chains},lda有监督,常用降维方法如下图。 常用降维方法脑图

深度学习

神经网络发展历史

神经网络网络结构变化

网络结构变化历史 当然,光有强大的内在能力,并不一定能成功。一个成功的技术与方法,不仅需要内因的作用,还需要时势与环境的配合。神经网络的发展背后的外在原因可以被总结为:更强的计算性能,更多的数据,以及更好的训练方法。只有满足这些条件时,神经网络的函数拟合能力才能得已体现 -【2017-8-7】The mostly complete chart of Neural Networks, explained,神经网络结构大全 all type of nerual network

发展外因

深度学习大牛

深度学习书籍

几本有名的书籍: -【2017-8-5】Neural Network and Deep Learning(神经网络与深度学习)

时间 类型 名称 备注
Andrew NG cs229:Andrew NG斯坦福机器学习网易公开课 中文字幕
台大林轩田 机器学习基石和机器学习技法,bilibili视频地址
Hinton 机器学习和神经网络,网易云课堂
chris manning 斯坦福2017季CS224n深度学习自然语言处理课程
李宏毅 李宏毅Machine Learning (2017,秋,台湾大学)
牛津 深度学习NLP(牛津大学 2017)(英文字幕)bilibili地址
andrew ng 吴恩达深度学习与神经网络,bilibili地址,黄海广博士写的学习笔记,源自AI初学者--(机器学习爱好者)2014斯坦福机器学习,深度学习 deeplearning.ai
andrew ng 《MACHINE LEARNING YEARNING》翻译 2018-4-23
Ian good fellow 《深度学习》读书会分享视频集,bilibili地址
普林斯顿-算法
吴恩达 DeepLearning.ai学习笔记彩绘版,百度云地址 很好的资料,作者TessFerrandez的信息图地址,相关github地址
google Google AI 教学系列片 《Cloud AI Adventures》
机器学习概念图示 来自Chris Albon博士,英文原版需要12$,中文版百度网盘地址(密码:hje1)由大数据文摘提供 参考资料:300张小抄表搞定机器学习知识点
语音识别实践 解析深度学习:语音识别实践,pdf 备份pdf链接

大神博客

案例及Demo

CNN


NLP自然语言处理&RNN

RNN


语音


对抗生成学习

VAE和GAN,VAE和GAN

强化学习

迁移学习

  • 【2017-9-3】中科院计算所迁移学习pdf
  • 【2017-9-3】集智俱乐部,迁移学习资料汇总github知乎
  • 【2018-5-1】【主动学习:优化!=改进】《Active Learning: Optimization != Improvement》 by LightTag。注:主动学习是指监督学习中,用较少的训练样本来获得性能较好的分类器 主动学习
  • 【2018-5-12】【无需博士学位的TensorFlow深度强化学习教程】《TensorFlow and deep reinforcement learning, without a PhD (Google I/O '18) - YouTube》by Martin Gorner. Youtube地址, Bilibili地址

知识图谱

数据挖掘

人脸识别

IT资讯

工具

实验评估

  • 第一种:A/B-Test. 什么是ab-test?
    • A/B Test,也称为对比测试,是让两个版本的登陆页面的相互pk测试。看看哪个版本能更好地引导访问者达到你的预设目标,如注册或订阅。
    • 工程实施:叫你如何对产品进行AB Test?,包含服务端、客户端如何实施ab-test,及各自的优缺点
  • ab-test有什么局限性?
    • 首先,A/B测试只有在关键效绩指标(KPI, or Key Performance Indicator)单一,且这个单一明确的目标可以被电脑量化时,适用
    • 其次,A/B测试相比起一些别的测试手段,如纸本原型(paper prototyping),需要的工作量大、时间长,对设计的要求也相对较高。
    • 另外,A/B测试之所以进行,唯一原因是对结果的追求。但相对应的测试结果通常是短期、即刻的用户行为,比如购买、注册、点击等。
    • 此外,A/B测试并不能提供用户行为的具体细节。A/B测试的结果也仅限于被测试的两个选项:如果12号字比16号字为你的网站带来多1%的用户浏览时间,那10号字呢?8号呢?A/B测试并不能帮助你作更多的、长远的决定。
    • A/B测试还有别的缺点:需要的用户人数大,可能的影响因素多,可以测试的选项数有很大限制等等。
  • 吆喝科技-ab-test最佳实践
  • 第二种:interleaving,参考美团分享的文章沈国阳:美团推荐系统整体框架与关键工作.
    • abtest的好处是可以对多个策略给出定量评估,坏处是:①策略差异小时,评估结果波动大②需要较长时间反馈,导致迭代速度慢
    • 改进:interleaving,所需流量小,灵敏度高(24h内),但只能给出定性结论。基本思想是将两个策略混合,对所有用户统计分析判断哪个好
    • 【2018-6-22】优质资源,多图解释Innovating Faster on Personalization Algorithms at Netflix Using Interleaving
  • 灰度发布和A/B Test

编程语言

视频资源

公开课

About

homepage

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published