RenjieZhu

Hard work will pay off.

Unsupervised Learning

ist718-week9

Unsupervised Learning 数据集只有 x1, x2, x3, 没有y. 我们获得unlabeled data 要比 labeled data 更容易 Principal Components Analysis a tool used for data visualization or data pre-processing before supervise...

Sentiment Analysis

nlp664-week9

Sentiment Analysis 简介和需要解决的问题 语义文本分为主观部分和客观部分 可以只判断积极消极,也可以打分,也可以做opinion mining(难度逐渐变大) 有些时候可能有讽刺或者暗喻sarcasm or metaphor 或例如a great deal 只是一个短语 具体方法 处理消极值 Sentiment Lexi...

k-NN, SVMs, Ensemble

ist707-week7

k-NN, SVMs, Ensemble K-Nearest Neighbor (k-NN) Instance-based Learning,训练时没有分类过程,直到新数据给上,才会有分类/预测过程 k小对噪声敏感,k大降低准确度 The shape of decision boundary matters 没有特别的预先设定的形状,boundary取决于数据本身 ...

ISLR_Chapter2

ist718-week7

ISLR_Chapter3 (线性回归) Simple Linear Regression RSS Residual sum of squares. Least Squares Coefficient Estimate 矩阵形式 Evaluation Hypothesis testing 假设检验 p value : 观测值大于|t|的概率 RSE 和 r方...

Semantic Representation (语义表征)

nlp664-week7

Semantic Representation (语义表征) 1. First Order Logic (一阶逻辑) Constants常量 Functions 函数 LocationOf() Variables 变量 特点 词汇表面意思不一定等于实际意思 不是所有逻辑都那么清晰,现实会更复杂 适用于物体+动作的句子,而非理念想法等虚的 2.Fra...

Naive Bayes Classifier

ist707-week7

Naive Bayes Classifier 朴素贝叶斯分类器 Bayes Theorem 贝叶斯理论 一道小题: 女性得乳腺癌概率为8%。 如果女性有乳腺癌,她x光阳性的概率为90%。 如果女性没有乳腺癌,她x光阳性的概率为7%。 求女性x光阳性,有乳腺癌的概率为? 答:9%。 0.0072 / (0.0072 + 0.06944) 多变量的情况 通过假设变量inde...

Lexical Semantics (词汇语义)

nlp664-week6

Lexical Semantics (词汇语义) WordNet WordNet is a database of facts about words. 大型英语词汇数据库 Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressin...

ISLR_Chapter2

ist718-week6

ISLR_Chapter2 建模的意义 预测prediction:预测Y,f(x)可以看作黑箱 推断inference:变量对于Y产生了什么样的影响 估计f的方法 参数法:假定是线性的,或者其他模型,然后训练模型,例如最小二乘法,得到最佳的参数 非参数法: 不需要对函数f的形式事先做明确的假设。追求的是接近数据点的估计,估计函数在去粗和光滑处理后尽可能与更...

Statistical learning

ist718-week6

Statistical learning 终于到了关键的知识点的, 不错不错 什么是machine learning 开篇概念: How can a machine learning algorithm use experience to improve future performance 其中Experience = Data,Future = Data no...

Apache Spark 简介(下)

ist718-week4

Apache Spark 2.0简介 和1.6主要区别就是以data frames取代了rdds。 创建dataframes 1.From Row objects: 2.From RDDs: 3.From files: dataframes的几点特点 在一个column里的所有data的类型应相同 dataframe 类型可以有等级化:一个colum...