微软21世纪的计算研讨会:笔记
今天参加了21CCC,在学校的邱德拔体育馆举办。下面是今天记的笔记。
The Pipeline from Computing Research to Surprising Inventions
Peter Lee
- 1969,Doug Englebart 展示了类似英特网的技术
- 1969,登月
- 这两个事件,哪一个有更大的影响?
- 看到现在的世界,人们没有用登月技术来优化生活,但是计算机技术可以让人充满力量。无数创新都源自于计算机科学。
- StarTrack
- 拯救地球的唯一办法就是进行时空穿梭回到现在世界,找到解码未来威胁的钥匙
- 首先要找到计算机。工程师开始对计算机说话。
- 计算机在21世纪应该可以自然地与人互动。
- 如何才能自然地与计算机互动?如何让计算机理解自然语言?
- Machine Learning
- 最早的信封识别,程序是脆弱的。
- 收集很多的样本,获得Training Examples和Training Labels
- 放入Machine Learning系统中
- 微软总部的电梯会自动开门
- 10个月的机器学习,电梯就会自动开门了
- 流程
- Speech Training Data - Labels
- Deep Neural Net machine learning system
- Speech
- 语音识别Speech Error Rate已经降到了10%之下(ref. error curve)
- Windows Phone和Xbox已经应用了ML来识别语音
- 回到error curve,2000-2009年,error rate持平了10年没有下降
- 许许多多点子在期间提出来,但没什么效果
- 研究需要信念和热爱
- 回到StarTrack
- 里面的人们可以通过计算机与外星人交流
- 现实生活中做得到吗?
- Microsoft Research Asia做了大量研究。
- Video - 计算机自动同传
- 计算机自动同传
- 错误有点多……
- 这将很快实用
- Skype
- Skype是微软的通讯工具
- 把它扩充,使得它有翻译功能
- 这是微软研究院的重要项目
- 一个月之后,Skype Translator会发布公测
- Video - Skype Translator
- Mission Focus, Activity Focus
- 当尝试把构想变成现实的时候,会出现各种困难,以Skype为例
- 人们生活中交流的方式
- 口语化
- 重音(举了西班牙语的例子)
- 这涉及到人类的行为学
- 不流畅的表述
- 分割,分别处理,分析这是什么类型的停顿或插入
- 人们生活中交流的方式
- 微软小冰
- www.msxiaoice.com
- Blue-Sky work to product
- 四种类型的研究(ref. graph)
Personal Control of Digital Data
Butter W.Lampson
![](/content/images/2016/05/IMG_2737.jpg) 数据隐私的博弈- Background
- What is new about data?
- widespread in time and space
- accessible: easy to find, connect
- Data about people in the physical world will be just as important ad data that is born digital
- technology and rules must work hand in hand
- technology support rules, not determine them
- What is new about data?
- Principles
- For what?
- maintain a balance of power
- server the public good
- existing law covers many cases
- choices given to people must be simple
- regulations change slowly, have unintended consequences
- For what?
- 今天的人们并不是很担心个人数据的问题
- 但是今后规则会越来越多,人们会希望信任的人去控制自己的数据
- 个人控制数据是一种人权
- 对于个人数据的看法在发生巨大的变化
- 公司在使用数据的时候必须要和规矩
- 制定规则的时候,人们希望自己有控制权
- 人们把自己的数据放在一个空间里面,要用的时候发一个query?
- 昂贵
- 速度慢
- 不可能进行大数据研究
- 不能用于公共的福祉
- 人们把自己的数据放在一个空间里面,要用的时候发一个query?
- 更好的个人数据控制
- 发现谁在用:控制他的使用,可以随时终止
- 全互联网通行
- 任何时候都可以进行操作
- 持续有效的规则
- 如果你希望,则可以选择匿名
- 一个实际的操作
- metadata与隐私联系,用来标记数据
- 条款要简洁
- 没有集中式数据库来收集信息,换用下面的方式
- 个人代理——处理关于你的数据的事务
- 政策服务——告诉使用数据的人,你的政策是什么
- 处理你的数据的人
- 人们在网上表现出的个性和人格多种多样
- 多个社交网络账号
- 多个邮件账号
- 几个场景
- 搬家了,你要更新你的联系信息
- 更新,删除一些不想让他再知道的
- 学校要在紧急情况下的联系
- 只能联系登记的紧急联系人
- 想看更好看的广告
- 禁用DoubleClick
- 交通摄像头拍照
- 你应该可以知道谁在用
- 搬家了,你要更新你的联系信息
- 怎么运做?(ref. graph)
- 贴标签。把metadata贴到你的数据上
- 附上你的隐私政策
- 附上你的个人代理的数据
- 数据复制、处理之后仍然保留
- 信息被重新识别时,要加上标签(比如“由交通摄像头拍下”)
- 使用者在使用之前必须看看你的信息使用政策
- metadata是NID+URL
- NID:数字化ID,就像你自己的名字。登陆之前保持匿名
- URL:连接到你的隐私政策
- 使用数据的人在使用的时候查询你的隐私政策
- 政策服务商记下谁查询过我的隐私政策
- 贴标签。把metadata贴到你的数据上
- 各种情况下NID的使用
- 匿名:每次会话都刷新NID
- 已知:每个网站一个,与cookie连接
- 登陆:每个账号一个,登陆的时候使用这个NID
- 找到谁用了你的数据
- 你先得知道谁通过你的数据,才能控制你的数据
- 政策服务商追踪哪些数据处理器用过你的数据
- 控制和隐私
- 有人强迫要使用信息
- 信息有脆弱性
- 政府行为、法院传票、正式要求
- 个人行为(权威的人)
- 防止
- 合情合理滴否绝。提供虚假的信息来应对胁迫。这很难做到啊
- 信息有脆弱性
- 有人强迫要使用信息
- 政策
- 以数据为中心,而不是以服务、设备为中心
- metadata与数据联系
- 与政策的交互是<handler, type> -> Yes/No的形式
- 也可以传递更多信息
- 基本的政策要简单,可以大规模应用
- 7+-2类型的数据
- 基本政策:XXX服务商能/不能使用YYY数据
- 用and、or、else来组合这些基本政策
- 复杂的政策组合
- 一个App就可以看作一个数据使用商
- 以数据为中心,而不是以服务、设备为中心
- 用户体验的原则
- 现在的是通知+同意的模式:好几页的条款,点了同意才能用
- 应该一个屏幕就可以显示我的数据政策
- 把自己的政策和第三方的政策进行比较,列出差别
- 默认程序来防止忘记
- 细节
- 更换数据处理商的自由
- 政策的请求要安全
- SSL、TLS
- 通过Apps来控制数据的使用
- 单人多账户(多个网络人格)的体验要好
- 改进
- metadata要一直和数据在一起,除非数据被做了加和
- 进行加和处理的数据要经本人同意
- 一个人有多个账户
- 联合权利,比如拍照者和被拍者都有一定权力
- 数据的来源,用metadata进行扩展,来标记这些信息
- metadata要一直和数据在一起,除非数据被做了加和
Computing and Healthcare
Michael Brady
![](/content/images/2016/05/IMG_2747.jpg) 计算和现代医学软件是最终改变一切的东西
- 医学史
- 18世纪,医生什么都不知道
- 19世纪,医学与工程、物理协作
- 19世纪末:X射线,透视人体内部
- 20世纪:数字电脑、量子力学、分子生物学——都用在MRI机器中
- 机器人手术
- 信息系统的支持
- 超小的机器人眼部手术
- 第一例人类手术成功了
- 假肢
- 古代的假肢替换整腿,现在可以只换关节的一小部分
- 假肢和神经连接
- 肝脏癌症切除
- 图像放射技术
- 聚集X光的能量到肿瘤部位,保护剩下的健康部位
- 图像分析
- 由于疾病的复杂性,一张图片不能足够治病
- CT和PET的图像和起来
- 乳腺癌的例子
- 分析图片得出乳房密度与乳腺癌几率相关
- 开发出对应的方法
- 肥胖
- 生物抽脂
- 变态
- 对肝脏有影响
- 对身体的参数进行准确成像,就可以对特定情况进行治疗
- 生物抽脂
- 平板电脑
- 智能手机的第一个十年
- 治疗慢性疾病
- 空气不好的时候,哮喘病人收到提示,不应该出门
- 80%英国医生处理慢性病
- 使用移动技术检测血糖
- 检测斜视
- 及早的发现是可以纠正的
- 用摄像头成像,来检测斜视现象
- 摄像头手机数据,传到网络,可以了解一个人群的情况
- 印度
- 农村地区的医疗
- 治疗慢性疾病
- 智能手机的第一个十年
- 医疗方面费用的支出
- 医疗费用以2%每年的速度,超出GDP的增速
- 老龄化问题(增长最快的年龄段是85以上人口)
- 独立生活
- 在大医院生活一天比在五星级酒店还贵
- 老年公寓的开支:4年100万人民币
- 必须让人尽可能长独立生活
- 人的家与医疗服务无缝连接
- 智能设施
- 无线传感器
- 清洗机器人、自动电饭锅
- 社交媒体降低孤独感
- 在大医院生活一天比在五星级酒店还贵
- 计算正在改变我们的医疗体系,这还只是一小步
- 个人数据的问题
- 创新的应用
- 软件是关键
- 医生有无数数据,但他们其实要的是信息
Biometrics - How Do I know Who You Are?
Anil K.Jain
![](/content/images/2016/05/IMG_2749.jpg) 生物识别技术的工作流程- Bank ATM
- Is ATM safe?
- Credit Card Data Stolen
- 88% of stolen data used within minutes
- Apple Pay
- Your fingerprint is the password
- No credit card info transmitted
- Mobile Payment
- m-pesa in Africa
- Deposit, withdraw, transfer
- m-pesa in Africa
- Security Threats
- People cannot be trusted based on ID - fake IDs, stolen IDs
- Some of the 9/11 hijackers have multiple driving licenses
- US VISIT (OBIM) Program
- visitors to the US must provide biometric information
- People cannot be trusted based on ID - fake IDs, stolen IDs
- Biometrics
- ultimate goal is to use the info that only the person has
- use biometric traits
- palm vein
- palm print
- finger vein
- finger print
- signature
- Biometrics is not new
- Fingerprints
- First used by Scotland Yard in 1905
- Three main types
- Arch
- Loop
- Whorl
- Ridges flows in specific orientations
- core point & delta point
- Points the ridges are interrupted
- ridge ending, ridge bifurcation
- AFIS (Automatic Fingerprint Identification System)
- 1980, FBI, 70M criminals and 34M civilians
- Why common?
- uniqueness
- identical twins have different fingerprints
- persistence
- can be matched with a large time gap
- uniqueness
- Disney Park use fingerprints
- tickets are linked with fingerprints
- avoid cheating with tickets
- India Aadhar Program
- 12-digit ID to all Indian residents
- De-duplication using 10 fingers and 2 iris
- a huge work
- China
- face and fingerprint verification at borders
- face recognition at airports
- The Biometric Recognition System
- It is different from passcode, we use similarity to determine
- set different standard for different scenarios
- Identification 1:N matching
- Verification 1:1 matching
- Face recognition
- Use Deep Neural Network
- step1: Face detection and normalization
- step2: feature extraction
- Where is Biometrics heading?
- can be also based on what you are doing
- how you hold
- how you type…
- can be also based on what you are doing
- It is different from passcode, we use similarity to determine
Computing the Universe
Christos Papadimitriou
- Turing started modern computation
- universality
- mentioned the computation of the universe
- Moore’s Law & clove algorithms
- is P != NP?
- Intractable problems
- in Facebook can you find 100 people being friends of each other?
- find all factors of a number? (modern encryption is based on this)
- The more people listen to your view, the more important the view you will be
- CS: a lens on the Sciences
- A new way of thinking: Algorithms
- Physics
- The mystery of phase transitions vs. the speed of convergence of algorithms
- physics and applied mathematics invent algorithms
- CS research helps understand how phase transitions
- The mystery of phase transitions vs. the speed of convergence of algorithms
- Quantum Computations
- reinvent the bit
- bit vs. qubit
- 0 or 1 vs. Q = a |0> + b |1> (both states at the same time, just probabilities)
- Oh my god, how do you simulate such a system on a computer?
- Richard Feynman, 1982: solution: build a computer out of such things
- Peter Shor: No safe encryption
- Quantum computation is about testing quantum physics
- Cloud
- the internet is based on computers
- with internet, CS is no longer about computers, it is about many complicated issues, it is a social science
- internet is a kind of equilibria
- the same as economics
- Economic is about to find a equilibria
- But it is intractable !! (2006)
- If your laptop can’t find it, neither the market will.
- Evolution
- The Origin of Species: the most clever scientific argument in the history of science
- worth reading!
- natural selection
- Evolution since 1859
- Genetics (Mendel, 1866)
- the crisis (1900—1930) — the genetics is contradictory with Darwin’s theory
- the synthesis through math (1930—)
- the genomics revolution
- Unanswered questions
- How do complex adaptations happen?
- What is the role of sex/recombination?
- why do we have parents?
- Sex doesn’t make sense
- at first there is no sexual difference!
- Why so much genetic diversity?
- A radical idea
- what id evolution under sex is a poor optimizer of fitness?
- it seems to be when used in heuristic algorithms!
- mixability!
- alleles are good mixers
- it has connections with game theory
- evolution can be seen as a repeated game between genes
- the strategies of each gene are its alleles
- the genes are inventing into themselves
- the common utility id the species;s fitness
- multiplicative updates!
- some many sophisticates problems
- a trade off between two
- cumulative fitness
- genetic diversity
- what id evolution under sex is a poor optimizer of fitness?
- The Origin of Species: the most clever scientific argument in the history of science
- Conclusion
- computation is not only about computing
- a lens of many sciences
Do more, Know More, and Be More with computational living
Xiaowen Hong
![](/content/images/2016/05/IMG_2751.jpg) 介绍微软的人工智能- Do more with intelligent assistant
- 搜索背后的机制
- 深度学习
- 神经网络
- 小冰背后的技术
- 语义学
- FAQ Search
- Community Search
- Demo —— Digital Assisitant
- 数字助理的未来
- 数学解题
- parsing
- generate formula
- 数学解题
- 图像识别
- SPP net
- 对象识别
- 什么对象?
- 什么氛围?
- 最高的结果已经逼近人类的准确度
- 搜索背后的机制
- Know more with big data
- 预测雾霾
- 天气、交通、人口流动、POI、路网
- 历史天气数据
- 预测+实际数据=classify
- 近期上线:urbanair.msra.cn
- 预测事件
- 社会网络数据分析
- sentiment
- 深度学习每周更新的大数据(文字、表情etc)
- 通过神经模型分类
- sentiment
- 问卷调查
- 设计精心的问卷
- 域内观察
- 分析历史数据
- 社会网络数据分析
- 预测雾霾
- Be more by redefining reality
- Kinect 3D形象
- 三张静止图片
- 动态形象
- 重用人类面部活动的数据
- 真实表情+虚拟形象
- 头发
- 目标:Single Image Modeling
- Dynamic Hair Capture
- Kinect 3D形象
- Summary