微软21世纪的计算研讨会:笔记

今天参加了21CCC,在学校的邱德拔体育馆举办。下面是今天记的笔记。

The Pipeline from Computing Research to Surprising Inventions

Peter Lee

  • 1969,Doug Englebart 展示了类似英特网的技术
  • 1969,登月
  • 这两个事件,哪一个有更大的影响?
    • 看到现在的世界,人们没有用登月技术来优化生活,但是计算机技术可以让人充满力量。无数创新都源自于计算机科学。
  • StarTrack
    • 拯救地球的唯一办法就是进行时空穿梭回到现在世界,找到解码未来威胁的钥匙
    • 首先要找到计算机。工程师开始对计算机说话。
    • 计算机在21世纪应该可以自然地与人互动。
  • 如何才能自然地与计算机互动?如何让计算机理解自然语言?
    • Machine Learning
    • 最早的信封识别,程序是脆弱的。
    • 收集很多的样本,获得Training Examples和Training Labels
    • 放入Machine Learning系统中
  • 微软总部的电梯会自动开门
    • 10个月的机器学习,电梯就会自动开门了
  • 流程
    • Speech Training Data - Labels
    • Deep Neural Net machine learning system
    • Speech
  • 语音识别Speech Error Rate已经降到了10%之下(ref. error curve)
  • Windows Phone和Xbox已经应用了ML来识别语音
  • 回到error curve,2000-2009年,error rate持平了10年没有下降
    • 许许多多点子在期间提出来,但没什么效果
    • 研究需要信念和热爱
  • 回到StarTrack
    • 里面的人们可以通过计算机与外星人交流
    • 现实生活中做得到吗?
    • Microsoft Research Asia做了大量研究。
    • Video - 计算机自动同传
      • 计算机自动同传
      • 错误有点多……
      • 这将很快实用
  • Skype
    • Skype是微软的通讯工具
    • 把它扩充,使得它有翻译功能
    • 这是微软研究院的重要项目
    • 一个月之后,Skype Translator会发布公测
    • Video - Skype Translator
  • Mission Focus, Activity Focus
  • 当尝试把构想变成现实的时候,会出现各种困难,以Skype为例
    • 人们生活中交流的方式
      • 口语化
      • 重音(举了西班牙语的例子)
      • 这涉及到人类的行为学
    • 不流畅的表述
      • 分割,分别处理,分析这是什么类型的停顿或插入
  • 微软小冰
    • www.msxiaoice.com
  • Blue-Sky work to product
    • 四种类型的研究(ref. graph)
![](/content/images/2016/05/IMG_2721.jpg) 微软总部的电梯通过机器学习,可以在要坐电梯的人走近时自动开门

Personal Control of Digital Data

Butter W.Lampson

![](/content/images/2016/05/IMG_2737.jpg) 数据隐私的博弈
  • Background
    • What is new about data?
      • widespread in time and space
      • accessible: easy to find, connect
    • Data about people in the physical world will be just as important ad data that is born digital
    • technology and rules must work hand in hand
      • technology support rules, not determine them
  • Principles
    • For what?
      • maintain a balance of power
      • server the public good
    • existing law covers many cases
    • choices given to people must be simple
    • regulations change slowly, have unintended consequences
  • 今天的人们并不是很担心个人数据的问题
    • 但是今后规则会越来越多,人们会希望信任的人去控制自己的数据
    • 个人控制数据是一种人权
      • 对于个人数据的看法在发生巨大的变化
    • 公司在使用数据的时候必须要和规矩
  • 制定规则的时候,人们希望自己有控制权
    • 人们把自己的数据放在一个空间里面,要用的时候发一个query?
      • 昂贵
      • 速度慢
      • 不可能进行大数据研究
      • 不能用于公共的福祉
  • 更好的个人数据控制
    • 发现谁在用:控制他的使用,可以随时终止
    • 全互联网通行
    • 任何时候都可以进行操作
    • 持续有效的规则
    • 如果你希望,则可以选择匿名
  • 一个实际的操作
    • metadata与隐私联系,用来标记数据
    • 条款要简洁
    • 没有集中式数据库来收集信息,换用下面的方式
      • 个人代理——处理关于你的数据的事务
      • 政策服务——告诉使用数据的人,你的政策是什么
    • 处理你的数据的人
  • 人们在网上表现出的个性和人格多种多样
    • 多个社交网络账号
    • 多个邮件账号
  • 几个场景
    • 搬家了,你要更新你的联系信息
      • 更新,删除一些不想让他再知道的
    • 学校要在紧急情况下的联系
      • 只能联系登记的紧急联系人
    • 想看更好看的广告
      • 禁用DoubleClick
    • 交通摄像头拍照
      • 你应该可以知道谁在用
  • 怎么运做?(ref. graph)
    • 贴标签。把metadata贴到你的数据上
      • 附上你的隐私政策
      • 附上你的个人代理的数据
      • 数据复制、处理之后仍然保留
      • 信息被重新识别时,要加上标签(比如“由交通摄像头拍下”)
    • 使用者在使用之前必须看看你的信息使用政策
    • metadata是NID+URL
      • NID:数字化ID,就像你自己的名字。登陆之前保持匿名
      • URL:连接到你的隐私政策
    • 使用数据的人在使用的时候查询你的隐私政策
    • 政策服务商记下谁查询过我的隐私政策
  • 各种情况下NID的使用
    • 匿名:每次会话都刷新NID
    • 已知:每个网站一个,与cookie连接
    • 登陆:每个账号一个,登陆的时候使用这个NID
  • 找到谁用了你的数据
    • 你先得知道谁通过你的数据,才能控制你的数据
    • 政策服务商追踪哪些数据处理器用过你的数据
  • 控制和隐私
    • 有人强迫要使用信息
      • 信息有脆弱性
        • 政府行为、法院传票、正式要求
        • 个人行为(权威的人)
      • 防止
        • 合情合理滴否绝。提供虚假的信息来应对胁迫。这很难做到啊
  • 政策
    • 以数据为中心,而不是以服务、设备为中心
      • metadata与数据联系
    • 与政策的交互是<handler, type> -> Yes/No的形式
      • 也可以传递更多信息
    • 基本的政策要简单,可以大规模应用
      • 7+-2类型的数据
      • 基本政策:XXX服务商能/不能使用YYY数据
      • 用and、or、else来组合这些基本政策
    • 复杂的政策组合
      • 一个App就可以看作一个数据使用商
  • 用户体验的原则
    • 现在的是通知+同意的模式:好几页的条款,点了同意才能用
    • 应该一个屏幕就可以显示我的数据政策
    • 把自己的政策和第三方的政策进行比较,列出差别
    • 默认程序来防止忘记
  • 细节
    • 更换数据处理商的自由
    • 政策的请求要安全
      • SSL、TLS
    • 通过Apps来控制数据的使用
    • 单人多账户(多个网络人格)的体验要好
  • 改进
    • metadata要一直和数据在一起,除非数据被做了加和
      • 进行加和处理的数据要经本人同意
    • 一个人有多个账户
    • 联合权利,比如拍照者和被拍者都有一定权力
    • 数据的来源,用metadata进行扩展,来标记这些信息

Computing and Healthcare

Michael Brady

![](/content/images/2016/05/IMG_2747.jpg) 计算和现代医学
软件是最终改变一切的东西
  • 医学史
    • 18世纪,医生什么都不知道
    • 19世纪,医学与工程、物理协作
    • 19世纪末:X射线,透视人体内部
    • 20世纪:数字电脑、量子力学、分子生物学——都用在MRI机器中
  • 机器人手术
    • 信息系统的支持
  • 超小的机器人眼部手术
    • 第一例人类手术成功了
  • 假肢
    • 古代的假肢替换整腿,现在可以只换关节的一小部分
    • 假肢和神经连接
  • 肝脏癌症切除
  • 图像放射技术
    • 聚集X光的能量到肿瘤部位,保护剩下的健康部位
  • 图像分析
    • 由于疾病的复杂性,一张图片不能足够治病
    • CT和PET的图像和起来
    • 乳腺癌的例子
      • 分析图片得出乳房密度与乳腺癌几率相关
      • 开发出对应的方法
  • 肥胖
    • 生物抽脂
      • 变态
      • 对肝脏有影响
    • 对身体的参数进行准确成像,就可以对特定情况进行治疗
  • 平板电脑
    • 智能手机的第一个十年
      • 治疗慢性疾病
        • 空气不好的时候,哮喘病人收到提示,不应该出门
        • 80%英国医生处理慢性病
        • 使用移动技术检测血糖
      • 检测斜视
        • 及早的发现是可以纠正的
        • 用摄像头成像,来检测斜视现象
        • 摄像头手机数据,传到网络,可以了解一个人群的情况
      • 印度
        • 农村地区的医疗
  • 医疗方面费用的支出
    • 医疗费用以2%每年的速度,超出GDP的增速
    • 老龄化问题(增长最快的年龄段是85以上人口)
    • 独立生活
      • 在大医院生活一天比在五星级酒店还贵
        • 老年公寓的开支:4年100万人民币
      • 必须让人尽可能长独立生活
        • 人的家与医疗服务无缝连接
        • 智能设施
        • 无线传感器
        • 清洗机器人、自动电饭锅
        • 社交媒体降低孤独感
  • 计算正在改变我们的医疗体系,这还只是一小步
    • 个人数据的问题
    • 创新的应用
    • 软件是关键
    • 医生有无数数据,但他们其实要的是信息

Biometrics - How Do I know Who You Are?

Anil K.Jain

![](/content/images/2016/05/IMG_2749.jpg) 生物识别技术的工作流程
  • Bank ATM
    • Is ATM safe?
  • Credit Card Data Stolen
    • 88% of stolen data used within minutes
  • Apple Pay
    • Your fingerprint is the password
    • No credit card info transmitted
  • Mobile Payment
    • m-pesa in Africa
      • Deposit, withdraw, transfer
  • Security Threats
    • People cannot be trusted based on ID - fake IDs, stolen IDs
      • Some of the 9/11 hijackers have multiple driving licenses
    • US VISIT (OBIM) Program
      • visitors to the US must provide biometric information
  • Biometrics
    • ultimate goal is to use the info that only the person has
    • use biometric traits
      • palm vein
      • palm print
      • finger vein
      • finger print
      • signature
    • Biometrics is not new
  • Fingerprints
    • First used by Scotland Yard in 1905
    • Three main types
      • Arch
      • Loop
      • Whorl
    • Ridges flows in specific orientations
    • core point & delta point
    • Points the ridges are interrupted
      • ridge ending, ridge bifurcation
    • AFIS (Automatic Fingerprint Identification System)
      • 1980, FBI, 70M criminals and 34M civilians
    • Why common?
      • uniqueness
        • identical twins have different fingerprints
      • persistence
        • can be matched with a large time gap
    • Disney Park use fingerprints
      • tickets are linked with fingerprints
      • avoid cheating with tickets
    • India Aadhar Program
      • 12-digit ID to all Indian residents
      • De-duplication using 10 fingers and 2 iris
      • a huge work
    • China
      • face and fingerprint verification at borders
      • face recognition at airports
  • The Biometric Recognition System
    • It is different from passcode, we use similarity to determine
      • set different standard for different scenarios
    • Identification 1:N matching
    • Verification 1:1 matching
    • Face recognition
      • Use Deep Neural Network
      • step1: Face detection and normalization
      • step2: feature extraction
    • Where is Biometrics heading?
      • can be also based on what you are doing
        • how you hold
        • how you type…

Computing the Universe

Christos Papadimitriou

  • Turing started modern computation
    • universality
    • mentioned the computation of the universe
  • Moore’s Law & clove algorithms
  • is P != NP?
  • Intractable problems
    • in Facebook can you find 100 people being friends of each other?
    • find all factors of a number? (modern encryption is based on this)
  • The more people listen to your view, the more important the view you will be
  • CS: a lens on the Sciences
    • A new way of thinking: Algorithms
  • Physics
    • The mystery of phase transitions vs. the speed of convergence of algorithms
      • physics and applied mathematics invent algorithms
      • CS research helps understand how phase transitions
  • Quantum Computations
    • reinvent the bit
    • bit vs. qubit
    • 0 or 1 vs. Q = a |0> + b |1> (both states at the same time, just probabilities)
    • Oh my god, how do you simulate such a system on a computer?
      • Richard Feynman, 1982: solution: build a computer out of such things
    • Peter Shor: No safe encryption
    • Quantum computation is about testing quantum physics
  • Cloud
    • the internet is based on computers
    • with internet, CS is no longer about computers, it is about many complicated issues, it is a social science
    • internet is a kind of equilibria
      • the same as economics
    • Economic is about to find a equilibria
      • But it is intractable !! (2006)
      • If your laptop can’t find it, neither the market will.
  • Evolution
    • The Origin of Species: the most clever scientific argument in the history of science
      • worth reading!
      • natural selection
    • Evolution since 1859
      • Genetics (Mendel, 1866)
      • the crisis (1900—1930) — the genetics is contradictory with Darwin’s theory
      • the synthesis through math (1930—)
      • the genomics revolution
    • Unanswered questions
      • How do complex adaptations happen?
      • What is the role of sex/recombination?
        • why do we have parents?
        • Sex doesn’t make sense
        • at first there is no sexual difference!
      • Why so much genetic diversity?
    • A radical idea
      • what id evolution under sex is a poor optimizer of fitness?
        • it seems to be when used in heuristic algorithms!
        • mixability!
          • alleles are good mixers
        • it has connections with game theory
          • evolution can be seen as a repeated game between genes
          • the strategies of each gene are its alleles
            • the genes are inventing into themselves
          • the common utility id the species;s fitness
          • multiplicative updates!
            • some many sophisticates problems
            • a trade off between two
              • cumulative fitness
              • genetic diversity
  • Conclusion
    • computation is not only about computing
    • a lens of many sciences

Do more, Know More, and Be More with computational living

Xiaowen Hong

![](/content/images/2016/05/IMG_2751.jpg) 介绍微软的人工智能
  • Do more with intelligent assistant
    • 搜索背后的机制
      • 深度学习
      • 神经网络
    • 小冰背后的技术
      • 语义学
      • FAQ Search
        • Community Search
    • Demo —— Digital Assisitant
    • 数字助理的未来
      • 数学解题
        • parsing
        • generate formula
    • 图像识别
      • SPP net
      • 对象识别
        • 什么对象?
        • 什么氛围?
      • 最高的结果已经逼近人类的准确度
  • Know more with big data
    • 预测雾霾
      • 天气、交通、人口流动、POI、路网
      • 历史天气数据
      • 预测+实际数据=classify
      • 近期上线:urbanair.msra.cn
    • 预测事件
      • 社会网络数据分析
        • sentiment
          • 深度学习每周更新的大数据(文字、表情etc)
          • 通过神经模型分类
      • 问卷调查
        • 设计精心的问卷
      • 域内观察
        • 分析历史数据
  • Be more by redefining reality
    • Kinect 3D形象
      • 三张静止图片
    • 动态形象
      • 重用人类面部活动的数据
      • 真实表情+虚拟形象
    • 头发
      • 目标:Single Image Modeling
      • Dynamic Hair Capture
  • Summary