看过来,2015年硅谷最火的高科技创业公司都有哪些?


硅谷

美国互联网强大吗?还是中国的互联网市场棒极了?答案各不相同,但毫无疑问,硅谷仍然是世界上互联网创新最活跃的地区。越来越多的企业家和投资者正在硅谷寻找创业机会。2015年硅谷最热门的高科技初创企业是什么?编辑将硅谷的第一手想法带给企业家和读者。

硅谷的每个人都热情地谈论企业家精神和机遇。通过我自己的观察和积累,我看到了近年来出现的许多热门初创企业。我会给你一份名单。这是华尔街网站对全球初创企业融资规模的评估。它最初的名字是十亿创业俱乐部,我也在去年的国内讲座中分享过。不到一年,截至2015年1月17日,排名和规模发生了很大变化。首先,10亿英镑的价值达到了7英镑,而一年前没有。第二名也是第一名是小米,一个中国家喻户晓的名字。第三,前20名中的绝大多数(80%在美国、加州、硅谷和旧金山!)例如优步、Airbnb、Dropbox、Pinterest。第四,有许多成功的类似模式。例如,Flipkart是印度市场上的淘宝。优步和Airbnb都属于共享经济。所以你仍然可以在优步、帕兰蒂、消费者互联网、快照聊天、广场、O2O应用中寻找巨大的机会。我亲自采访并感受了许多公司的环境。拥有这么多高价值的公司是否意味着存在一个巨大的泡沫?

看了这么多估值高的公司后,许多人感到非常疯狂。这是不是一个大泡沫,泡沫是否会破裂,对许多人来说都是一个问题。我认为在硅谷这个充满梦想的地方,投资者鼓励企业家大胆创业也助长了泡沫。几个月后,许多项目的估值将翻一番或三倍。例如优步和Snapchat,我也对它们巨大的融资规模感到惊讶。然后这张照片是关于“新技术炒作”的循环,根据技术成熟度和期望对各种技术进行分类,这在硅谷企业孵化器合作者课程“如何启动创业(How Start A Startup)”中有所提及。创新触发、期望峰值、期望降低到分解低点、回归启蒙的理想坡度、生产力的生产力平台,越向左,技术越现代化,越处于概念阶段;越向右,技术越成熟,越商业化,充分发挥提高生产力的作用。纵轴代表期望值,人们对新技术的期望通常随着理解的加深而上升,伴随着媒体的大肆宣传而达到顶峰。由于技术瓶颈或其他原因,预期逐渐冷却到最低点,但在技术成熟后,预期再次上升,再次积累用户,然后达到可持续增长的健康轨道。今年和去年的地图显示,物联网、自动驾驶汽车、消费者级3D打印和自然语言问答等概念正处于炒作的巅峰。虽然大数据已经从顶峰滑落,但NFC和云计算已经接近谷底。未来高科技创业的趋势是什么?

首先,我想提一下最近的一部电影《Imitation Game》,讲述了计算机逻辑创始人艾伦图灵(Alan Turing)的艰难生活(以他的名字命名,获得了计算机界的最高奖项)。他制造图灵机破译德国密码,为第二次世界大战的胜利做出了杰出贡献,挽救了数千万人的生命。然而,当时他因同性恋被判化学阉割,并自杀,结束了他短暂的42岁生命。他的一大贡献是发展人工智能。他提出图灵测试来测试一台机器是否能显示出与人类相当或无法区分的智能。我们现在回到今天,人工智能已经取得了很大的进步。从专家系统到基于统计的学习,从支持向量机到神经网络的深入学习,每一步都将机器智能引向下一步。在谷歌高级科学家吴军博士(数学之美,处于巅峰的作者),他提出了当前技术发展的三个趋势。首先,云计算和移动互联网正在发展。其次,机器智能现在开始出现,但是许多人还没有意识到它对社会的影响。第三,大数据和机器智能的结合必将在未来发生。一些公司正在这样做,但还没有形成大规模。他认为未来机器将控制98%的人,现在我们必须做出选择,如何成为剩下的2%?[独家]吴军:未来,机器人将控制98%的人。李开复还在2015年新年展望中指出,物联网将在未来五年带来巨大的商机。

为什么大数据和机器智能的未来一定会到来?

在真正的工业革命(1820)之前,世界人均国内生产总值在1800年之前的2-3000年间基本保持不变,而从1820年到2001年,世界人均国内生产总值从667美元增加到6049美元。这说明工业革命带来的收入增长确实是翻天覆地的。我们可以想想里面发生了什么。然而,人类进步并没有停止或稳步增加。随着电力、计算机、互联网和移动互联网的发明,全球年国内生产总值增长率从5%上升到2%,信息也在快速增长。根据计算,过去两年的信息量是过去30年的总和,而过去10年的信息量远远超过了人类所有以前积累的信息总和。在计算机时代,有一个众所周知的摩尔定律,这意味着同样成本的晶体管数量每18个月翻一番,而同样数量晶体管的成本则减半。这一定律与过去30年的发展相匹配,并可衍生到许多类似的领域:存储、功耗、带宽、像素。以下是冯诺伊曼(von Neumann),20世纪最重要的数学家之一,在现代计算机、博弈论和核武器等许多领域取得杰出成就的最伟大的科学通才之一。他提出(技术)将接近人类历史上某个重要的奇点,在此之后,所有的人类行为都不可能在熟悉的面孔上继续存在。这就是著名的奇点理论。目前,它将呈指数级增长,速度越来越快。美国未来学家雷库兹韦尔(Ray Kurzweil)说,人类可以在2045年实现数字永生。他自己创立了奇点大学。他认为,随着信息技术、无线网络、生物、物理等领域的指数级增长,人工智能将在2029年实现,人类寿命将在未来15年内大幅延长。

哪些大数据公司值得海外关注?中国有什么?

这是2014年总结的大数据公司列表。我们可以将它大致分为基础设施和应用程序,而底层将使用一些常见的技术,如Hadoop、Mahout、HBase、Cassandra,我也将在下面介绍这些技术。我可以举几个例子来分析这个问题。cloudera、hortonworks和mapr是Hadoop的三名剑士。一些操作和维护领域,mangodb和couchbase都是nosql的代表。由于AWS和谷歌大查询在服务领域意见相左,甲骨文收购了MySQL,DB2专门为老牌银行服务,Teradata多年来一直是一个数据仓库。上面有更多的应用程序,如谷歌、亚马逊、网飞、推特、商业智能:思爱普、古德数据,以及广告媒体中的一些应用程序:TURN、火箭燃料、sumological等。去年的新星数据里克斯震撼了哈多普的生态系统

对于快速增长的中国市场,大公司也意味着大数据。英美烟草三公司都致力于大数据。五年前我在百度的时候,我提出了框计算的东东。在过去的两年里,我成立了硅谷研究所,并聘请吴恩达为首席科学家。这个研究项目是百度大脑。在语音和图像识别中,准确率和召回率都有很大提高。最近,我做了一辆无人驾驶自行车。非常有趣。腾讯作为最大的社交应用,也对大数据有着特殊的兴趣,在c平台上开发了自己的海量存储系统,淘宝网在2分钟内突破10亿,去年11日交易量达到571亿。背后有许多故事。那些在百度有抱负的人(由谷歌三驾马车建造的金字塔三层分布式系统)继续在海洋基地制造神话。然而,阿里云在当时颇有争议,马云怀疑自己是否被王建愚弄了。最后,他经历了双十一的洗礼,证明了海洋基地(OceanBase)和阿里云的可靠性。小米的雷军也对大数据寄予厚望。一方面,如此多数据的几何级数增加了;另一方面,存储带宽是一项巨大的成本,它真的毫无价值地破产了。

云计算与大数据技术关系最密切。你在亚马逊的云计算部门工作过。你能简单介绍一下亚马逊的红移框架吗?

我在亚马逊的云计算部门工作,所以我仍然更了解AWS,并且总体上具有很高的成熟度。大量的启动程序都是基于此开发的,例如网飞、品特雷斯和Coursera。亚马逊继续创新,每年都举行一次“创新”会议,推广新的云产品,分享成功案例。在这里我会随便提几个。例如,S3是简单的面向对象存储,动态数据库(DynamoDB)是关系数据库的补充,冰川存档冷数据,弹性地图还原(Elastic MapReduce)直接打包地图还原提供计算服务,EC2是基本的虚拟主机,数据管道(Data Pipeline)将提供图形界面来直接连接工作任务。

红移是一种大规模并行计算机架构,是一种非常方便的数据仓库解决方案,即与各种云服务无缝连接的SQL接口。最大的特点是速度快,从TB到PB都有很好的性能。我也在工作中直接使用它。它还支持不同的硬件平台。如果您想要更快的速度,您可以使用固态硬盘,当然支持容量更小。

Hadoop是当今最流行的大数据技术。当Hadoop出现时,是什么让它流行起来的?Hadoop当时有哪些设计优势?

要知道Hadoop是从哪里开始的,我必须提到谷歌的先进性。十多年前,谷歌发表了三篇关于分布式系统的论文,分别是GFS、MapReduce、BigTable和非常NB系统。然而,没有人见过它们。业内许多人渴望按照自己的想法复制它们。当时,《阿帕奇努奇卢塞恩》的作者道格卡特(Doug Cutting)也是其中之一。后来,他们被雅虎收购,成立了一个团队投入运营。这是Hadoop开始大规模发展的地方。后来,随着雅虎的衰落,牛去了脸谱网、谷歌,建立了大数据公司,如云时代、霍顿工厂(Hortonworks),把Hadoop实践带到了各个硅谷公司。然而,谷歌并没有停下来,三辆新的四轮马车普瑞格尔、咖啡因、德雷梅尔已经出现。后来,他们中的许多人紧随其后,开始了新一轮开源战争。

为什么Hadoop更适合大数据?首先,扩张非常好。通过增加节点可以直接提高系统性能。它有一个移动计算而不是移动数据的重要思想,因为数据移动非常昂贵,并且需要网络带宽。其次,它的目标是利用廉价的普通计算机(硬盘)。尽管它可能不稳定(磁盘故障的概率),但它可以通过系统级的容错和冗余来实现高可靠性。而且非常灵活,可以使用多种数据,二进制、文档类型、记录类型。使用各种形式(结构化、半结构化、非结构化的所谓无模式)也是一种按需技能。Hadoop周围有哪些公司和产品?

to Hadoop一般不会说什么,而是指生态系统,其中有太多的交互组件,包括输入输出、处理、应用、配置和工作流。在实际工作中,当几个组件相互作用时,您的头痛维护才刚刚开始。我还想说几句简单的话:Hadoop Core有三个HDFS,MapReduce和Common,还有NoSQL : Cassa

你能解释Hadoop是如何以普通人能理解的方式工作的吗?

让我们先谈谈HDFS,所谓的Hadoop分布式文件系统,它真的可以实现高强度容错。根据局部性原则,连续存储得到优化。简而言之,就是分配大数据块并一次读取一个整数。如果您自己设计分布式文件系统,那么如果您挂断了一台机器,并且仍然拥有正常的访问权限,您可以做什么?首先,您需要有一个主目录作为目录查找(即名称节点)。然后,数据节点被分成多个部分,同一数据不能放在同一台机器上进行备份。否则,如果这台机器挂起,您的备份也找不到。HDFS使用机架位置感知方法。首先,将一份拷贝放入同一机架上的机器中,然后将另一份拷贝复制到另一台服务器上,可能在不同的数据中心。这样,如果某个数据点出现故障,就会从另一个机架调用它。在同一个机架中,他们的内部网连接非常快。如果那台机器发生故障,只能从远处获得。这是一种方法,现在还有其他基于擦除代码的方法,最初是在通信容错领域使用的,可以节省空间,达到容错的目的。你可以询问你是否感兴趣。

接下来,MapReduce是一个编程范例。它的想法是将批处理任务分成两个阶段。所谓的映射阶段是生成键、值对和重新排序数据。中间一步叫做随机播放(shuffle),它将同一个密钥传输到同一个减速器上,而在减速器上,由于保证了同一个密钥在同一个减速器上,所以它可以直接聚合,计算一些总和,最后将结果输出到HDFS。对于相应的开发人员,您需要做的是编写映射和减少功能,例如中间排序和无序网络传输、容错处理,并且已经为您完成了框架。

MapReduce模型有什么问题?

首先,写很多低级代码效率不高。第二,一切都必须转换成两个操作映射/还原,这本身就很奇怪,不能解决所有的情况。“火花”来自哪里?相比Hadoop MapReduce设计,Spark有哪些优势?

真正的火花似乎解决了上述问题。首先,让我们谈谈火花的起源。伯克利安普拉博(Berkeley AMPLab)于2010年在hotcloud出版,是从学术界到产业界的成功典范,也吸引了顶级风投安德森霍洛维茨的注资。2013年,这些丹尼尔(伯克利系主任,麻省理工学院最年轻的助理教授)走出伯克利AMPLab,成立了数据博客(Databricks),让无数Hadoop老板跪下。它是用功能语言Scala编写的。Spark只是一个内存计算框架(包括迭代计算、DAG计算、流计算)。MapReduce以前经常因为效率低下而被嘲笑,而Spark让每个人都感到新鲜。雷诺(Reynod)作为Spark的核心开发者,引入Spark的性能比Hadoop高100倍,算法实现仅为其1/10或1/100。根据去年的排序基准,斯巴克在23分钟内完成了100TB的排序,创下了Hadoop此前保持的新世界纪录。

Linkedin使用哪些大数据开源技术?

在领英中,有许多数据产品,例如你可能喜欢的人、你可能感兴趣的工作、你的用户访问来源,甚至你的职业道路。所以领英也使用了很多开源技术。我将讨论一个最成功的卡夫卡,它是一个分布式消息队列,可以用于跟踪、机器内部度量和数据传输。数据将在前端和后端通过不同的存储或平台。每个平台都有自己的格式。如果没有统一的日志,将会有灾难性的O(m*n)数据对接复杂性。如果您设置的格式发生变化,您还需要修改所有相关的格式。所以这里提出的中间桥梁是卡夫卡。大家族同意使用一种格式作为传输标准,然后您可以在接收端定制您想要的数据源(主题),最终实现线性O(m ^ n)的复杂性。有关相应的设计细节,请参考设计文件《阿帕奇卡夫卡》(Apache Kafka),其中主要作者Jay Kreps和饶俊走出来成立了Kafka作为一家独立的开发公司。

在领英(Linkedin)中,Hadoop是主要的批量处理器,广泛应用于各种产品线,如广告集团。一方面,我们需要做一些灵活的查询来分析广告客户的匹配、广告预测和实际效果,另一方面,Hadoop也作为报表生成的支持。如果你想采访领英后端团队,我建议你去看看一些设计概念,比如蜂巢、猪、阿兹卡班(数据流管理软件)、Avro数据定义格式、卡夫卡、伏地魔。linkedin有一个特殊开源社区,也在打造自己的技术品牌。博客|领英数据团队

如果你想在大数据领域工作,你能推荐一些有效的学习方法吗?推荐什么书?

我也有一些建议。首先,我最好打好基础。虽然Hadoop很热门,但它的基本原理已经在书籍中积累了很多年,如算法导论、Unix设计哲学、数据库原理、对计算机原理的深入理解、Java设计模式以及一些重量级书籍供参考。Hadoop最经典的权威指南。我还在智湖分享了一些关于星火的书。董飞的回答“接着是目标的选择”。如果你像一个数据科学家,我可以推荐coursera的数据科学课程,这很容易理解。coursera专业“学习蜂房和猪等基本工具。如果您是一个应用层,您应该熟悉一些Hadoop工作流,包括一些基本的调优。如果你想做架构,除了构建集群之外,你还需要了解每一个基本的软件服务,你还需要了解计算机的瓶颈和负载管理以及一些Linux的性能工具。最后,我还需要多练习。大数据本身取决于实践。您可以首先遵循API手册中的示例,然后首先成功调试。下面是更多的积累。当您遇到类似的问题时,您可以找到相应的经典模型,然后进一步解决实际问题。也许你周围没有人见过。你需要一些灵感和技巧在网上提问,然后根据实际情况做出最佳选择。

与硅谷其他初创企业相比,谈谈Coursera在大数据架构方面的特点。导致这些特征的原因和技术方向是什么?

首先,让我们介绍Coursera。作为MOOC的领导者,Coursera于2012年由斯坦福大学的安德鲁和达芙妮创立。目前,Coursera有160名员工,前总统耶鲁是首席执行官。它的使命是普及世界上最好的教育。许多人问我为什么加入公司。我仍然非常赞成公司的使命。我相信教育可以改变生活,我们也可以改变教育。技术能否与教育相结合是一个非常有趣的话题。有很多东西可以结合,例如提供一个高度可靠的平台来支持大规模用户的在线并发访问,使用数据挖掘来分析学生的行为来进行个性化的课程学习,提高课程满意度,通过机器学习来识别作业,相互判断,以及使用技术使人们能够平等而方便地获得教育服务。

Coursera,作为一家初创公司,想要敏捷高效。从技术上讲,它们都是基于AWS开发的。你可以想象随意启动云服务并做一些实验。我们大致分为产品组、架构组和数据分析组。我列出了上面使用的所有开发技术。由于该公司相对较新,因此不存在历史遗留的移民问题。每个人都大胆地使用Scala作为主要编程语言,使用Python作为脚本控制。例如,产品组是提供的课程产品,它使用播放框架和Javascript主干作为控制中心。架构组主要维护底层存储、公共服务、性能和稳定性。我所在的数据组由10多人组成,其中一些人正在监控、挖掘和改进商业产品和核心增长指标。一部分是建立一个数据仓库来改善与不同部门的无缝数据流。还使用了许多技术,例如使用滚烫来编写Hadoop MapReduce程序。其他人用尽可能少的人力做组件测试框架,推荐系统,做有影响力的事情。事实上,除了开源世界之外,我们还积极使用第三方产品,例如sumologic用于日志错误分析,Redshift用于大数据分析平台,Slack用于内部通信。所有这些都是为了解放生产力,关注用户体验、产品开发和迭代。

Coursera是一家任务驱动型公司。我们不是在寻求技术的极致,而是为老师和同学服务,解决他们的难题,分享他们的成功。这是与其他科技公司的最大区别。一方面,它仍处于积累的早期阶段,大规模计算尚未到来。只有积极学习和适应变化,我们才能保持初创企业的快速增长。