楼主: kissky
2329 5

经济学人:信息管理专题-数据,到处都是数据 [推广有奖]

  • 4关注
  • 55粉丝

VIP

已卖:8086份资源

学科带头人

94%

还不是VIP/贵宾

-

威望
1
论坛币
42075 个
通用积分
6.0830
学术水平
74 点
热心指数
95 点
信用等级
53 点
经验
45042 点
帖子
1295
精华
1
在线时间
1614 小时
注册时间
2006-11-26
最后登录
2022-11-13
毕业学校
UIBE

楼主
kissky 发表于 2012-2-23 04:24:59 |AI写论文

+2 论坛币
k人 参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群
赵安豆老师微信:zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

感谢您参与论坛问题回答

经管之家送您两个论坛币!

+2 论坛币
数据,到处都是数据
信息已从稀缺转为过剩,在带来巨大新利益的同时它也让人头疼。

2010年2月25日 | 经济学人印刷版









2000年斯隆数字天空勘测开始的时候,它在新墨西哥的天文望远镜最初几周采集的数据便超过了天文史上所有累积数据的总和。十年后的现在,它的信息存档包含140TB(太字节,2的40次方)海量信息。作为其继任者,2016年在智利将启用大型天气勘测望远镜,它每五天就会获得等量的庞大数据。



如此天文数字的信息地球上也有了。零售业巨头沃尔玛每小时处理超过一百万客户交易,输入数据库中的数据预计超过2.5PB(拍字节,2的50次方)——相当于美国国会图书馆书籍存量的167倍(点击此文了解数据如何被量化)。社交网站Facebook存有400亿张图片。人类基因组的排序分析了30亿人的基因序列,花了十年时间在2003年完成,而现在一个礼拜就可以搞定了。



这些例子都说了一件事:这个世界包含着超乎想象的庞大数字信息,而且在以越来越快的速度增长。这就使很多以前做不了的事情变成可能:观察商业趋势、预防疾病、打击犯罪等等。如果管理得当,数据可以开启经济价值的新来源,为科学提供新观点,使政府更好地承担责任。



但数据也在制造很多新麻烦。尽管有太多工具来获取、处理和共享所有这些数据——比如传感器、电脑、手机等——但数据早已超过其存储空间了(见图1)。不仅如此,由于信息与日俱增而且全球传播,确保数据安全和隐私变得越发困难。





过载

全球产生的信息(上侧)和可用存储空间(下侧)

EB(艾字节,2的60次方)

数据来源: IDC



约翰霍普金斯大学的天体物理学家Alex Szalay说,数据的扩散使得它们越来越难访问。他说:“如何使用这些数据?人们应该担心我们如何培训新一代,不仅是新一代的科学家,还有新一代政府和产业人。”



IBM的James Cortada写过关于社会信息历史的几十本书,他说:“我们在一个不一样的充斥着信息的时代。”加州大学伯克利分校的计算机科学家Joe Hellerstein称之为“数据的工业革命”。其效应无所不在,从商业到科学,从政府到艺术。科学家和计算机工程师们为这种现象造了一个新词:“大数据”。



从认识论上说,信息是数据的集合而知识由不同类的信息构成。而本组特别报道混用“数据”和“信息”,后面会谈到这是因为这两个词越来越难拆开说了。有了足够的原始数据,今天的算法和强大的计算机就可以揭示之前隐藏的新观点。



信息管理的产业的发展突飞猛进,它们帮助机构发掘使用不断增长的数据。近年来,Oracle、IBM、微软和SAP花了超过150亿美元收购专门从事数据管理和分析的软件公司。这个产业预计有一千亿美元的市场容量并以每年10%的速度增长,是软件产业整体两倍那么快。



首席信息官们(CIOs)在管理层越来越吃香。而一种新职位已经出现了,叫做信息科学家,它是软件程序员、统计学家和作家/艺术家的结合,负责把隐藏在庞大数据下的尽快挖出来。Google首席经济学家Hal Varian估计数据统计员将成为“最性感”的工作。他说,缺的不是数据,而是从中开启智慧的能力。




更多的一切



信息爆炸有许多原因,最明显的就是科技发展。随着数字设备处理能力大幅上升,价格大幅跳水,传感器和其他工具正在把以前无法数据化的信息数据化。人们还可以使用更强大的工具,比如,全世界有46亿部手机用户,有十亿到二十亿人使用因特网。



不仅如此,现在更多的人用信息交互。Cortada说,1990到2005年间全世界超过十亿人跻身中产阶级。他们变富的同时也开始接受更好的教育,这就加速了信息的增长。在政治、经济和法律界都显示了这样的结果。纽约大学商务教授Sinan Aral说:“科学革命之前通常是测量工具的革命”。就像显微镜发现了病菌从而革新了生物学,电子显微镜改变了物理学一样,所有这些数据也把社会科学翻了个底朝天。学者们现在可以从大众层面而不是个体层面来理解人类行为了。



数字信息每五年增长十倍。计算机行业普遍认同的摩尔定律说,计算机芯片的处理能力和信息储存量大约每18个月翻一番,而价格减半。软件程序也在不断优化。普林斯顿大学的计算机科学家Edward Feleten承认,算法改进使得计算机应用在过去的几十年里为摩尔定律的发挥起到关键作用。



大量的信息是共享的。通信系统制造商思科预计,到2013年因特网上流动的数据量每年将达到667EB(艾字节,2的60次方)。数据增长的速度将持续超过承载其传送的网络发展速度。



人们一直以来都在抱怨被信息淹没了。早在1917年美国康乃迪克州的一家制造厂的经理就抱怨电话带来的影响:“时间没了,结果乱了,钱也花了。”现下正在发生的已经不是累加增长了,量变正在引起质变。



信息从稀缺到过量的转变带来广泛影响。微软研究和战略主管Craig Mundie说,“我们看到的是围绕着信息的经济形式,对我而言这是社会甚至是宏观经济层面的一个大转变。”数据正成为商业的新原材料:和资本及人力几乎相同的经济投入。沃尔玛的首席信息官Rollin Ford说:“每天我醒来就问自己,'我怎样才能更好地让数据流动,更好地管理数据,更好地分析数据?'”



以前复杂的数据分析仅用于导弹轨迹和财务对冲战略的计算,而现在正用于生活的很多方面。比如,微软搜索引擎Bing的一个组成部分叫Forecast,可以搜索2250亿个航班与价格记录,从而建议顾客现在买飞机票还是等价格降下来。同样的想法可以扩展到宾馆、汽车和类似的东西。个人理财网站和银行在收集客户数据从而显示出宏观经济趋势,帮助其开拓辅助业务。甚至数字玩家被发现操控日本相扑比赛。




取其精华 去其糟粕



“数据排放”——因特网用户留下的点击记录可以发掘商业价值,这正成为网络经济主流。Google搜索引擎是一个例子,一个条目的点击数部分地决定其与一个搜索请求的相关性。如果排名第八的搜索词最多人点,算法就会把它往上放。



随着世界变得数字化,整合与分析数据正给其他领域也带来巨大的好处。例如,微软的Mundie先生和Google老板Eric Schmidt应总统之命改革美国的医疗保健。Mundie解释说,“一开始Eric和我都说:‘看,如果要改革医疗保健,基本上需要构建一个围绕着数据的医保经济,而这些数据和人相关’。这样你就不会把数据当做提供健康服务而产生的东西,而把它当做一项核心资产,以用来研究如何更好地提供健康服务的各个方面。这是一种反向思维。”



当然,数字记录应该可以让医生工作更加轻松,降低医患成本,提高服务质量。而数据经过整合还可以发现有害的药物反应,确认最有效的治疗方法和预测尚未发作的疾病。计算机已经试着做这些事,但还需要精确编程。在大数据的世界里,相互关系几乎自己会浮现出来。



有时数据揭示出的东西超出我们预计。举例来说,加利福尼亚州的奥克兰市在一个似有网站“奥克兰犯罪追踪”发布了罪犯被逮捕的地点和时间。其中一些点击显示警察每晚都在一条热闹的街道检查卖淫,除了礼拜三,对此他们也许想保密。



大数据的危险可能远不止于此。最近的金融危机中,显然银行和信用等级评定机构一直以来它们获得的大量信息,而这些信息不能反映真实世界的金融危机。这是大数据带来的第一次危机,还会有更多的危机。



信息管理涉及生活的所有方面。20世纪初,电报和电话形成的新信息流支撑了大规模生产。今天丰裕的数据使得公司在任何地方都可以进入小的利基市场。经济生产曾经基于工厂,经理们盯着每台机器和每个生产工艺使其更加高效。现在统计学家们从业务中产出的信息中挖掘新的想法。



微软的Mundie先生说,“以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它的技术上的、基础结构的、甚至商业模型的影响还没有被完全理解。”本组特别报道将指向它开始浮现的地方。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

关键词:信息管理 经济学人 经济学 FACEBOOK Forecast 数据 信息 Facebook 美国国会 图书馆

沙发
kissky 发表于 2012-2-27 05:12:20
信息管理专题

另一番竞技
信息正在改变传统商业

2010年2月25日 | 经济学人印刷版


1879年美国俄亥俄州代顿市的一家沙龙老板James Ritty获得一个被叫做“廉洁出纳员”的木制装置的使用权。全国现金出纳机公司卖给他的这套装置有一组按钮和一个很响的铃铛,也就一个加法机那么简单。不过作为美国商业最早的信息流管理方式,现金出纳机的影响颇为深远。当放钱的抽屉被打开时它就发出警报给店主以防偷窃,它还可以记录每笔交易提供即时的业务情况概要。



销售数据一直是公司最重要的资产。2004年沃尔玛检查了它庞大的数据库发现,当飓风来袭之前,手电筒和电池被一抢而光,这也许在意料之中;但一种美式方便早餐PopTarts也同样被疯抢。诚然细心想想在黑暗中这种方便食品伸手可食,但沃尔玛在风暴前却没想起来多存点货。沃尔玛用于计算的系统正是来自全国现金出纳机公司和现在独立出来的数据仓库部门天睿资讯。



几年前这种被称作“商业智能”的技术只有最大的公司才有。不过随着计算和存储的价格降低,软件系统更加质优价廉,这种技术已经成为主流。公司正在收集比以往更多的数据。以前这些数据被放在不同的系统中老死不相往来,比如财务、人力资源和客户管理。现在系统的连接被打通,公司使用数据挖掘技术获得整个业务的全景图——业界称作“真实状况的唯一版本”。这就使得公司能更有效地运营、发现趋势以提升预测质量。



拿瑞士电信运营商Cablecom为例。它把客户流失率从每年20%降到5%一下。公司的软件发现尽管在第13个月客户流失达到极值,但客户早在第9个月就决定离开了(比如客服接到的电话数量就有征兆)。所以Cablecom在第7个月给某些的顾客特别优惠从而留住了他们。




痛苦和折磨



这样的数据挖掘是把双刃剑。“数据如果被折磨够久的话也会屈打成招,”统计师此言妙哉。不过很多公司开始使用这种技术收获颇丰。零售商百思买发现它43%的销售额来自其7%的顾客,就重新规划了门店以满足这些顾客的需求。航线产出管理也因为分析技术而有所进步,这种技术发现旅客因为点了机上的素食而肯定会赶上飞机。



信息技术产业纷纷涌入商业智能领域,20世纪它们先后赶上了会计和计算两大服务领域,自然希望继续在商业智能领域有所作为。埃森哲、毕马威、IBM和SAP不惜重金投资它们的咨询业务。技术提供商们包括Oracle、Informatica、TIBCO、SAS和EMC,从中获利不少。看到传感器应用在从管理城市交通到患者血液流动的诸多领域,IBM相信商业智能将成为它的增长支柱。在过去四年它已经投入了120亿美元,有着4000名员工的全球六大分析中心已经开业。



为了预测和发现类似PopTarts和飓风之间关系的分析-绩效统计业务可能拥有很高的投资收益。英国皇家莎士比亚公司(RSC)为市场推广筛选了7年的销售数据,从而使常客的数量提升了70%。RSC公司检查了超过两百万笔交易记录,发现很多关于最佳顾客的信息:不只是收入,还有职业和家庭情况,这样就可以使其市场定位更加精准。RSC的Mary Butlin说,这相当重要,因为它实质上提升了会员数和融资收入。



当然从数据中获得尽量多的信息实属不易。第一步是提高信息的准确性。比如雀巢在200个国家出售超过十万种产品,有55万家供应商,但由于数据库一团糟它并未形成强大的采购议价优势。在一次检查中它发现,在900万条供应商、客户和原材料记录中有差不多一半是过期或重复的,剩下的有三分之一不准确或有缺失。供应商名称有的简写有的不简写,产生了重复记录。





精简的香草



过去十年间雀巢一直在用SAP更新它的信息系统以提升数据质量。领导此事的Chris Johnson说这让公司更加高效。其美国工厂成功地减少了香草原料的招标所定规格数量从而减少了供应商数量,仅此一项每年就可以节省三千万美元。类似的运营上的改进每年总共可以节省超过十亿美元。



雀巢并不是唯一数据库有问题的公司。大多数首席信息官们都承认他们的数据质量很糟糕。IBM的一项研究中有一半参加调查的经理们都不相信用来决策的数据。很多人说技术原本要发现数据的意义,现在却经常产生更多的数据。本是要大海里捞针却变成了往海里灌水。



随着分析技术更广泛地被应用,商业上将更多地基于计算机算法来进行决策或者至少是印证决策,而不是靠个人预感。这就需要经理们自信且自如地处理数据,而商学院的统计课程还没有火起来。许多新的商业见解来自“死数据”:基于过去的交易数据发现潜藏的关系。而现在公司越来越多地分析实时的信息流。



沃尔玛是个好例子。这家零售商全球运营着8400家门店,有超过两百万名员工,每周处理超过两亿笔客户交易。去年销售额差不多4000亿美金,超过许多国家的GDP总值。沃尔玛的CIO—Rollin Ford在阿肯色州的本顿维尔总部办公,他说数据的绝对规模是个挑战,“我们保持一个合理健康的偏执程度。”





明察秋毫



沃尔玛的库存管理系统叫Retail Link,让供应商实时看到每一家门店、每一个货架上它们的产品的精确数量。系统能显示每小时、每天、过去一年甚至更长时期的销量。上世纪90年代起,Retail Link就向供应商提供它们的商品何时、如何被销售的整体概况,还有顾客购物车里其他产品的信息。这让供应商可以更好地管理其库存。



这项技术让沃尔玛改变了零售的业务模式。比如它把一些库存管理交给供应商做,到产品卖出去的时候才收回产品的所有权,转出了库存风险并降低了成本。本质上,其店面的货架就是一个非常高效的仓库。



世界上最大的物流运营商之一利丰公司是另一家利用实时信息流的公司。它一个世纪前在中国南方的广州成立,没有任何自己的工厂和设备,而是精心编织了一个由40个国家的12000个供应商组成的网络,为包括美国名牌凯特·丝蓓特和沃特·迪斯尼在内的品牌供货。它2008年收入达到140亿美元。



利丰公司以前和客户打交道主要通过电话和传真,电子邮件就是高科技了。有了新型网络服务平台,它的业务流程如虎添翼。认证过的供应商可以在网络门户上竞价,订单流直接通过网络门户传送。代理商现在可以通过手持电脑实时检查工厂。客户可以看到订单从开始生产到送货的每个阶段的细节。



视频会议是最重要的技术手段之一。它让买家和制造商能检查原材料成色或衣服的针脚。利丰公司的首席信息官Manuel Fernandez说,“以前我们发不了500MB的图片,只能寄DVD。现在我们可以在办公室通过数据流秀给供应商看。有了实时图像传输我们改起来就更快了。”通过网络传输的数据流从18个月前的每天100GB激增到现在的1TB。



信息系统还让利丰公司审视其运营以发现趋势。比如华南的用工荒和政策监管提高了用工成本,公司就把制造向北迁。Fernandez说:“我们在实际发生前就看到了这个趋势”。公司还通过零售商的订单数提前看到经济危机和之后复苏的信号。投资者们运用利丰提供的国别信息更深入理解宏观经济模型。由于能实时地处理信息流,企业组织收集数据比以前更多了。比如预测机器何时损坏。机器很少意外地坏掉:通常有前兆,比如噪音、震动或发热。有了这些数据公司就可以在机器损坏之前采取行动。



类似的,基于大规模数据组的“预测分析”也可能改革医疗保障。与IBM合作的安大略大学的Carolyn McGregor博士进行一项研究以发现早产儿的潜在致命传染疾病。系统监测七组实时数据流的细微变化,比如呼吸、心率和血压。仅心电图每秒钟就产生1000组读数。



所有的医疗设备都能产生这样的信息,但以前是记录在纸上,可能每小时才检查一次。McGregor博士把数据输入电脑, 当传染病于萌芽状态还没有任何明显症状出现时就可以被发现。她说:“肉眼看不到的,计算机却能发现。”




芝麻开门



两大科技趋势正助力这样的数据应用:云计算和开源软件。云计算——因特网成为收集、存储和处理数据的平台——商业公司无需购买昂贵设备,而是按需租用计算能力。亚马逊、Google和微软是向客户推广它们的庞大计算架构的主流公司。随着更多的公司职能部门基于网络管理,比如人力资源或销售,公司可以看到整个业务的模式,从而更方便地分享信息。



一个叫做R的免费编程语言让公司检查并展示大型数据组,还有一个叫做Hadoop的免费软件现在能让普通电脑分析庞大的数据集,以前这项工作只能交给超级电脑。任务通过打包同时分发给很多电脑,省时省钱。比如,纽约时报几年前用云计算和Hadoop转换了从1851年到1922年超过40万张扫描的图片。通过把任务分配给几百台电脑,这项工作在36个小时里就完成了。



信用卡公司Visa最近和Hadoop试着计算两年的测试记录,即730亿笔交易,高达36TB的数据。处理时间用传统方法需要一个月,现在只要13分钟。Ritty的廉洁出纳员在这个数据驱动的时代有了了不起的继承者。

藤椅
kissky 发表于 2012-2-27 05:12:46
信息管理专题
太多了
多到爆的数据
2010年2月25日 | 经济学人印刷版



计算世界上存在的信息总量很难。很显然信息已经太多了,而且一直在以很快的速度继续增长(年复合增长率60%)。从传感器、电脑、实验室、相机、电话等汹涌而出的数据洪流超过了2007年存储科技能提供的总容量。欧洲核子研究中心在日内瓦有个实验室,它里面的大型强子碰撞型加速装置的实验每秒钟产生40TB(太字节,2的40次方)的数据,超出了可以存储和分析的数量级。所以科学家们就尽可能收集数据,剩下的就自生自灭吧。



根据IDC在2008年的一项研究,今年将会产生1200EB(艾字节,2的60次方)数据。其他一些研究有一些不同的测量对象。加州大学伯克利分校的Hal Varian和后来的Peter Lyman是计算全世界比特数理念的先驱,他们计算出的数字要小很多,2002年大约产生了5EB数据,因为他们只计算原创内容。







那么实际被使用的信息又有多少呢?加州大学圣迭戈分校的研究人员测算了美国家庭的数据流。他们发现2008年这些家庭遭受了高达3.6ZB(皆字节,2的70次方)数据的狂轰滥炸(或每人每天34GB)。最大的数据源是游戏和电视。说到字节,书面文字就无足轻重了,只占总数的0.1%还不到。但读书人的阅读量曾经因为电视而下降,而有了网络上的阅读内容,这个数字现在是1980年的三倍。如果不考虑电话,过去的信息使用是非常被动的。根据加州大学圣迭戈分校的研究,今天一半的数据量都以互动的形式接收。未来的研究将扩展到全球的信息使用,包括商业上的。





机器的进军



加州大学圣迭戈分校的Roger Bohn是对美国家庭研究的作者之一,他说,“机器产生,再用到别的机器上的信息可能将比其他形式的增长更快,这主要是‘数据库到数据库’的信息——人们无意地使用了其中绝大部分。”



产生的信息里只有5%是"结构化的",也就是说文字数字有标准格式可以被计算机读取。其他的类似照片和电话记录就不那么容易获取和使用了。不过这也在变化,网络上的内容越来越多地被“打上标签”,人脸识别和语音识别软件还可以把人和话语识别成数字文件。



奥斯卡·王尔德在1894年说,“如今几乎没有无用的信息,这真悲哀。”他只说对了一半。

板凳
kissky 发表于 2012-2-27 05:13:07
信息管理专题

秀给我看

数据视觉化的新方法

后来成为纽约SmartMoney杂志社的平面设计师的Martin Wattenberg在1998年碰到一个问题。他想描述证券市场每天的运转,但传统方法是用随时间变化的指数构成的一条曲线,只能表示一个大概。每天几百家单个公司涨落不一,整个板块也是这样。对投资者来说一次看清所有信息很有用。如何把它视觉化地呈现出来呢?



Wattenburg先生很聪明地想到用已有的技术通过网格的形式做一张“市场表”。它用当天收盘价显示不同板块超过500个公司的股价。绿色或红色的阴影代表每只股的涨跌幅度,从而显示市场中各版块的情况。这样的灵机一动,却把数据视觉化这一新兴领域呈现给了主流受众。



近年来在展示大量数据并让它们容易获取方面人们取得了长足进步,形成一个有活力的创新领域,它融合了计算机科学、统计学、艺术设计和讲故事等诸多学科。



“每个领域都有一些要解决的主要问题。视觉化要解决的是信息为人不能理解的层面和把信息用适合眼睛看到的人性化的方式展现出来的需求。”Wattenberg说。他后来跳到IBM,现在是新一代数据视觉化专家的领军人物。



市场信息很难展示出来,但起码数据都是基于数字的。文字就更难了。描述文字的一种方式是用不同的群集来展示,用更大的字体显示更常见的字。这种被称作“文字云”的应用在网上很常见,它告诉你这篇文字主要是关于什么的。



奥巴马总统上任不久,网上就有了以图形符号方式表现的他21分钟演讲的文字云。其中用得最多的三个词是国家、美国和人民。他的前任则是自主、美国和自由。亚伯拉罕林肯用得最多的是战争、上帝和罪行。这项技术除了发现主题之外还有一个用处。社交网站让用户给网页和图片打上标签来描述内容。“标签云”里的词可以链接到相关内容的列表。



Wattenberg和IBM的同事Fernanda Viégas的另一个展示文本的方法是维基百科上用的编辑表。维基百科是一个在线百科全书,全部由用户自愿写作。软件可以永久记录每一次编辑是谁在何时改动了什么。随着时间推移这是一个很大的数据量。



要绘制整个词条编辑过程就可以用不同的颜色表示不同的用户,用线条粗细显示他们贡献的内容还剩多少。比如“巧克力”词条,开始曲线很平稳一直到一系列粗糙的曲线显示出条目的文字增删多次,其实是背后有激烈的争辩。另一种视觉化效果是用软件观察维基百科的条目变化,用海量颜色显示每次修改,用以提升文章分类品质。



这是艺术吗?这是信息吗?一些数据-视觉作品在纽约惠特尼现代艺术博物馆展出。其他一些写成了书,比如Joanathan Harris和Sep Kamvar的网络项目“我们感觉很好”,就采集了Twitter上每一个含有feel或feeling的句子,匹配以时间、地点、年龄、性别,甚至是天气。



为了把信息视觉化,尽可能多的东西被压缩成原始数据才可以以视觉化表现出来,有时这种方式不同寻常。比如,自然杂志援引的文章来源图就每一条来源刊物并用不同颜色把各个科学领域归类。很容易看到生物类援引的数量很多,这并不奇怪。奇怪的是它还显示援引来源最多的刊物包括物理评论通讯和天体物理日报。




视觉的艺术



自然杂志像一朵绽放的兰花一样可能被人批评图比字多,华而不实;不管它更多艺术也好,更多信息也好,在所有东西都产生海量难以理解的信息的时代,它提供了一个观察世界的新视角。如果说一图抵千字的话,一幅有信息量的图更是抵得上一大坨数据点了。



视觉化是一个相对新的学科。Edward Tufte的经典书籍“数量信息的视觉展示法”被奉为商业圣经,其中提到最常见的图表是时间序列,它直到18世纪后期才开始在科学文献中出现。今天的图表专家在努力开拓新方法,使大量的信息能被强迫使用讲故事的方法展现出来。加州大学伯克利分校的Nathan Yao在他的新书“美丽的数据”中把这样的方式叫做“介乎课本和小说的中间状态”。




自然而已



如果信息以图像而不是文字数字或方式表现的话,大脑就更容易处理。右脑识别形状和颜色。左脑以分析和排序的方式处理信息,当人阅读文字或者表格的时候左脑更加活跃。看数字费神,而以图的方式表现文字则非常容易理解。大脑会识别模型、比例和关系,并潜意识里马上进行比较。商业上很关注这个,在线价格预测服务Farecast就找来应用心理学家来设计网站的图表和配色。



这些图形通常基于大量数据。斯坦福大学的Jeffery Heer协助开发了sense.us网站,人们可以查看一个世纪以上的美国人口普查数据。独立设计室Ben Fry创建了一张美国本土多大2600万条道路地图。稠密的东北部社区和人烟稀少的广袤西部形成鲜明对比。Google的Aaron Koblin绘制了一张24小时的美国商业航班线路图,用更亮的线条代表业务繁忙的航线。



这些技术正在被真实的商业世界应用。Fry先生为GE的医疗部门设计了互动图表,显示病人和保险公司为常见疾病相应承担的费用。媒体公司中纽约时报和英国的卫报最积极地创建有丰富数据并且互动的图表,自给自足。



图形化工具正变得更加容易获取。比如Pat Hanrahan和斯坦福大学在2003年联合创立的Tableau软件,提供和字处理工具之于文字那样的可以让任何人创造性地视觉化信息的工具。Tableau提供免费和收费产品,还运作一个叫做Swivel.com的网站。有些网站全部免费。Google和一个IBM的网站“Many Eyes”让人们上传他们的数据,用新鲜的方式呈现并和他人共享。



一些数据组用动画显示效果最好。随着印刷出版物逐步转向电子阅读器,动画图表将最终成为标准。Gapminder软件就能同时优美地显示四组变量。



信息展示让人们理解复杂事物,发现新的方案,这方面可以有大作为。社会互动关系图表专家Valdis Krebs回忆起他参与一个严重超时超支的公司项目的经历。他画了一个纠结的邮件网络图,图上明显分成几堆,显示各个团队并未直接互相沟通而是让经理们传话。于是公司就改善了办公室布局和工作流程——项目很快就重新回到正轨了。

报纸
kissky 发表于 2012-2-27 05:13:23
信息管理专题

大海捞针
使用信息的信息

2010年2月25日 | 经济学人印刷版

随着信息变得越来越充裕,主要问题不是如何寻找信息而是快捷获取相关的信息。我们需要关于信息的信息。图书管理员和计算机科学家称之为元数据。



信息管理历史悠久。三千年前的亚述,粘土标签被贴在粘土片上,可以轻松地取下来放在篮子或架子里归类。这个思想在20世纪被图书管理员发扬光大了,他们在小小的编目卡上写下书名、作者等等信息,直到后来这些信息被输入电脑。实际的书构成了数据,编目卡则记录了元数据。全世界每天有50亿辆车的标签被扫过也是一个例子。



近来元数据正经历一次虚拟复兴。互联网上的海量信息需要组织起来以派上用场。这一点Google做得很好。它的搜索引擎的原材料是免费的:公共因特网上的网页。增值(和产生元数据)的地方就在于组织信息,根据搜索的相关性排序。



Google处理全世界一半的互联网搜索,每秒处理约35000次查询。元数据是潜在的赚钱业务。“如果你可以控制寻找数据的路径和方式,你就可以向之后不同等级的信息制造者们收租金了。”纽约哥伦比亚商学院的电信经济学家Eli Noam解释说。当然还有些更有亲切一点的应用。比如,上传到Flickr的图片包含何时被照、照相频度以及相机型号等信息,对相机的潜在买家可能有用。



网民们为非结构化的信息比如照片和视频打上标签方便查找。但他们鄙视传统的图书编目方法。相反地,他们会用他们认为很拽的词,这样就形成了一个折中的“大众分类法”。所以奥巴马的照片可能不被会记为“总统”,而可能叫“性感”或“傻X”。好像很混乱啊,不过也未必。



信息被记录在纸张、胶片等有形介质上的话——所有信息各得其所。有了数字信息,同样的内容可以同时在好几个地方存储,David Weinberger写了一本分类学与互联网的书,他说“一切都是混杂的”。数字元数据让事物变得更复杂同时又更简单。

地板
chiaolee 发表于 2012-2-27 12:30:51
很長, 再仔細看, 不過第一句話, 有點意思

信息已从稀缺转为过剩,在带来巨大新利益的同时它也让人头疼。

我認為, 訊息與利益有時是

garbage in, garbage out
患難生忍耐,忍耐生老練,老練生盼望;盼望不至於羞恥

本版微信群
扫码
拉您进交流群
GMT+8, 2026-1-19 14:02