美国特种作战部队大数据需求与开发

【知远导读】面对大数据广阔的军事应用前景,美军早在1997年就提出大数据概念,并将其作为发展战略重点,以确保美军在信息领域的优势。特种作战部队作为美国一支重要的军事战略力量,通过对大数据的有效开发,利用大数据工具提高特种作战队员的思维规律,预测对手的作战 行动、战场态势的发展变化等复杂问题,从而在某种程度上破解甚至消除“战争迷雾”。基于此,本文首先定义大数据,然后评估特种作战部队大数据的需求、机遇和挑战,重点是冲突前的态势和环境。最后又分析了联合国“全球脉动计划”是如何利用数据科学和分析开展人道主义行动和实现可持续发展的,它在为特种作战部队开发大数据方面产生了深刻的启示和经验教训。

 

民事部门对大数据、分析和机器学习的应用每年呈指数级级增长。与民事部门相比,美国军方并未充分利用大数据的潜力。大数据分析在国防部具有广泛的适用性,然而,本文将重点关注美国特种作战司令部(USSOCOM)中大数据的使用。联合特种作战大学2018年特种作战研究主题,强调了美国特种作战司令部对大数据的兴趣。由于美国特种作战司令部是一个独特的作战司令部,包含了各种核心军事行动,其任务通常需要使用特殊技术、技能和能力,以在动态、严峻的环境和情况下行动,核心活动包括非常规战(UW)、反叛乱(COIN)、军事信息支援行动和民事行动,这些都是大数据分析和公共信息挖掘增强对以人口为中心问题理解的例子。由于美国特种作战司令部的核心活动本质上千差万别,因此在整个特种作战部队(SOF)中确定大数据需求和解决方案仍然具有挑战性。这些挑战包括收集数据类型、数据分析、数据管理、将信息与其他情报整合、改变文化和治理、制定大数据使用政策、跨多个领域发展具有数据能力的部队,以及招聘有才能的数据科学家和分析师。首先应该制定战略,然后确定大数据和分析需求。为美国特种作战司令部制定大数据战略和政策超出了本文的范围。本文将着重于大数据开发——特别是针对特种作战部队冲突前活动的非机密、开放源码数据。

在诸如反叛乱之类的行动中,特种作战部队在许可或半许可的环境中与东道国一起工作,并嵌入在当地民众中,特种作战部队可以核实和验证从大数据中产生的潜在可付诸行动的信息。另一方面,在非常规战拒止环境中,大数据分析可通过增强态势感知,加强指示和警告,提供有关潜在暴乱地区的实时反馈,以及帮助做出危机前的决策来帮助特种作战部队,这是特种作战部队最有效的地方。根据美国陆军特种作战司令部(USASOC)关于俄罗斯现代非常规战的非机密报告,题目为“小绿人”:现代俄罗斯非常规战入门,乌克兰2013-3014。俄罗斯人采用了各种动能、非动能、非对称、非线性行动,并将典型的权力工具扩展到包括信息、经济、金融和文化活动中。作者进一步阐述了跨域(如,互联网、报纸和博客)的信息战包含如何操纵和欺骗。从开源信息的观察中产生了关于活动、事件和新问题的实时证据和推理,特别是在非传统武装冲突中,需要更好的灵敏性来适应模糊、复杂和破坏性强的安全环境。

2012年阿拉伯之春(Arab Spring)暴动期间的情报疏漏,是利用大数据重要性的另一个例子。国防情报局前副局长大卫·谢德(David Shedd)承认了这种情报失误,并认为有必要讨论“如何利用现有的大量的开源信息,推断出可能出现的趋势”。美国特种作战司令部第11任司令雷蒙德·托马斯三世将军在2017年5月向参议院武装委员会致辞时也指出,大数据有助于信息环境和全源情报,可在冲突之前使人们更好地理解当地社会文化、教育、经济和政治问题。

为更好地理解为特种作战部队需求而开发大数据,本文首先定义大数据,然后评估特种作战部队大数据的需求、机遇和挑战,重点是冲突前的态势和环境。最后,本文分析了联合国“全球脉动计划”(Global Pulse program)是如何利用数据科学和分析开展人道主义行动和实现可持续发展的,它在为特种作战部队开发大数据方面产生了深刻的启示和经验教训。

定义大数据

在互联网上快速搜索一下,就会发现大数据的多种定义。根据美国国家标准与技术研究院(National  Institute of Standards and Technology)的说法,大数据是“广泛的数据集……需要一个可扩展的用于高效存储、操作和分析的架构。”大数据挑战通常以各种“V”字母开头的单词为特征,例如大容量、多样性、快速度和真实性。顾名思义,大数据涉及大量信息。我们生活在一个由数据驱动的密集技术世界中,我们每天产生大约2.3兆字节的数据(2.3万亿字节),随着越来越多的人进入数字时代,包括欠发达地区的人们,这个数字还在不断增长。除了大容量外,数据的多样性还以不同的形式出现,比如电子邮件、视频、照片、推文、在线交易和录音。收集到的数据中约有95%是非结构化的(如,照片、视频、无线广播、网页和社交媒体数据等),这意味着它们以不易管理的形式存在。分析非结构化数据以提取知识非常具有挑战性,需要专门的数据分析工具。数据挖掘是机器学习的一种形式,它将大量数据提取、处理和分析,成为有用的用户信息。大数据的速度描述了数据传输的速度,以及数据处理和分析的速度。随着计算机数据交换技术的改进和网络联通性的增强,数据传输速度快到令人难以置信,但处理和分析数据仍然具有挑战性。由于数据的容量巨大,自动化分析相对于手动分析是必要的。大数据第四个特征是真实性。使用机器学习可以使计算机从大数据中学习,识别错误数据,并加强对将数据的处理和分析,从而提高数据的准确性。

尽管大数据的定义有很多种,而且常常被过度使用,但利用大数据获取有用或可行的情报是关键因素。空军未来作战概念《2035年空军视角》描述了大数据如何“帮助从所有来源收集信息,并提高人类评估、解释和预测对手行动的能力,同时提供改进的情报传递机制。”特种作战部队可以利用各种开源信息的数据来支持其冲突前的活动。下面将重点介绍特种作战部队的大数据需求和挑战。

特种作战部队冲突前活动中的大数据需求和挑战

大数据需求

与民用商业部门相比,美国军方在大数据开发方面相对滞后。第32任国防部副部长罗伯特·沃克(Robert O. Work)解释道:“大数据、超级计算机、小型化、机器人技术、人工智能和纳米技术等,所有这些都是由商业部门推动的。”五角大楼战略能力办公室前主任威尔·罗珀(Will Roper)也认为:“五角大楼没有认识到数据将成为未来战争中的主要工具、动力和武器之一。我们对待数据的方式与谷歌、苹果或亚马逊等公司不同。”他强调了国防部为机器学习保存和存储所有数据的重要性,以帮助战斗人员将数据用作战略资源。此外,由退役的军队、政府和行业专家组成的国防科学委员会(DSB),就信息技术向美国国防部提供科学和技术咨询。该委员会在几份报告中强调,需要有一个整体型政府,超越传统情报来源的以人口为中心的原则,利用社交媒体和物联网的数据、数据科学和数据分析,以便更好地在非常规军事行动中运作,包括维稳、反叛乱和受限制的行动。此外,海军陆战队情报、监视与侦察(ISR)计划强调了利用开源信息、社交媒体和创新方式,增加对复杂、易变,不确定环境的了解的重要性。幸运的是,国防部已经认识到大数据开发的重要性和必要性。正如参谋长联席会议的“联合作战拱顶石概念:联合部队2030”所强调的那样,联合部队必须改进“大数据综合以及传统与非传统情报的融合。”美国国防部存在大数据需求,供美国国防部长和参谋长联席会议主席利用。

军事组织可以利用大数据来提高任务效率,特别是在未来由有争议的规范和持续无序主导的冲突中,正如《联合作战环境2035》所描述的那样。大数据开发特别适用于特种作战部队,因此对特种作战部队人员有很高的期望,希望他们能够在与理解社会、文化、物理、信息和心理元素相关的复杂的人类域(human domain)中行动。事实证明,这一点极具挑战性,因为即使在同一地区,人群中也可能会充斥着多种文化、习俗和语言。然而,来自大数据的信息可能会通过增强特种作战部队态势感知,使特种作战部队在人类域更有效地发挥作用。此外,特种作战部队通常在需要小规模作战的小型部队中行动,因此,从大数据中获取可操作的情报以确保任务成功的需求就更加重要了。

例如,就非常规战而言,特种作战部队在拒止环境下行动,并且很难收集有关当地人口的情报,来自公开资料来源的大数据提供了以人口为中心的见解。直播电台广播和公共社交媒体网站或平台很容易被监控,从而产生有价值的开源情报(OSINT)。例如,了解公民的不满和看法,以及对社会、经济、政治、地理和人道主义问题的态势感知。负面情绪的增加或抗议活动的上升趋势可能会引发人力情报(HUMINT)、地理空间情报(GEOINT)和其他情报收集手段的决策。正如JP3.0《联合作战》所解释的那样,“在美国政府或美国军事存在很少的地方,开源情报可能是最好的即时可用信息,为美军在外国作战做准备。”来自开源信息的大数据也有助于核实或消除其他情报来源的冲突,以协助决策和实施行动。

另一方面,过多的数据可能会使问题恶化,并拖延决策。在机器学习的帮助下,将收集到的海量大数据进行排序,留下未使用的、无关的数据。所选数据将进一步分析、处理,并转化为可操作的情报和其他情报,以便更快地分发给决策者。此外,大数据分析提供了对特种作战部队不应关注的目标领域的见解,从而节省了宝贵的时间和资源。从各种公开来源开发大数据可能揭示预测分析的趋势和模式,以及潜在冲突的指标。

作战和技术上的挑战、限制和问题

与商业部门一样,国防部也面临着与大数据的大容量 、多样性、快速度和真实性等属性相关的挑战。基本问题包括:特种作战部队应该从哪里收集数据?如何收集?是否可靠?在泽内普·图费克奇(Zeynep Tufekci)的文章《社交媒体大数据的大问题:代表性、有效性和其他方法论陷阱》中,对数据的解释可能具有挑战性,因为社会文化互动和人类行为都是可变且复杂的,不容易被算法理解。当地居民的情绪很容易因他们目前的环境和状况而波动。此外,过度依赖某一类型的社交媒体来源的数据研究社交活动,可能无法对整个人群的社会问题做出准确的评估。例如,皮尤研究中心(Pew Research Center)发现,与老年人相比,年经的互联网用户更倾向于使用推特(Twitter)。此外,并非所有发展中国家的成员都可以使用手机、互联网或信息基础设施。在这两种情况下,收集的数据都来自能够负担和获得技术的小群体,这可能会对一定年龄或更富裕的群体产生偏见的结论,而不能代表整个人口。当然,这并不会导致社交媒体数据挖掘的自动消失,因为统计数据表明,发展中国家产生的数据量继续呈指数级级增长。根据思科视觉网络指数,2016年全球新增移动设备超过4亿部,其中中东和非洲的移动流量增长率最高,达到96%。

滥用信息技术可能会增加暴力和冲突,1994年的卢旺达种族大屠杀证明了这一点,暴力行为者使用无线电广播进行种族宣传。如今,社交媒体的广泛使用导致滥用,可快速传播不准确或恶意的信息,影响新闻周期(例如病毒视频)。数据常常被人为操纵或曲解,以达到自身的利益。例如,“推特炸弹”被定义为“使用多个帐户在微博网站推特上发布类似的标签、关键词和链接,目的是吸引更多的人浏览某个网站、产品、服务或想法”,放大假新闻,并将目标针对种族群体,甚至针对美国军事人员和部队。因此,当试图利用大数据获取冲突前情报或行动时,特种作战部队必须考虑数据源,并确定是否存在任何偏差。《人道主义技术:批判性研究议程》一书的作者克里斯汀·贝格托拉·桑德维克(Kristin Bergtora Sandvik)认为,由于远离冲突现场,信息技术剥夺了人性原则。换言之,当直接观察冲突时,诸如共情这样的情感因素可能不会被技术正确地感知到。

即使技术旨在提供中立和公正性,但由于人类具有可能的偏见,因此数据的收集和解释可能并非中立。其他人则认为,大数据分析的好处之一是消除了情感偏见,以帮助决策。然而,在某些环境中,领导者需要本能和直觉,以及对群体情绪的理解,而这些并不一定会被大数据分析所揭示。处理数据的最大问题之一是保护敏感的个人信息(例如位置、性别和财务数据)和隐私。随着移动电话元数据(包括通话日志和位置数据)的出现,也会出现部队保护问题。对手可以使用数据分析功能来链接服务成员的个人、已部署和临时值班地点。

除了收集数据的挑战和局限性外,有效地将大量数据处理成有用的信息至关重要。更具体地说,必须挖掘数据,通过计算方法提取有用的信息,并以一种容易理解的形式(如直方图和散点图)将其可视化,供数据科学家和分析人员解释。否则,大量的数据或难以理解的报告将是无用的,或者更重要的是,成为无法采取行动的情报。机器学习、数据挖掘、统计分析和算法开发有助于克服大数据大容量、多样性、快速度和真实性等问题。正如美国特种作战司令部前司令托马斯将军所解释的那样,“机器学习将帮助我们减少花费数千小时对大量数据进行排序的工作量”,就像处理和分析特种作战部队的开源信息一样。

重要的是要明白,大数据如果不进行分析就是无用的,而这些系统中仍然存在着信任问题。在罗伯特·迪克森上校的文章《将大数据引入特大城市战争》中,领导人关于如何使用大数据的判断和决定仍然至关重要,因为“数据分析通常揭示相关性,但并不明确说明因果关系。”为了进一步说明,数据分析可能表明一个群体的社会和政治活动与该地区恐怖活动的增加之间存在相关性,但目标群体可能不是该恐怖事件的起因。特种作战部队数据科学家和领导者必须了解,并意识到大数据分析的局限性。正如美国国家航空和航天情报中心(National Air and Space Intelligence Center)通信和信息局(Communications and Information Directorate)技术主任大卫·德雷克(David Drake)所解释的那样,“一个巨大的挑战是,相对于创建大数据分析算法期间可能没有考虑到的其他数据,数据本身可能具有特定的语境和∕或语义意义。”尽管在智能数据挖掘和认知计算等大数据方面有重要的研究,但人的因素在大数据分析中仍然起着至关重要的作用。

一旦完成数据收集、处理和分析步骤,将这些信息与其他来源(如人力情报)的情报整合起来进行决策和采取行动仍然是一项挑战。正如美国空军情报、监视和侦察副参谋长在《革命性的空军情报分析》一文中解释的那样,来自传统和非传统来源的各种大数据,来自新技术的传感器和开源信息构成了军事行动范围内的挑战。然而,领导者和用户必须记住,虽然大数据可能会增强态势感知,但它不应该是决策的唯一理由。《智慧城市:大数据、民间黑客和新乌托邦的探索》一书的作者安德尼·汤森(Anthony Townsend)警告称,尽管数据揭示了问题的可见性,但领导人需要注意数据不足的问题,不要仓促采取行动和做出决定。决策者需要通过其他来源(例如,卫星图像、无人驾驶航空系统或亲自观察)核实信息,因为大数据组件只是情报收集难题的一部分。
(平台编辑:黄潇潇)
2020-08-17
智邦网声明:本平台发布部分内容来自公开资料或者网络,版权归原作者所有,转载的目的在于传递信息及用于网络分享,不代表本平台赞同其观点,如涉版权问题,请与我们联系,我们第一时间处理!