大数据下的全新动作打开了全新的可能

2021-12-21 14:11:05
阿明科技啊
文章摘要: 大多数算法都能从更多的数据中受益,但现在的机器学习算法更具备非常独特的优势。因为机器学习算法能够真正地改变自身的结构,接触到越多样本,就能调校得更优。它们能根据新的证据微调已有规则,使之更加适应。

可预测性和适应性间的平衡不是决策算法所特有的。可以认为,即使是人类历史上最古老的决策系统,我们都能从它的优缺点当中学到重要的一课。类似的,另一个削弱了基于规则的可预测算法作用的弱点,不仅仅是它们在不可预知的场景中性能不佳,而是在于它们无法从错误中学习。

大多数算法都能从更多的数据中受益,但现在的机器学习算法更具备非常独特的优势。因为机器学习算法能够真正地改变自身的结构,接触到越多样本,就能调校得更优。它们能根据新的证据微调已有规则,使之更加适应。这就类似美国司法制度中,复杂的新案例的判决结果成为将来类似案例的判例。法庭见到的案例越多,系统的适应性就变得更强。

另一种可能是机器学习以及所有由数据驱动的分析技术,具有一些根本性挑战,这些挑战所造成了偏见。如果谷歌的算法使用广告点击的历史数据来决定如何在将来更好地进行定向广告投放,那就可能会得出有偏见的结果。举个例子,如果这个广告投放给了并不需要找工作的家庭主妇,那算法就会错误地学习到“女性通常来说不会回应高薪职位”,随后停止向女性投放类似的广告。

或许女性确实点击了这些广告——也许比男性点得还多——但如果她们点击其他广告更多,那投放给她们的也将是其他那些广告。当我们要求机器从大数据学习时,很难精确预测机器会从中得出什么样的偏见。一些人提出的解决方案是不再强调“大数据”,而是关注“更好的数据”,即仔细地组织“干净的”数据集,从中进行学习。就算这个方案在某些情况下行得通,我也不觉得这是通往机器智能的可行途径。

程序员能够精心打造高度复杂的适用于大多数任务的算法,一旦这些算法只运行在小规模的数据集上,它们通常都会输给用大数据武装的简单机器学习算法。2001年,微软的研究者们针对一项语言理解任务,比较了多个机器学习算法的有效性,这些算法都用新闻文章和书籍中提取的文本进行了训练。

每个算法都必须在一组令人混淆的选项中(例如principal和principle,或者then和than)选择一个正确的词语用于句子中。他们发现即使是性能最差的算法,只要用庞大的(比方说10亿个词汇)数据集进行训练,都能轻轻松松打败只能访问小型数据集(比方说250 000个词汇)的最好的算法。计算机科学家彼得·诺维格(Peter Norvig)将此称为“不合常理的数据有效性”。

信息化软件服务网 - 助力数字中国建设 | 责编:夏丽
文明上网,理性发言!请遵守新闻评论服务协议
评论