MD5安全性及相关知识

最近各大网站的用户数据被泄露的新闻炒得沸沸扬扬,刚好与朋友无意间谈起了加密、解密的问题。从事IT职业的很多人都应该知道MD5加密,MD5加密是现在网站中应用很广泛的Hash算法之一。它可以将用户密码加密为128位的长整数。数据库并不明文存储用户密码,而是在用户登录时将输入密码字符串进行MD5加密,与数据库中所存储的MD5值匹配。

因此,MD5用作密码加密算法并不是绝对安全的。因为可以通过生成已知字符串的字典去Hash碰撞查找到。
互联网上有几个MD5解密的网站,大多数的做法是用户输入MD5转换后的值(叫哈希值)与网站中数据库进行对比,从而查询到对应的字符串。

而MD5是Hash算法之一,它的意义在于提供了一种快速存取数据的方法,它用一种算法建立键值与真实值之间的对应关系,(每一个真实值只能有一个键值,但是一个键值可以对应多个真实值,即将数据离散化,以方便存取),这样可以快速在数组等数据结构中存取数据。【此解释来源于百科】

也就是说MD5不是简单的古典加密算法,不能通过逆向Decrypt解密,只能通过Hash碰撞破解(Hack)。

所在,在论理上来说,MD5密码是可以破解的。只要字典够大,计算机运行速度够快。

至于最近各大网站数据库泄露事件,而且被报料称数据库存储的还是明文的。若被攻击者拿到数据库后,用户的密码也根本无需破解了。这件事提醒我们对网站数据库中所保存的用户密码进行加密的重要性。

在这里,我也来说一下我的做法,之前项目中也应用过:
通常用户密码都是MD5加密后存储到数据库,若是数据库被泄露,通过Hash碰撞也是能够破解的。所以,我们可以适当的修改MD5加密算法或方式。(如把字符串多次MD5等方式。当然,你的方式同样不能泄露出去)

下面收藏一下关于MD5的相关知识:

对于散列函数h(x),必须满足下列特性
[1]:
压缩:对于给定输入x,输出长度y=h(x)很小;
效率:对于给定输入x,计算y=h(x)很容易;
单向:该散列函数H是一个单向函数,即对于几乎所有的x,已知H(x)的值y求x是不可行的;
弱无碰撞:已知x,求出x’使得H(x’)==H(x)在计算上是不可行的;
强无碰撞:对于任意x≠x’,H(x’)==H(x)在计算上是不可行的。

MD5的全称是Message-Digest Algorithm 5,在1991年由MIT 的Ronald L. Riverst提出,由MD4演化而来,最终生成128位(4个32位的16进制数)的信息摘要算法。

[2]MD5算法是一个不可逆的字符串变换算法,即看到源程序和算法描述,也无法将一个MD5的值变换回原始的字符串。

1993年,Den Boer和Bosselaers给出了一个有限的“伪碰撞”结果;
1996年,MD5算法的设计被发现有缺陷,虽然当时并未被证明该缺陷是致命的,密码学专家建议使用其它加密算法(如SHA-1)。
2004年,MD5算法被证明不安全,原因是会产生Hash碰撞。[3]
2007年,研究人员发现使用Chosen-prefix Collision方法,可以使包含恶意代码的程序产生合法的MD5值。
2008年,研究人员发现了产生相同MD5 Hash值的两个可执行文件。
以上实例证明,MD5算法的安全性并不高,不能应用于对安全性要求很高的SSL加密及数字签名之中。目前最被推荐的Hash加密算法应为SHA-2加密算法。

MD5算法描述
MD5算法针对不定长的输入,可以输出固定128位长度的加密信息。MD5以512位来分组输入的信息,每一分组又被划分为16个32位子分组,经过算法流程最终生成四个32位数据联合成为128位的散列。

算法的具体过程如下:
(1)信息进行填充,使其位长对512求余的结果等于448。将信息的长度扩展至N*512+448,其中N为一个非负整数,N可以是零。填充的方法为在信息的后面填充一个1和无数个0,直到满足条件。

(2)在这个结果后面附加一个以64位二进制表示的填充前信息长度。经过这两步的处理,现在的信息的位长=N*512+448+64=(N+1)*512,即长度恰好是512的整数倍。这样做的原因是为满足后面处理中对信息长度的要求。MD5中有四个32位被称作链接变量(Chaining Variable)的整数参数,他们的初始值分别为:A=0×67452301,B=0xefcdab89,C=0x98badcfe,D=0×10325476。

(3)进入算法的四轮主循环运算。循环的次数是信息中512位信息分组的数目。主循环有四轮,每轮循环都很相似。第一轮进行16次操作。每次操作对a、b、c和d中的其中三个作一次非线性函数运算,然后将所得结果加上第四个变量,文本的一个子分组和一个常数。再将所得结果向左环移一个不定的数,并加上a、b、c或d中之一。最后用该结果取代a、b、c或d中之一。

(4)经过四轮逐位运算完成之后,将A、B、C、D分别加上a、b、c、d。然后用下一分组数据继续运行算法,最后的输出是A、B、C和D的级联。

存在问题
虽然MD5为单向Hash加密,是不可逆的,但根据鸽巢原理,MD5算法所产生的32位输出所能够表示的空间大小为1632,即当样本大于1632≈3.4 × 1038时就会产生Hash碰撞。由这一结论可知,我们可以生成大量密码样本的哈希值,得到密码和哈希值的一一对应关系,然后根据这个对应关系反查就可以得到哈希值所对应的密码。但在破解密码的MD5值之前,我们需要预先计算出大量数据所对应的MD5值。

而在互联网应用方面,如果如文章开始所提出的问题一样,只是对用户密码进行简单MD5加密,是有可能通过查表入侵用户账户的(尽管密码可能不是用户的原始密码)。然而对于强密码来说,通过暴力穷举破解MD5值的代价也是相当大的。但根据统计结论,有相当多的用户会使用弱密码,因此可以根据统计规律建立简单密码所对应的MD5值表,从而入侵使用简单密码的用户账户。

改进方法
由于对于密码学Hash函数还需要的特性是具有雪崩效应,或者严格雪崩效应。其目标是对于输入任何小的改动将使输出变化很大。理想情况下改变任何输入所得到的输出结果都不相关,那么攻击者寻找碰撞就必须进行穷举搜索。由于MD5算法的这一效应,我们可以在用户密码创建时生成一个随机字符串(称之为Salt,在另一个数据表或数据库中存储)与用户口令连接在一起,然后再用散列函数对这个字符串进行MD5加密,之后将MD5加密结果结果存入数据库中。如果Salt值的数目足够大的话,它实际上就消除了对常用口令采用的字典式攻击,因为黑客不可能在数据库中存储那么多Salt和用户密码组合后的MD5值。当然,如果黑客获得了数据库的所有信息(包括Salt表),他们仍可以对单个用户的密码进行暴力枚举破解。但将每个密码后加一随机串,无疑增加了暴力枚举的难度,且不存在弱口令的问题了。更加安全的做法是,我们可以给每个密码设置一个随机的Salt值,这样即使使用暴力枚举破解了一个用户的密码,也很难再破解其他用户的密码了。

除了给MD5算法加盐,其它的增强用户密码安全性的主动措施有使用更加耗时的加密算法,这样使破解的时间也大大增加了;或者更换更安全的加密算法如SHA-2算法;还可以像Twitter一样强制用户使用复杂密码等等。

相关日志

发表于:2011-12-28 13:36:19 at 13:36 分类:代码 1条评论 Tags:, ,

一条评论»

  1. Jimmy说道:

    纯MD5安全性实在不行,彩虹表碰碰就中奖

发表评论

(必填)

(必填)您的电子邮箱不会被公开。

正在加载信息...

Archives