~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/cache_utf8.py

  • Committer: John Arbash Meinel
  • Date: 2011-05-11 11:35:28 UTC
  • mto: This revision was merged to the branch mainline in revision 5851.
  • Revision ID: john@arbash-meinel.com-20110511113528-qepibuwxicjrbb2h
Break compatibility with python <2.6.

This includes auditing the code for places where we were doing
explicit 'sys.version' checks and removing them as appropriate.

Show diffs side-by-side

added added

removed removed

Lines of Context:
12
12
#
13
13
# You should have received a copy of the GNU General Public License
14
14
# along with this program; if not, write to the Free Software
15
 
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
15
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
16
16
 
17
 
# TODO: Some kind of command-line display of revision properties: 
 
17
# TODO: Some kind of command-line display of revision properties:
18
18
# perhaps show them in log -v and allow them as options to the commit command.
19
19
 
20
20
"""Some functions to enable caching the conversion between unicode to utf8"""
21
21
 
 
22
import codecs
 
23
 
 
24
 
 
25
_utf8_encode = codecs.utf_8_encode
 
26
_utf8_decode = codecs.utf_8_decode
 
27
def _utf8_decode_with_None(bytestring, _utf8_decode=_utf8_decode):
 
28
    """wrap _utf8_decode to support None->None for optional strings.
 
29
 
 
30
    Also, only return the Unicode portion, since we don't care about the second
 
31
    return value.
 
32
    """
 
33
    if bytestring is None:
 
34
        return None
 
35
    else:
 
36
        return _utf8_decode(bytestring)[0]
22
37
 
23
38
# Map revisions from and to utf8 encoding
24
39
# Whenever we do an encode/decode operation, we save the result, so that
29
44
 
30
45
def encode(unicode_str,
31
46
           _uni_to_utf8=_unicode_to_utf8_map,
32
 
           _utf8_to_uni=_utf8_to_unicode_map):
 
47
           _utf8_to_uni=_utf8_to_unicode_map,
 
48
           _utf8_encode=_utf8_encode):
33
49
    """Take this unicode revision id, and get a unicode version"""
34
50
    # If the key is in the cache try/KeyError is 50% faster than
35
51
    # val = dict.get(key), if val is None:
36
 
    # On jam's machine the difference is 
37
 
    # try/KeyError:  900ms 
38
 
    #      if None: 1250ms 
 
52
    # On jam's machine the difference is
 
53
    # try/KeyError:  900ms
 
54
    #      if None: 1250ms
39
55
    # Since these are primarily used when iterating over a knit entry
40
56
    # *most* of the time the key will already be in the cache, so use the
41
57
    # fast path
42
58
    try:
43
59
        return _uni_to_utf8[unicode_str]
44
60
    except KeyError:
45
 
        _uni_to_utf8[unicode_str] = utf8_str = unicode_str.encode('utf-8')
 
61
        _uni_to_utf8[unicode_str] = utf8_str = _utf8_encode(unicode_str)[0]
46
62
        _utf8_to_uni[utf8_str] = unicode_str
47
63
        return utf8_str
48
64
 
49
65
 
50
66
def decode(utf8_str,
51
67
           _uni_to_utf8=_unicode_to_utf8_map,
52
 
           _utf8_to_uni=_utf8_to_unicode_map):
 
68
           _utf8_to_uni=_utf8_to_unicode_map,
 
69
           _utf8_decode=_utf8_decode):
53
70
    """Take a utf8 revision id, and decode it, but cache the result"""
54
71
    try:
55
72
        return _utf8_to_uni[utf8_str]
56
73
    except KeyError:
57
 
        _utf8_to_uni[utf8_str] = unicode_str = utf8_str.decode('utf-8')
 
74
        unicode_str = _utf8_decode(utf8_str)[0]
 
75
        _utf8_to_uni[utf8_str] = unicode_str
58
76
        _uni_to_utf8[unicode_str] = utf8_str
59
77
        return unicode_str
60
78
 
71
89
    return decode(encode(unicode_str))
72
90
 
73
91
 
 
92
def get_cached_utf8(utf8_str):
 
93
    """Return a cached version of the utf-8 string.
 
94
 
 
95
    Get a cached version of this string (similar to intern()).
 
96
    At present, this will be decoded to ensure it is a utf-8 string. In the
 
97
    future this might change to simply caching the string.
 
98
    """
 
99
    return encode(decode(utf8_str))
 
100
 
 
101
 
 
102
def get_cached_ascii(ascii_str,
 
103
                     _uni_to_utf8=_unicode_to_utf8_map,
 
104
                     _utf8_to_uni=_utf8_to_unicode_map):
 
105
    """This is a string which is identical in utf-8 and unicode."""
 
106
    # We don't need to do any encoding, but we want _utf8_to_uni to return a
 
107
    # real Unicode string. Unicode and plain strings of this type will have the
 
108
    # same hash, so we can just use it as the key in _uni_to_utf8, but we need
 
109
    # the return value to be different in _utf8_to_uni
 
110
    ascii_str = _uni_to_utf8.setdefault(ascii_str, ascii_str)
 
111
    _utf8_to_uni.setdefault(ascii_str, unicode(ascii_str))
 
112
    return ascii_str
 
113
 
 
114
 
74
115
def clear_encoding_cache():
75
116
    """Clear the encoding and decoding caches"""
76
 
    global _unicode_to_utf8_map, _utf8_to_unicode_map
77
117
    _unicode_to_utf8_map.clear()
78
118
    _utf8_to_unicode_map.clear()
79