~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/cache_utf8.py

  • Committer: John Arbash Meinel
  • Date: 2006-10-11 00:23:23 UTC
  • mfrom: (2070 +trunk)
  • mto: This revision was merged to the branch mainline in revision 2071.
  • Revision ID: john@arbash-meinel.com-20061011002323-82ba88c293d7caff
[merge] bzr.dev 2070

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
# Copyright (C) 2006 Canonical Ltd
 
1
# Copyright (C) 2006 Canonical
2
2
#
3
3
# This program is free software; you can redistribute it and/or modify
4
4
# it under the terms of the GNU General Public License as published by
19
19
 
20
20
"""Some functions to enable caching the conversion between unicode to utf8"""
21
21
 
22
 
import codecs
23
 
 
24
 
 
25
 
_utf8_encode = codecs.getencoder("utf-8")
26
 
_utf8_decode = codecs.getdecoder("utf-8")
27
 
# wrap _utf8_decode to support None->None for optional strings.
28
 
def _utf8_decode_with_None(bytestring, _utf8_decode=_utf8_decode):
29
 
    if bytestring is None:
30
 
        return (None, 0)
31
 
    else:
32
 
        return _utf8_decode(bytestring)
33
22
 
34
23
# Map revisions from and to utf8 encoding
35
24
# Whenever we do an encode/decode operation, we save the result, so that
40
29
 
41
30
def encode(unicode_str,
42
31
           _uni_to_utf8=_unicode_to_utf8_map,
43
 
           _utf8_to_uni=_utf8_to_unicode_map,
44
 
           _utf8_encode=_utf8_encode):
 
32
           _utf8_to_uni=_utf8_to_unicode_map):
45
33
    """Take this unicode revision id, and get a unicode version"""
46
34
    # If the key is in the cache try/KeyError is 50% faster than
47
35
    # val = dict.get(key), if val is None:
54
42
    try:
55
43
        return _uni_to_utf8[unicode_str]
56
44
    except KeyError:
57
 
        _uni_to_utf8[unicode_str] = utf8_str = _utf8_encode(unicode_str)[0]
 
45
        _uni_to_utf8[unicode_str] = utf8_str = unicode_str.encode('utf-8')
58
46
        _utf8_to_uni[utf8_str] = unicode_str
59
47
        return utf8_str
60
48
 
61
49
 
62
50
def decode(utf8_str,
63
51
           _uni_to_utf8=_unicode_to_utf8_map,
64
 
           _utf8_to_uni=_utf8_to_unicode_map,
65
 
           _utf8_decode=_utf8_decode):
 
52
           _utf8_to_uni=_utf8_to_unicode_map):
66
53
    """Take a utf8 revision id, and decode it, but cache the result"""
67
54
    try:
68
55
        return _utf8_to_uni[utf8_str]
69
56
    except KeyError:
70
 
        unicode_str = _utf8_decode(utf8_str)[0]
71
 
        _utf8_to_uni[utf8_str] = unicode_str
 
57
        _utf8_to_uni[utf8_str] = unicode_str = utf8_str.decode('utf-8')
72
58
        _uni_to_utf8[unicode_str] = utf8_str
73
59
        return unicode_str
74
60
 
85
71
    return decode(encode(unicode_str))
86
72
 
87
73
 
88
 
def get_cached_utf8(utf8_str):
89
 
    """Return a cached version of the utf-8 string.
90
 
 
91
 
    Get a cached version of this string (similar to intern()).
92
 
    At present, this will be decoded to ensure it is a utf-8 string. In the
93
 
    future this might change to simply caching the string.
94
 
    """
95
 
    return encode(decode(utf8_str))
96
 
 
97
 
 
98
 
def get_cached_ascii(ascii_str,
99
 
                     _uni_to_utf8=_unicode_to_utf8_map,
100
 
                     _utf8_to_uni=_utf8_to_unicode_map):
101
 
    """This is a string which is identical in utf-8 and unicode."""
102
 
    # We don't need to do any encoding, but we want _utf8_to_uni to return a
103
 
    # real Unicode string. Unicode and plain strings of this type will have the
104
 
    # same hash, so we can just use it as the key in _uni_to_utf8, but we need
105
 
    # the return value to be different in _utf8_to_uni
106
 
    ascii_str = _uni_to_utf8.setdefault(ascii_str, ascii_str)
107
 
    _utf8_to_uni.setdefault(ascii_str, unicode(ascii_str))
108
 
    return ascii_str
109
 
 
110
 
 
111
74
def clear_encoding_cache():
112
75
    """Clear the encoding and decoding caches"""
 
76
    global _unicode_to_utf8_map, _utf8_to_unicode_map
113
77
    _unicode_to_utf8_map.clear()
114
78
    _utf8_to_unicode_map.clear()
 
79