~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/cache_utf8.py

  • Committer: wang
  • Date: 2006-10-29 13:41:32 UTC
  • mto: (2104.4.1 wang_65714)
  • mto: This revision was merged to the branch mainline in revision 2109.
  • Revision ID: wang@ubuntu-20061029134132-3d7f4216f20c4aef
Replace python's difflib by patiencediff because the worst case 
performance is cubic for difflib and people commiting large data 
files are often hurt by this. The worst case performance of patience is 
quadratic. Fix bug 65714.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
# Copyright (C) 2006 Canonical Ltd
 
2
#
 
3
# This program is free software; you can redistribute it and/or modify
 
4
# it under the terms of the GNU General Public License as published by
 
5
# the Free Software Foundation; either version 2 of the License, or
 
6
# (at your option) any later version.
 
7
#
 
8
# This program is distributed in the hope that it will be useful,
 
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
 
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 
11
# GNU General Public License for more details.
 
12
#
 
13
# You should have received a copy of the GNU General Public License
 
14
# along with this program; if not, write to the Free Software
 
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
16
 
 
17
# TODO: Some kind of command-line display of revision properties: 
 
18
# perhaps show them in log -v and allow them as options to the commit command.
 
19
 
 
20
"""Some functions to enable caching the conversion between unicode to utf8"""
 
21
 
 
22
 
 
23
# Map revisions from and to utf8 encoding
 
24
# Whenever we do an encode/decode operation, we save the result, so that
 
25
# we don't have to do it again.
 
26
_unicode_to_utf8_map = {}
 
27
_utf8_to_unicode_map = {}
 
28
 
 
29
 
 
30
def encode(unicode_str,
 
31
           _uni_to_utf8=_unicode_to_utf8_map,
 
32
           _utf8_to_uni=_utf8_to_unicode_map):
 
33
    """Take this unicode revision id, and get a unicode version"""
 
34
    # If the key is in the cache try/KeyError is 50% faster than
 
35
    # val = dict.get(key), if val is None:
 
36
    # On jam's machine the difference is 
 
37
    # try/KeyError:  900ms 
 
38
    #      if None: 1250ms 
 
39
    # Since these are primarily used when iterating over a knit entry
 
40
    # *most* of the time the key will already be in the cache, so use the
 
41
    # fast path
 
42
    try:
 
43
        return _uni_to_utf8[unicode_str]
 
44
    except KeyError:
 
45
        _uni_to_utf8[unicode_str] = utf8_str = unicode_str.encode('utf-8')
 
46
        _utf8_to_uni[utf8_str] = unicode_str
 
47
        return utf8_str
 
48
 
 
49
 
 
50
def decode(utf8_str,
 
51
           _uni_to_utf8=_unicode_to_utf8_map,
 
52
           _utf8_to_uni=_utf8_to_unicode_map):
 
53
    """Take a utf8 revision id, and decode it, but cache the result"""
 
54
    try:
 
55
        return _utf8_to_uni[utf8_str]
 
56
    except KeyError:
 
57
        _utf8_to_uni[utf8_str] = unicode_str = utf8_str.decode('utf-8')
 
58
        _uni_to_utf8[unicode_str] = utf8_str
 
59
        return unicode_str
 
60
 
 
61
 
 
62
def get_cached_unicode(unicode_str):
 
63
    """Return a cached version of the unicode string.
 
64
 
 
65
    This has a similar idea to that of intern() in that it tries
 
66
    to return a singleton string. Only it works for unicode strings.
 
67
    """
 
68
    # This might return the same object, or it might return the cached one
 
69
    # the decode() should just be a hash lookup, because the encode() side
 
70
    # should add the entry to the maps
 
71
    return decode(encode(unicode_str))
 
72
 
 
73
 
 
74
def clear_encoding_cache():
 
75
    """Clear the encoding and decoding caches"""
 
76
    global _unicode_to_utf8_map, _utf8_to_unicode_map
 
77
    _unicode_to_utf8_map.clear()
 
78
    _utf8_to_unicode_map.clear()
 
79