~bzr-pqm/bzr/bzr.dev

« back to all changes in this revision

Viewing changes to bzrlib/cache_utf8.py

  • Committer: John Arbash Meinel
  • Date: 2007-03-01 21:56:19 UTC
  • mto: (2255.7.84 dirstate)
  • mto: This revision was merged to the branch mainline in revision 2322.
  • Revision ID: john@arbash-meinel.com-20070301215619-wpt6kz8yem3ypu1b
Update to dirstate locking.
Move all of WT4.lock_* functions locally, so that they can
properly interact and cleanup around when we lock/unlock the
dirstate file.
Change all Lock objects to be non-blocking. So that if someone
grabs a lock on the DirState we find out immediately, rather
than blocking.
Change WT4.unlock() so that if the dirstate is dirty, it will
save the contents even if it only has a read lock.
It does this by trying to take a write lock, if it fails
we just ignore it. If it succeeds, then we can flush to disk.
This is more important now that DirState tracks file changes.
It allows 'bzr status' to update the cached stat and sha values.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
# Copyright (C) 2006 Canonical Ltd
 
2
#
 
3
# This program is free software; you can redistribute it and/or modify
 
4
# it under the terms of the GNU General Public License as published by
 
5
# the Free Software Foundation; either version 2 of the License, or
 
6
# (at your option) any later version.
 
7
#
 
8
# This program is distributed in the hope that it will be useful,
 
9
# but WITHOUT ANY WARRANTY; without even the implied warranty of
 
10
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 
11
# GNU General Public License for more details.
 
12
#
 
13
# You should have received a copy of the GNU General Public License
 
14
# along with this program; if not, write to the Free Software
 
15
# Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
 
16
 
 
17
# TODO: Some kind of command-line display of revision properties: 
 
18
# perhaps show them in log -v and allow them as options to the commit command.
 
19
 
 
20
"""Some functions to enable caching the conversion between unicode to utf8"""
 
21
 
 
22
import codecs
 
23
 
 
24
 
 
25
_utf8_encode = codecs.getencoder("utf-8")
 
26
_utf8_decode = codecs.getdecoder("utf-8")
 
27
 
 
28
# Map revisions from and to utf8 encoding
 
29
# Whenever we do an encode/decode operation, we save the result, so that
 
30
# we don't have to do it again.
 
31
_unicode_to_utf8_map = {}
 
32
_utf8_to_unicode_map = {}
 
33
 
 
34
 
 
35
def encode(unicode_str,
 
36
           _uni_to_utf8=_unicode_to_utf8_map,
 
37
           _utf8_to_uni=_utf8_to_unicode_map,
 
38
           _utf8_encode=_utf8_encode):
 
39
    """Take this unicode revision id, and get a unicode version"""
 
40
    # If the key is in the cache try/KeyError is 50% faster than
 
41
    # val = dict.get(key), if val is None:
 
42
    # On jam's machine the difference is 
 
43
    # try/KeyError:  900ms 
 
44
    #      if None: 1250ms 
 
45
    # Since these are primarily used when iterating over a knit entry
 
46
    # *most* of the time the key will already be in the cache, so use the
 
47
    # fast path
 
48
    try:
 
49
        return _uni_to_utf8[unicode_str]
 
50
    except KeyError:
 
51
        _uni_to_utf8[unicode_str] = utf8_str = _utf8_encode(unicode_str)[0]
 
52
        _utf8_to_uni[utf8_str] = unicode_str
 
53
        return utf8_str
 
54
 
 
55
 
 
56
def decode(utf8_str,
 
57
           _uni_to_utf8=_unicode_to_utf8_map,
 
58
           _utf8_to_uni=_utf8_to_unicode_map,
 
59
           _utf8_decode=_utf8_decode):
 
60
    """Take a utf8 revision id, and decode it, but cache the result"""
 
61
    try:
 
62
        return _utf8_to_uni[utf8_str]
 
63
    except KeyError:
 
64
        unicode_str = _utf8_decode(utf8_str)[0]
 
65
        _utf8_to_uni[utf8_str] = unicode_str
 
66
        _uni_to_utf8[unicode_str] = utf8_str
 
67
        return unicode_str
 
68
 
 
69
 
 
70
def get_cached_unicode(unicode_str):
 
71
    """Return a cached version of the unicode string.
 
72
 
 
73
    This has a similar idea to that of intern() in that it tries
 
74
    to return a singleton string. Only it works for unicode strings.
 
75
    """
 
76
    # This might return the same object, or it might return the cached one
 
77
    # the decode() should just be a hash lookup, because the encode() side
 
78
    # should add the entry to the maps
 
79
    return decode(encode(unicode_str))
 
80
 
 
81
 
 
82
def get_cached_utf8(utf8_str):
 
83
    """Return a cached version of the utf-8 string.
 
84
 
 
85
    Get a cached version of this string (similar to intern()).
 
86
    At present, this will be decoded to ensure it is a utf-8 string. In the
 
87
    future this might change to simply caching the string.
 
88
    """
 
89
    return encode(decode(utf8_str))
 
90
 
 
91
 
 
92
def get_cached_ascii(ascii_str,
 
93
                     _uni_to_utf8=_unicode_to_utf8_map,
 
94
                     _utf8_to_uni=_utf8_to_unicode_map):
 
95
    """This is a string which is identical in utf-8 and unicode."""
 
96
    # We don't need to do any encoding, but we want _utf8_to_uni to return a
 
97
    # real Unicode string. Unicode and plain strings of this type will have the
 
98
    # same hash, so we can just use it as the key in _uni_to_utf8, but we need
 
99
    # the return value to be different in _utf8_to_uni
 
100
    ascii_str = _uni_to_utf8.setdefault(ascii_str, ascii_str)
 
101
    _utf8_to_uni.setdefault(ascii_str, unicode(ascii_str))
 
102
    return ascii_str
 
103
 
 
104
 
 
105
def clear_encoding_cache():
 
106
    """Clear the encoding and decoding caches"""
 
107
    _unicode_to_utf8_map.clear()
 
108
    _utf8_to_unicode_map.clear()